1. Wikiデータのダウンロード
wikimediaからwikipediaのデータをダウンロード.
Example: wiki2014というディレクトリで、
wget https://dumps.wikimedia.org/enwiki/20140614/enwiki-20140614-pages-articles.xml.bz2
wget https://dumps.wikimedia.org/enwiki/20140614/enwiki-20140614-pagelinks.sql.gz
wget https://dumps.wikimedia.org/enwiki/20140614/enwiki-20140614-categorylinks.sql.gz
2. JWPLのダウンロード
mavenにパッケージがあるので、
http://search.maven.org/#search|ga|1|tudarmstadt.ukp から
ArtifactId が de.tudarmstadt.ukp.wikipedia.datamachine の行にある jar-with-dependencies.jarをwgetする。
ここでは、full-0.9.2.jarとrenameしておく。
3. JWPLの実行
java -Xmx8g -jar full-0.9.2.jar english Contents Disambiguation_pages PATH_TO_"wiki20104"
(4GB以上が推奨らしいです。)
自分の場合は7時間くらいで終わった。
最終更新:2014年07月17日 09:16