wikipedia dump to text

JWPLを勧められたので、使ってみた。
https://code.google.com/p/jwpl/

1. Wikiデータのダウンロード

wikimediaからwikipediaのデータをダウンロード.
 Example: wiki2014というディレクトリで、
 wget https://dumps.wikimedia.org/enwiki/20140614/enwiki-20140614-pages-articles.xml.bz2
 wget https://dumps.wikimedia.org/enwiki/20140614/enwiki-20140614-pagelinks.sql.gz
 wget https://dumps.wikimedia.org/enwiki/20140614/enwiki-20140614-categorylinks.sql.gz

2. JWPLのダウンロード

mavenにパッケージがあるので、http://search.maven.org/#search|ga|1|tudarmstadt.ukp から
ArtifactId が de.tudarmstadt.ukp.wikipedia.datamachine の行にある jar-with-dependencies.jarをwgetする。
ここでは、full-0.9.2.jarとrenameしておく。

3. JWPLの実行

java -Xmx8g -jar full-0.9.2.jar english Contents Disambiguation_pages PATH_TO_"wiki20104"
 (4GB以上が推奨らしいです。)
自分の場合は7時間くらいで終わった。

タグ:

NLP
最終更新:2014年07月17日 09:16