mecab オリジナル辞書とpython wrapper

すでにうろ覚え気味なのだけど、メモ。

基本的な流れはこちらから。

matrix.def

上の手順には載っていませんが、作成が必要です。
こちらに詳細?があります。

個人的につまづいたのが、各設定ファイルの素性(カラム?)の数です。

seed辞書

コストまでの4カラムをのぞいて*がN個だとします。

dicrcファイル

bos-feature = BOS/EOS, N-1個

unk.def

DEFAULT,0,0,0,(N-2個)
SPACE,0,0,0,(N-2個)

rewrite.def

[unigram rewrite]
N-1個                       $1,$2, ...  ... $N-1
N-2個                       $1,$2, ... $N-2,* 
...
[left rewrite]
BOS/EOS, N-3個              $1,$2, ... $N-3,BOS/EOS
N-2個                       $1,$2, ... $N-3,*
...
[right rewrite]
BOS/EOS, N-3個              $1,$2, ... $N-3,BOS/EOS
N-2個                       $1,$2, ... $N-3,*

※素性の数が少ない場合は、N=3以下の場合でも最低1カラム必要になります。

python wrapper

ここから通常通りインストールした後に、オリジナル辞書の場所を指定する必要があります。test.pyであれば、15行目を

t = MeCab.Tagger (' -d $WORK/final')

のようにすればOKです。
$WORK/finalは適宜変更してください。ここでは、上の例と同じ名前で作成した場合を示しました。

タグ:

python mecab nlp
最終更新:2012年03月19日 14:14