すでにうろ覚え気味なのだけど、メモ。
matrix.def
上の手順には載っていませんが、作成が必要です。
こちらに詳細?があります。
個人的につまづいたのが、各設定ファイルの素性(カラム?)の数です。
seed辞書
コストまでの4カラムをのぞいて*がN個だとします。
dicrcファイル
bos-feature = BOS/EOS, N-1個
unk.def
DEFAULT,0,0,0,(N-2個)
SPACE,0,0,0,(N-2個)
rewrite.def
[unigram rewrite]
N-1個 $1,$2, ... ... $N-1
N-2個 $1,$2, ... $N-2,*
...
[left rewrite]
BOS/EOS, N-3個 $1,$2, ... $N-3,BOS/EOS
N-2個 $1,$2, ... $N-3,*
...
[right rewrite]
BOS/EOS, N-3個 $1,$2, ... $N-3,BOS/EOS
N-2個 $1,$2, ... $N-3,*
※素性の数が少ない場合は、N=3以下の場合でも最低1カラム必要になります。
python wrapper
ここから通常通りインストールした後に、オリジナル辞書の場所を指定する必要があります。test.pyであれば、15行目を
t = MeCab.Tagger (' -d $WORK/final')
のようにすればOKです。
$WORK/finalは適宜変更してください。ここでは、
上の例と同じ名前で作成した場合を示しました。
最終更新:2012年03月19日 14:14