CLC-FCE 前処理

取りあえず前置詞誤りのタグを含む文書を1つにまとめる。
cat dataset/*/*.xml | grep '["RT"|"MT"|"UT"|"DT"]' | grep '\.</p>' > prep.xml 

なんだかエラータグがついていない文章まで拾ってしまったので、
cat prep.xml.org | grep 'NS type' > prep.xml

前置詞のエラー以下でさらに入れ子になっているのはほぼスペリングみすなので除外
cat prep.xml.org2 | grep -v '"UT"><i><NS' > prep.xml
mv prep.xml prep.xml.org2
cat prep.xml.org2 | grep -v '"RT"><i><NS' > prep.xml
mv prep.xml prep.xml.org2
cat prep.xml.org2 | grep -v '"MT"><i><NS' > prep.xml
mv prep.xml prep.xml.org2
cat prep.xml.org2 | grep -v '"DT"><i><NS' > prep.xml


lxmlのインストール(on Mac)
こちらに従って、ターミナルで
STATIC_DEPS=true sudo easy_install --allow-hosts=lxml.de,*.python.org lxml
するだけ。

lxmlの使い方はこちらを参照。
xPathについてはこちらを参照。

タグ:

python nlp
最終更新:2011年12月12日 16:23