keiskS @technote

CLC-FCE 前処理

取りあえず前置詞誤りのタグを含む文書を１つにまとめる。

cat dataset/*/*.xml | grep '["RT"|"MT"|"UT"|"DT"]' | grep '\.</p>' > prep.xml

なんだかエラータグがついていない文章まで拾ってしまったので、

cat prep.xml.org | grep 'NS type' > prep.xml

前置詞のエラー以下でさらに入れ子になっているのはほぼスペリングみすなので除外

cat prep.xml.org2 | grep -v '"UT"><i><NS' > prep.xml
mv prep.xml prep.xml.org2
cat prep.xml.org2 | grep -v '"RT"><i><NS' > prep.xml
mv prep.xml prep.xml.org2
cat prep.xml.org2 | grep -v '"MT"><i><NS' > prep.xml
mv prep.xml prep.xml.org2
cat prep.xml.org2 | grep -v '"DT"><i><NS' > prep.xml

lxmlのインストール（on Mac)
こちらに従って、ターミナルで

STATIC_DEPS=true sudo easy_install --allow-hosts=lxml.de,*.python.org lxml

するだけ。

lxmlの使い方はこちらを参照。
xPathについてはこちらを参照。

タグ：

「CLC-FCE 前処理」をウィキ内検索

最終更新：2011年12月12日 16:23