目的
幻日辞典の項目からユマナ語源欄を探し、分析する
結果
方法
基本
- 訳語欄~解説欄の間が語源・外国語欄
- 訳語欄はタグ付きの行または一行目で終わる
- 解説欄はタグ([または【)で始まる
- 語源・外国語欄は最大3行より成る(アトラス語源・ユマナ語源・外国語の順)
実装
各見出し語について
- ツンク(,)を含む見出し語(=外国語)は省く
- 訳語欄の終端行と解説欄の始端行を探し、その間を語源・外国語欄とみなす
- 語源・外国語欄の行数を数える
- 1行の場合
- ガロン(;)を含む項目はアトラス語源欄、それ以外はユマナ語源欄とみなす
- 2行の場合
- 数字や日本語で始まる行はユマナ語源欄とみなす
- それ以外の場合、アロット(:)の有無などで判別する(瑣末なので略)
- 3行以上の場合
- こうして得たユマナ語源欄を、:や:などで分解すると各項が出てくる
このままだと数千項目ノイズが出来てしまうので、幾つか処理を施して整理すれば終わり
(特に、語源欄の末尾にしか来ない項目はほとんど無視できる)
最終更新:2012年01月06日 17:17