目的

幻日辞典の項目からユマナ語源欄を探し、分析する

結果

方法

基本

  • 訳語欄~解説欄の間が語源・外国語欄
  • 訳語欄はタグ付きの行または一行目で終わる
  • 解説欄はタグ([または【)で始まる
  • 語源・外国語欄は最大3行より成る(アトラス語源・ユマナ語源・外国語の順)

実装

各見出し語について
  1. ツンク(,)を含む見出し語(=外国語)は省く
  2. 訳語欄の終端行と解説欄の始端行を探し、その間を語源・外国語欄とみなす
  3. 語源・外国語欄の行数を数える
    1. 1行の場合
      • ガロン(;)を含む項目はアトラス語源欄、それ以外はユマナ語源欄とみなす
    2. 2行の場合
      • 数字や日本語で始まる行はユマナ語源欄とみなす
      • それ以外の場合、アロット(:)の有無などで判別する(瑣末なので略)
    3. 3行以上の場合
      • 2行目をユマナ語源欄とみなす
  4. こうして得たユマナ語源欄を、:や:などで分解すると各項が出てくる
このままだと数千項目ノイズが出来てしまうので、幾つか処理を施して整理すれば終わり
(特に、語源欄の末尾にしか来ない項目はほとんど無視できる)
最終更新:2012年01月06日 17:17
添付ファイル