トップページ > コンテンツ > プログラミング入門 > Ajax入門 > PHP入門 > HTMLサイトをクロールして解析する > 構文解析

本当にその場だけの整形すらしていないひどい個人用メモ。

構文解析をどうやるかメモ。
http://www.gengokk.co.jp/

ブログから地名を含む文章だけを取得する
世界の都市データをどう集めるか…
http://geo.tatamilab.jp/:世界ジオコーディング

mecabとphp?
http://mecab.sourceforge.net/のサイトを見ると、Mecabの導入方法については記載されている。
ただ、windows環境でやろうと思うと情報量が少ないのでしんどい。
windowsのインストール版で落としてくると、一緒に落ちてくる辞書も通常はShift-JISとなっている(場合によってはutf-8の可能性も?)
そこで、exec等でMecab.exeを起動した場合にはwindows上のコマンドラインで実行したのと同じ結果になるが、
proc_open()関数といったパイプなどを使ってphp内で処理の実行しようとすると、文字化けが起こってしまう。
そこで、mb_convert_encoding()関数で入力文字列を"Shift-JIS"に変換することで処理内容をShift-JISで行うように指定してやることが
必要になるので、注意が必要だ。windows環境でなければ、Mecab PHP Extentionモジュールを使う方が素直かもしれない。
http://kakku.blogspot.com/2008/01/phpmecab.htmlも参照すると良い。

最終更新:2011年04月03日 11:51