n-3104の備忘録
HTMLParser
最終更新:
Bot(ページ名リンク)
-
view
JavaでHTMLを解析するライブラリは色々あるようだ。
- javax.swing.text.html.parser パッケージ
- HttpUnit
- HTMLParser
- Jericho HTML Parser
HTMLParser
http://htmlparser.sourceforge.net/
単純に解析するだけでなく、HTTPリクエストを自分で投げて、リンクのみを抽出したり、特定のページをキャプチャしたりできるようだ。
単純に解析するだけでなく、HTTPリクエストを自分で投げて、リンクのみを抽出したり、特定のページをキャプチャしたりできるようだ。
Jericho HTML Parser
http://jerichohtml.sourceforge.net/doc/index.html
不正な形式も含めたHTMLの解析に特化しており、JSPやPHPのタグ解析も可能なようだ。テンプレートエンジンとしても利用できそうな感じ。
不正な形式も含めたHTMLの解析に特化しており、JSPやPHPのタグ解析も可能なようだ。テンプレートエンジンとしても利用できそうな感じ。