豚吐露@wiki

SGMLReader

最終更新:

Bot(ページ名リンク)

- view
管理者のみ編集可

SgmlReader

Windows 7 Professional
Visual Studio 2013 Professional
SgmlReader 1.8.11


HTMLをXML化するライブラリ。スクレイピングに役立つ。


~ install ~
[ツール]-[NuGet パッケージ マネージャー]-[ソリューションの NuGet パッケージの管理]を選択。
左のリストから『オンライン』を選択し、右上の『オンライン の検索』欄へ『SgmlReader』と入力すると、真ん中の検索結果一覧に『SgmlReader』ってのが出てくるハズ。
それを選択して、『インストール』ボタンを押下するだけ。
この時、『SgmlReader』を使うpjを指定するチェックリストが出てくるので、使いたいpjにだけチェックを入れたら良い。


Href以外は省略しても良いかな?
Hrefに取得対象のURI文字列格納して、newするだけ。勝手にHTMLファイルもnetから取得してくれるっぽぃ。

  1. XDocument xdoc;
  2. using (var sgml = new Sgml.SgmlReader {
  3. Href = url,
  4. DocType = "HTML",
  5. WhitespaceHandling = WhitespaceHandling.All,
  6. CaseFolding = CaseFolding.ToLower,
  7. IgnoreDtd = true
  8. })
  9. {
  10. xdoc = XDocument.Load(sgml);
  11. }



更新日: 2014年12月22日 (月) 20時46分52秒

名前:
コメント:

すべてのコメントを見る
記事メニュー
ウィキ募集バナー