コーパスツール

「コーパスツール」の編集履歴(バックアップ)一覧に戻る

コーパスツール - (2007/05/16 (水) 23:45:41) のソース

#contents()
----
*はじめに
-コーパスデータを分析するためのツールを紹介します。
-人文系にとっても比較的低コストで使えそうなコーパスツールをまとめておきます。主にWindows版です。
-PCスキルは、設定および操作に要するPCの基礎知識を意味します。星の数が少ないほど設定が簡単という意味です。
-使用後、次のユーザのために、感想(設定や操作が簡単だったのか、難しかったのか)を投票欄にクリックしていただければ幸いです。
-ページの最後に、掲示板を用意しましたので、感想や載せてほしいツールなどありましたら、お願いします。

*データ抽出系
-いわゆるコンコーダンスソフトです。比較的設定が簡単なものの順に挙げておきます。

**KWIC Finder
-内容:PDF/WORD/EXCEL等のファイル形式に対応したGREP検索・テキストビューア。
-PCスキル:★
-入手方法:ウェブページよりダウンロード。シェアウェア(1000円)ですが、機能限定のフリーバージョンもあります。[[詳細はこちらから>http://www31.ocn.ne.jp/~h_ishida/KWIC.html]]
-コメント:語句を単純に検索する程度なら一番簡単に使えるツールかもしれません。形態素解析を前提にしない分、あと処理に手間と時間はかかりますが、設定や操作は非常に楽です。とりあえず単語の使い方を確認する程度なら、良いと思います。
-[[KWIC Finder使用レポート]]

**KH Coder
-内容:、内容分析(計量テキスト分析)もしくはテキストマイニングのためのフリーソフトウェアです。新聞記事、質問紙調査における自由回答項目、インタビュー記録など、社会調査によって得られる様々な日本語テキスト型データを計量的に分析するために製作されました。
-PCスキル:★
-入手方法:ウェブページよりダウンロード。[[詳細はこちらから>http://khc.sourceforge.net/]]
-コメント:茶筌の形態素解析情報を元に、様々なデータ抽出機能が用意されています。SQLというデータベースソフトを使ってはいますが、インストールは非常に楽です。操作も、簡単なマウス操作で、すべての作業ができるので、比較的簡単と言えます。
-関連文章:
--佐野香織・李在鎬(2007)「KH Coderでどのような研究ができるか」(近日公開予定)
--[[KH Coder関連文献 >http://khc.sourceforge.net/bib.html]]
-[[KH Coder使用レポート]]

**茶まめ
-内容:日本語テキストを単語に分割し,形態論情報を付与するための電子化辞書です。形態素解析には『茶筌』を使用しています。
-PCスキル:★
-入手方法:ウェブページからダウンロード。簡単なユーザー登録後に、すぐに使えます。インストールも非常に楽です。[[詳細はこちらから>http://www.tokuteicorpus.jp/dist/index.php]]
-コメント:本体のほかに、茶筌をインストールしなければなりません。インストールに関する詳細は、上記リンクより閲覧できます。直感的で分かりやすいツールだと思います。ファイルの出力オプションも色々用意されていて、使い勝手はかなり良いと思います。
-関連文章:[[伝 康晴(他)(2006)「多様な目的に適した形態素解析システム用電子化辞書の開発」(「日本語コーパス」全体会議電子化辞書班報告)>http://www.tokuteicorpus.jp/result/pdf/2006_017.pdf]]
-[[茶まめ使用レポート]]

**ひまわり
-内容:国立国語研究所で開発し、言語研究用に設計された全文検索システム。『太陽コーパス』,『日本語話し言葉コーパス』,『分類語彙表』などの既存の言語資料や,自分で作成した XML 文書を検索することができる。
-PCスキル:★
-入手方法:ウェブページからダウンロード。[[詳細はこちらから>http://www.kokken.go.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9]]

**茶器
-内容:奈良先端大学院大学で開発したタグ付きコーパスを管理・検索するためのツール
-PCスキル:★★★
-入手方法:ウェブページからダウンロード。[[詳細はこちらから>http://chasen.naist.jp/hiki/ChaKi/]]
-コメント:インストールに関する詳細な情報は上記のリンク先から入手可能です。英語の分析にも使えるようです。
-関連文章:[[2006年度自然言語処理技術講習会資料(2006.9.4-6)>http://chasen.naist.jp/hiki/20060905/]]

**たんぽぽ,プリズム
-内容:XML文章内を検索するためのツールです。XMLが何か知りたい方は[[こちらから>http://it.jeita.or.jp/eltech/XML/YP_XML.html]]。
-PCスキル:★
-入手方法:ウェブページからダウンロード。詳細は[[こちらから>http://www.kokken.go.jp/lrc/index.php?%A1%D8%A4%BF%A4%F3%A4%DD%A4%DD%A1%D9%A1%A4%A1%D8%A5%D7%A5%EA%A5%BA%A5%E0%A1%D9]]

**SearchXML
-内容:XML文章内を検索するためのツール。利用マニュアルは作成中とのことです。
-PCスキル:★
-入手方法:ウェブ上でダウンロード。ダウンロードは[[こちらから>http://www.fl.reitaku-u.ac.jp/LINC/projects/langTech/pub/SearchXML.exe]]

*データ解析系
-主に自然言語処理のために開発されたもの。設定や操作にはそれなりのスキルを要します。Windowsでの使用を前提にしていない場合が多いです。

**茶筌
-内容:自然言語処理研究の分野で形態素解析のためにもっとも広く使われているフリーソフトウェアです。Win版もあります。KH Coderは茶筌を組み込んでいるので、茶筌を使いたいのであれば、[[KH Coder>http://khc.sourceforge.net/]]を利用することをお薦めします。
-PCスキル:★★
-入手方法:[[Chasen's Wikiよりダウンロード>http://chasen.naist.jp/hiki/ChaSen/]]
-関連文章:文系向け茶筌のインストール方法です。[[麗澤大学言語研究センター作成>http://www.fl.reitaku-u.ac.jp/LINC/projects/langTech/pub/chasen_install.pdf]]

**Juman
-内容:形態素解析ソフトウェア
-入手方法:ウェブページからダウンロード。[[詳細はこちらから>http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html]]
-PCスキル:★★★★
-関連文章:[[JUMAN/KNPのチュートリアルのスライド>http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp/20050830-practice.ppt]]

**KNP
-内容:係り受け解析ソフトウェア
-入手方法:ウェブページからダウンロード。[[詳細はこちらから>http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/knp.html]]
-PCスキル:★★★★
-関連文章:[[JUMAN/KNPのチュートリアルのスライド>http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp/20050830-practice.ppt]]

**MeCab (和布蕪)
-内容:形態素解析ソフトウェア
-入手方法:ウェブページからダウンロード。[[詳細はこちらから>http://mecab.sourceforge.net/]]
-PCスキル:★★★★

**Cabocha 
-内容:Support Vector Machines に基づく日本語係り受け解析器
-入手方法:ウェブページからダウンロード。[[詳細はこちらから>http://chasen.org/~taku/software/cabocha/]]
-PCスキル:★★★★
-コメント:楽しいデモがあります。 
----
*掲示板
#bbs