KH Coder使用レポート - (2007/05/16 (水) 19:46:49) のソース

*KH Coder使用レポート
#ref(http://www.geocities.jp/cheho0888/J-corpus/tool-fig/khcoder.jpg)

**基本的な分析手順
1．コーパスデータ(テキストファイルかHTMLファイル)を開く
2．前処理を行う(茶筌で形態素解析する)
3．集計や検索をする

**何ができるか
1．文字列による検索:　コーパスに含まれている文字列の単純な検索．例えば，新潮文庫100冊に含まれている「バス」という語をKWIC形式で表示させ，保存することができる．

2．品詞による検索:　コーパスに含まれているある品詞を検索．例えば，新潮文庫100冊に含まれている「名詞」をKWIC形式で表示させ，保存し，前後の文脈に対する集計もできる．なお，品詞体系は基本的には茶筌の体系に依存する．中のConfigファイルを変更することで調査目的にあった品詞の定義できるようになっている．

3．文字列と品詞による検索：文字列と品詞を組み合わせて検索し，表示することができる．例えば，名詞としての「走り」の用法を調べることができる．

4．語基による一括検索：動詞などの語基のみを入力し，検索することで，その派生形を一括で検索することができる．例えば，走る＋動詞で検索するだけて，「走らない」，「走りたい」といった様々な語形のものが一括で拾える．

5．生起文脈を絞り込んだ検索：生起文脈を限定し，検索することができる．例えば，ガ格の後ろに生じている「走る」の用例のみを検索するといったことができる．あるいは「走る」の後ろに名詞が生じている用法のみを検索することで，連体修飾表現のみを取り出すこともできる．

6．語彙集計1：コーパス全体の語彙集計ができる．異なり語数と延べ語数を調べることができ，コーパス全体の大きさを瞬時に把握できる．あるいは一回のみ生起した語(ハパックス)の数がどれくらいで，生起頻度の平均と標準偏差も調べられ，そのコーパスの特徴を理解することができる．

7．語彙集計2：検索語の前後にどのような語彙がどれだけ使用されているかを調べることができる．

8．これの他，特定の語彙のグループをコーディングし，それらを集計することができたり，文脈ベクトルを生成し，語彙と語彙の関係を(自己組織化マップなどで)可視化することもできるなど，様々な機能が搭載されている．

問題点
1. すべての分析は個々のファイル単位でなされるため，ファイル間の分析にはやや手間がかかる．ワイルドカードを使って，フォルダー全体のテキストファイルを同時に分析するといった機能があるといいだろうが．
コーパス日本語学のための情報館

KH Coder使用レポート

KH Coder使用レポート - (2007/05/16 (水) 19:46:49) のソース