情報検索
コンピュータを用いて大量のデータ群から目的に合致したデータを取り出すための技術。
検索の対象となるデータには文書や画像、音声、映像、
その他さまざまなメディアやその組み合わせとして記録されたデータなどが含まれる。
情報検索技術は情報を人間が直接管理するのに比べ、データの量的な制約やデータの取り扱いの一貫性を保つ困難さという制約を受けることなく、
高速で安定なシステムにより利用者に適切なデータを提供する機能と位置付けることができる。
検索システムの性能評価
- 適合率(precision)
- 再現率(recall) の2つで評価する
適合率(precision)
検索結果として得られた集合中にどれだけ検索に適合した文書を含んでいるかという正確性の指標
precision = R / N
再現率(recall)
検索対象としている文書の中で検索結果として適合している文書(正解文書)のうちでどれだけの文書を検索できているかという網羅性の指標
recall = R / C
imageプラグインエラー : 画像を取得できませんでした。しばらく時間を置いてから再度お試しください。
R:検索された適合文書の数
N:検索結果の文書の数
C:全対象文書中の正解文書の数
適合率を上げれば再現率が下がり、再現率を上げれば適合率が下がる傾向にある
F値
適合率と再現率の調和平均
F = 2 * precision * recall / precision + recall
= R / 1/2(N + C)
F値が高ければ性能がいい
最終更新:2008年06月11日 13:21