LSA

LSA(Latent Semantic Analysis)とは特異値分解を用いた単語の類似性を抜き出す手法。

特異値分解は、m行n列の行列Aを三つの行列に分ける。

A = U \times \Sigma \times V^{T}

ここでU_{{\small m \times r}}の列ベクトルはA \times A^{T}の固有ベクトルを表し

一方、V_{{\small n \times r}}の列ベクトルはA^{T} \times Aの固有ベクトルを表す。

また、\Sigma_{{\small r \times r}}は固有値を対角成分に並べたものである。

ここで\Sigmaを考える。

\left( \begin{array}{ccc} \sigma_{1} & \ldots & 0 \\ \vdots  & \ddots & \vdots \\0 & \ldots & \sigma_{r}\end{array} \right)

\sigma_{k}が小さい時、これを0にすることにより、Aを近似することができる。

こうすることにより、近似されたAを見ると、潜在的な意味が引き出されることとなる。
最終更新:2008年05月29日 22:45
ツールボックス

下から選んでください:

新しいページを作成する
ヘルプ / FAQ もご覧ください。