Novpat's Lab @ ウィキ

メニュー

2013-02-02T11:35:42+09:00

**メニュー ***趣旨 novpatの勉強の足跡として利用したいと思います！ ***専門 -[[確率的情報処理]] -[[HNN & CNN]] ***周辺分野 -[[パターン認識 & 回帰分析]] -[[機械学習と決定理論]] -[[パターン認識]] -[[画像処理]] -[[最適化手法]] -[[進化的計算手法]] ***教養 -[[集合と写像]] -[[線型代数]] -[[微分積分]] -[[ルベーグ積分]] -[[微分方程式]] -[[確率論]] -[[直交変換]] -[[古典力学と解析力学]] -[[統計力学]] -[[制御工学]] -[[電気回路]] -[[電子回路]] -[[計算機科学]] ***その他 -[[コーディングルール]] -[[UNIX]] -[[Tex]] -[[参考文献]] -[[コメント]] ***管理者用 -[[プライベート]] -[[備忘録]] ---- **リンク -[[@wiki>>http://atwiki.jp]] -[[@wikiご利用ガイド>>http://atwiki.jp/guide/]] -[[@wikiの基本操作>http://atwiki.jp/guide/category2.html]] **他のサービス -[[無料ホームページ作成>>http://atpages.jp]] -[[無料ブログ作成>>http://atword.jp]] -[[無料掲示板レンタル>>http://atbbs.jp]] -[[2ch型掲示板レンタル>>http://atchs.jp]] -[[お絵かきレンタル>>http://atpaint.jp/]] // リンクを張るには "[" 2つで文字列を括ります。 // ">" の左側に文字、右側にURLを記述するとリンクになります //**更新履歴 //#recent(20) &link_editmenu(text=ここを編集)

トップページ

2013-02-02T11:35:03+09:00

*趣旨 novpatの勉強の足跡として利用したいと思います．私の直感的な理解を書いていくので間違いも多いと思いますが，間違いがありましたら寛大な心でご指摘ください（^_^）．（指摘は[[【こちら】>コメント]]でお願いします．） *コンテンツ **専門分野 -[[確率的情報処理]] -[[HNN & CNN]] **周辺分野 -[[パターン認識 & 回帰分析]] -[[機械学習と決定理論]] -[[パターン認識]] -[[画像処理]] -[[最適化手法]] -[[進化的計算手法]] **教養 -[[集合と写像]] -[[線型代数]] -[[微分積分]] -[[ルベーグ積分]] -[[微分方程式]] -[[確率論]] -[[直交変換]] -[[古典力学と解析力学]] -[[統計力学]] -[[制御工学]] -[[電気回路]] -[[電子回路]] -[[計算機科学]] **その他 -[[コーディングルール]] -[[UNIX]] -[[Tex]] -[[参考文献]] -[[コメント]] ----

確率論

2013-02-02T11:32:33+09:00

#contents() *確率論の概要 **確率論とは確率論は&font(blue){&strong(){「確率があらかじめわかっている」ということを前提にスタートする理論}}である．確率が何によって定まるのかという問題は追求せず，確率が満たすべき性質をいくつか規定し、その性質から導くことのできる定理を突き詰めていく．&font(blue){確率分布（確率モデル）自体を，たとえば観測したデータから推定したり求めたりすることは，統計学の役割であり，確率論ではあくまで個々の確率は既知であるとして解析を始める．} **確率論を用いると分かること・ある事象の確率分布が明らかとき、それと因果関係のある事象の確率分布がどうなっているか。・ある因果関係の確率分布（条件付き確率分布）が明らかなとき、残りどんな確率分布が明らかになれば、所望の因果関係を表す確率分布が明らかになるか。 **例たとえば宝くじの場合，何枚売りに出され，そのうち当たりが何枚あるのかという情報は抽選前にあらかじめ決められている．その意味で，当選確率は既知である．その上で確率論を用いれば，宝くじを買うことによる損失あるいは逆に利益について，数理的に数値をあげて答えることができる．Ｅｘ．期待値や分散など *確率論の基礎概念 **標本空間と確率 $$\Omega$$を可算集合として，$$\Omega$$の部分集合$$A \sub \Omega$$に，写像$$P:A \rightarrow \mathbb{R}$$が与えられているとする．このとき，全体集合$$\Omega$$とその部分集合$$A$$をそれぞれ標本空間，事象と呼び，&font(blue){&strong(){部分集合（事象）$$A$$の実数値への写像$$P$$を確率}}という．標本空間$$\Omega$$の元は根元事象と呼ばれる．いうまでもなく，$$P(A)$$は0と1の間の値をとる関数であり，$$P(\Omega) = 1$$である． **確率の有限加法性事象（部分集合）$$A,B$$を同時に満たす$$\omega$$が存在しないとき，&font(blue){&strong(){つまり$$A \cap B = \phi$$ならば，$$A$$と$$B$$は互いに排反である}}という． $$A,B$$が排反ならば，$$A$$または$$B$$が起こる確率は，定義からそれぞれの確率の和になる． $$A \cap B = \phi \Leftrightarrow P(A \cup B) = P(A) + P(B)$$ 確率の持つこの性質を&font(blue){&strong(){加法性}}という． **確率変数 (Probabilistic variable) 標本空間の元（根源事象）$$\omega$$が与えられたときに，値が一つ定まるような&font(blue){関数}$$X(\omega)$$&font(blue){を確率変数}という．確率変数を用いると，&font(blue){&strong(){$$X$$が$$x$$になるような$$\omega$$の集合（事象）}}$$\{ \omega | X(\omega) = x \}$$&font(blue){&strong(){を}}$$X(\omega) = x$$&font(blue){&strong(){と表すことができる．}} $$P(X(\omega)=x) = P(\{ \omega | X(\omega) = x \})$$ **条件付き確率 &font(blue){&bold(){事象$$B$$に含まれる根源事象を集めたとき（}}$$\Omega' = \{ \omega | \omega \in B \}$$&font(blue){&bold(){），この中から事象$$A$$が起きる確率を条件付き確率と呼ぶ．}} 条件付き確率は次式で定義される． $$P(A|B) = \frac{\sum_{\omega \in A,B} P(\{\omega\})}{\sum_{\omega \in B} P(\{\omega\})} = \frac{P(A,B)}{P(B)}$$ 分母は規格化定数である． //分母は規格化条件$$\sum_{\omega \in B} P(\{\omega\}|B) = 1$$を満たすための定数である． &font(blue){条件付き確率の定義を用いると，結合（同時）確率}$$P(A,B)$$&font(blue){は次のように展開することができる．} $$P(A,B) = P(A|B)P(B)$$ また， $$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$ も成り立つ．上式をベイズの定理という． $$P(A|B)$$は事後確率，$$P(A)$$は事前確率と呼ばれ，$$A$$の関数$$P(B|A)$$は尤度関数と呼ばれる（確率の規格化条件を満たしていないので，確率と区別してこう呼ぶ）．ベイズの定理は，$$P(A|B)$$の確率モデルを作ることが困難な場合（例えば，事象$$B$$の種類が非常に多いとき）に有用である． **期待値 (Expectation) 確率変数$$X$$の期待値は次式で求めることができる． $$E[X] = \sum_{\omega \in \Omega} X(\omega)P(\{\omega\})$$ **共分散と相関係数（Covariance, Correlation coefficient）確率変数$$x,y$$の共分散$$\mbox{Cov}(x,y)$$は次式で定義される． $$\mbox{Cov}(x,y) = \mbox{E}[(x-\mu_x)(y-\mu_y)]$$ 共分散は変数間の関連性を表す指標である．ただし，単位の異なる変数間の共分散では数値の意味がわかりにくい．そこで一般的には相関係数が用いられる．相関係数$$r_{x,y}$$の定義は次式のとおりである． $$r_{x,y} = \frac{\mbox{Cov}(x,y)}{\mbox{E}[x]\mbox{E}[y]}$$ *確率論の諸定理 **チェビシェフの不等式 **大数の弱法則 *統計学 **確率モデル科学においてモデル化（単純化）には大きく分けて二つある．一つが力学モデルであり，もう一つが確率モデルである．力学モデル（低次元化）が現象の時間変化を定式化するのに対し，確率モデルでは現象のダイナミクスまでも棄ててしまい，現象の出現確率のみを規定することで現象を表現する． **共分散行列と主成分分析分散，共分散を行列として整理したものを共分散行列という．共分散行列の固有ベクトルは ----

プライベート

2012-02-02T09:19:32+09:00

確率的情報処理

2012-01-27T11:51:16+09:00

#contents() *確率的情報処理とはただ一つの入力に対して，ただ一つの出力を考えるのが決定的情報処理．ただ一つの入力に対して，あらゆる状態の可能性（条件付き確率分布）を考慮（モデル化）し，状態の分布の平均や分散を求めることによって，出力値を考えるのが確率的情報処理． *グラフィカルモデル確率変数をノード，確率変数間の（統計的）依存関係を辺で表したモデル．このグラフに基づき未知変数の条件付き結合分布（確率モデル）を求め，推論をおこなう． **ベイジアンネットワーク有向グラフによって確率変数間の依存関係を表したグラフィカルモデル．ただし，辺のサイクルは認められない． &font(blue){データベースより変数間の確率モデル（条件付き確率分布）を学習}し，その推定値（統計量 etc）を計算することにより未観測データの推論をおこなう技術である． **マルコフ確率場 (Marcov Random Field) 無向グラフによって確率変数間の依存関係を表したグラフィカルモデル．各ノード（確率変数）の他ノードに対する条件付き分布は最近接ノードにのみ依存する．（場のマルコフ性を仮定）マルコフ確率場の結合分布はHammersley-Cliffordの定理よりギブス分布と等価であることが証明されている． *推論方法 **最尤推定尤度関数$$\Pr\{x|\theta\}$$を最大化する$$\theta$$を推定値とする手法．この場合，$$\theta$$が$$\Pr\{x|\theta\}$$の変数であり， $$\sum_{\theta} \Pr\{x|\theta\} \neq 1$$ であるため，$$\Pr\{x|\theta\}$$を確率分布ではなく尤度関数と呼ぶ． **EMアルゴリズム不完全なデータセット$$x$$より，パラメータ$$\theta$$の推定をおこなう手法である．観測できないデータを$$f \subset x$$，観測できるデータを$$g \subset x$$とすると，$$f$$は一意に定めることができない．そこで&bold(){尤度関数}$$\ln \Pr\{f,g|\theta\}$$ &bold(){の期待値} $$E_f[\ln \Pr\{f,g|\theta\}]$$&bold(){を最大化することを考える．} $$E_f[\cdot]$$を求めるために必要な確率には$$\Pr\{f|g,\theta'\}$$を用いる． (E-Step) $$E_f[\ln \Pr\{f,g|\theta\}]$$を計算し， (M-Step) $$E_f[\ln \Pr\{f,g|\theta\}]$$を最大化する$$\theta$$を次の$$\theta'$$とする．以上のステップを反復し，最終的に得られた$$\theta$$を推定値とする． **ベイズ推定とＭＡＰ推定 $$x$$が観測されたときの事後分布を$$\Pr\{Y|X=x\}$$としたとき， $$Y$$の期待値 $$\sum_{Y} Y\times\Pr\{Y|X=x\}$$ を$$Y$$の推定値とする方法をベイズ推定と呼び， $$\max_{Y} \Pr\{Y|X=x\}$$ となる$$Y$$を推定値とする手法をMAP推定と呼ぶ．なお，$$\Pr\{Y|X=x\}$$の条件付き周辺分布を$$\Pr\{Y_i|X=x\}$$とするとき， $$\max_{Y_i} \Pr\{Y_i|X=x\}$$ となる$$Y_i$$を推定値とする手法をMPM推定と呼ぶ． *サンプリング手法 **ギブスサンプラー（熱浴法） $$\bf{x} = (x1,x2,x3,\cdots)$$とするとき，着目する確率変数$$x_i$$以外を固定し，条件付き確率分布$$\Pr\{xi|x1,x2,x3,\cdots\}$$より，$$x_i$$のサンプルを抽出する．得られた値を次の状態として，同様の処理を繰り返す．条件付き確率分布から次状態をサンプリングできるかどうかが重要であり，困難な場合は逆関数法（または格子ギブスサンプラー）が用いられる． **平均場近似大自由度系の確率システムにおいて，期待値$$E[X]$$を求めることは極めて困難である．そこで依存する確率変数$$X'$$の値を平均値$$\bar{x}'$$と近似することで導出される条件付き周辺分布$$\Pr\{X_i|X' = \bar{x}'\}$$を用いて$$X_i$$の期待値$$E[X_i]$$を求める手法が平均場近似である．（$$X'$$は$$X$$から$$X_i$$を除いたもの） *マルコフ過程 *隠れマルコフモデル *シミュレーティッドアニーリング ----

線型代数

2009-05-09T11:55:13+09:00

#contents() *線型空間（ベクトル空間） **線型空間の概要 &font(red){&bold(){線型演算の定義できる集合$$V$$を線型空間と呼ぶ．}}より正確には，&font(blue){&bold(){空でない集合$$V$$に下記の定義を満たす写像（線型演算）が定義されていて，}なおかつ次節にある&strong(){線型空間の公理がみたされている}とき，&strong(){集合（代数系）$$V$$を&u(){$$K$$-ベクトル空間}}と呼ぶ．}（ちなみに四則演算が自由にできる集合$$K$$のことを体と呼ぶ．）線型演算（括弧内は数学的に適切な記述ではない．）　和　　　　：$$V \times V \rightarrow V$$ ($$V+V \rightarrow V$$) 　スカラー積：$$K \times V \rightarrow V$$ ($$K V \rightarrow V$$) 上記の線型演算が&font(blue){直積集合$$V \times V$$または$$K \times V$$から$$V$$自身への写像}となっていること，つまり&font(blue){&strong(){$$K$$-ベクトル空間が線型演算に関して閉じていること}}に注目せよ． ※ベクトルとは&strong(){$$K$$-ベクトル空間$$V$$}の元$$\bf{v} \in V$$のことであり，$$K$$の元$$c \in K$$はスカラーと呼ばれる． **線型空間の公理（ペアノ） :和に関する結合法則|任意の$$\bf{u,v,w} \in V$$に対して，$$\bf{(u+v)+w = u+(v+w)}$$． :和に関する交換法則|任意の$$\bf{u,v} \in V$$に対して，$$\bf{u+v = v+u}$$． :和に関する恒等式 |$$V$$には特殊な元$$\bf{z}$$で，任意の$$\bf{v} \in V$$に対して，次の等式をみたすものがある．&br()$$\bf{v+z=v=z+v}$$． :和に体する逆演算 |任意の$$\bf{v} \in V$$に対して，$$\bf{v'} \in V$$で，次の等式をみたすものがある．&br()$$\bf{v+v'=z=v'+v}$$． :スカラー積に関する恒等式|任意の$$\bf{v} \in V$$に対して，$$1 \cdot \bf{v}=v$$． :スカラー積に関する結合法則|任意の$$a,b \in K$$，$$\bf{v} \in V$$に対して，$$(ab) \cdot \bf{v} = a \cdot (b \cdot \bf{v})$$． :和とスカラー積に関する分配法則|任意の$$a,b \in K$$，$$\bf{u,v} \in V$$に対して，&br()$$a \cdot (\bf{u + v}) = a \cdot \bf{u} + a \cdot \bf{v}$$，　$$(a+b) \cdot \bf{v} = a \cdot \bf{v} + b \cdot \bf{v}$$． **用語の定義 :部分空間|$$K$$-ベクトル空間$$V$$の空でない部分集合$$W$$が線型演算に関して閉じているとき，$$W$$は$$V$$の&font(blue){部分空間}であるという． :線型結合と生成系|$$\bf{v}_1, \cdots, \bf{v}_n \in V$$，$$\forall i (a_i \in K)$$から作られたベクトル$$a_1 \bf{v}_1 + \cdots + a_n \bf{v}_n$$を，$$\bf{v}_1, \cdots, \bf{v}_n$$の&font(blue){線型結合}と呼ぶ．線型結合がつくる集合は，$$<\bf{v}_1, \cdots, \bf{v}_n> = \{ a_1 \bf{v}_1 + \cdots + a_n \bf{v}_n | \forall i(a_i \in K) \}$$と表現する．$$<\bf{v}_1, \cdots, \bf{v}_n>$$は$$V$$の部分空間である．特に，$$V = <\bf{v}_1, \cdots, \bf{v}_n>$$となるとき，すなわち，$$V$$のすべてのベクトルが$$\bf{v}_1, \cdots, \bf{v}_n$$の線形結合で表せるとき，ベクトルの集合$$\{\bf{v}_1, \cdots, \bf{v}_n\}$$は$$V$$の&font(blue){生成系}であるという． :線形独立と線型従属|$$K$$-ベクトル空間$$V$$のベクトル$$\bf{v}_1, \cdots, \bf{v}_n \in V$$において，$$\sum a_i\bf{v}_i = \bf{0}$$を満たす$$a_i$$が$$\forall i(a_i = 0)$$のみであるとき，$$\bf{v}_1, \cdots, \bf{v}_n \in V$$は&font(blue){線型独立}であるといわれ，線型独立でないときは&font(blue){線型従属}であるといわれる． :線型空間の次元|$$n$$個の線型独立なベクトルが存在するが，$$(n+1)$$個以上のどんなベクトルも線型従属になるとき，$$V$$の&font(blue){次元(dimension)}は$$n$$であるといい，$$V$$の次元を$$\dim \ V$$で表す．このとき，$$V$$は有限次元ベクトル空間と呼ばれる．一方，いくらでも多くの個数のベクトルが線型独立になるとき，そのベクトル空間は無限次元ベクトル空間と呼ばれる． :ベクトル空間の基底|ベクトル$$\bf{v}_1, \cdots, \bf{v}_n \in V$$がすべて線型独立である場合，$$\{\bf{v}_1, \cdots, \bf{v}_n\}$$は$$V$$の&font(blue){&strong(){基底}}であるという． **ベクトルの座標表現ベクトル空間$$V$$の基底$$\phi = \{\bf{v}_1, \cdots, \bf{v}_n\}$$を用いると，ベクトル空間中の任意の元$$\bf{v}$$は，座標$$[a_1 a_2 \cdots a_n]_{\phi}$$によって表現できる． ∵　$$\bf{v} = [a_1 a_2 \cdots a_n]_{\phi}\left[\begin{array}{c} \bf{v1}_1\\ \bf{v}_2\\ \cdot\\ \cdot\\ \cdot\\ \bf{v}_n \end{array}\right]$$ ただし，&font(red){ここで言う座標はベクトル空間における座標であり，一般の座標とは区別しなければならない．} **幾何ベクトル &font(blue){有向線分によって定義された"大きさと方向をもつベクトル"を幾何ベクトルという．} 中でも，原点の定義された空間において，原点から引かれた有向線分を&font(blue){位置ベクトル}という．位置ベクトルを用いることで幾何学における直線や平面の方程式を定義することが可能である． $$k \in K$$とし，$$\bf{a,a',x} \in V$$が位置ベクトルであるとすると，　直線の方程式：$$\bf{a'} - \bf{a} = k(\bf{x} - \bf{a})$$ 　平面の方程式：$$(\bf{a'} - \bf{a})\cdot(\bf{x} - \bf{a}) = 0$$ が成立する．ただし，$$\bf{x}$$が変数である．直線の方程式における$$\bf{a'} - \bf{a}$$は方向比，平面の方程式における$$\bf{a'} - \bf{a}$$は法線ベクトルとそれぞれ呼ばれる． *線型写像 **線型写像の概念二つの線型空間$$V, W$$に対して，写像$$f:V \rightarrow W$$が， $$f(\bf{x+y}) = f(\bf{x}) + f(\bf{y})$$ $$f(c\bf{x}) = cf(\bf{x})$$ を満たすとき，写像$$f$$を&font(blue){線形写像}と呼ぶ．ここで，$$\bf{x,y} \in V$$である． **線型写像の行列表現二つの線型空間$$V, W$$の基底をそれぞれ$$\phi = \{\bf{v}_1, \bf{v}_2, \cdots, \bf{v}_n\}, \psi$$とする．また，線型写像$$f:V \rightarrow W$$が $$f(\bf{v}_1) = (w_{1,1}, w_{1,2}, \cdots, w_{1,m})_{\psi}$$ $$f(\bf{v}_2) = (w_{2,1}, w_{2,2}, \cdots, w_{2,m})_{\psi}$$ &html(　　・　・　・　・　・　・) &html(　　・　・　・　・　・　・) &html(　　・　・　・　・　・　・) $$f(\bf{v}_n) = (w_{n,1}, w_{n,2}, \cdots, w_{n,m})_{\psi}$$ という性質を持っているとする．このとき，線型写像$$f:V \rightarrow W$$は， $$\left[\begin{array}{c}(w_{1,1}, w_{1,2}, \cdots, w_{1,m})_{\psi}\\ (w_{2,1}, w_{2,2}, \cdots, w_{2,m})_{\psi}\\ \cdot \\ \cdot \\ \cdot \\ (w_{n,1}, w_{n,2}, \cdots, w_{n,m})_{\psi}\end{array}\right]$$ と行列で表現することができる．これを$$f$$の表現行列と呼ぶ．表現行列を用いると，$$V$$の元$$\bf{x} = [x_1 x_2 \cdots x_n]_{\phi}$$の写像は， $$f(\bf{x}) = [x_1 x_2 \cdots x_n]_{\phi} \left[\begin{array}{c}(w_{1,1}, w_{1,2}, \cdots, w_{1,m})_{\psi}\\ (w_{2,1}, w_{2,2}, \cdots, w_{2,m})_{\psi}\\ \cdot \\ \cdot \\ \cdot \\ (w_{n,1}, w_{n,2}, \cdots, w_{n,m})_{\psi}\end{array}\right]$$ と記述できる． *ベクトルの計量 **内積 $$V$$を$$K$$-ベクトル空間とするとき，以下の性質を満たす，$$V$$からスカラーへの写像$$<\cdot,\cdot>:V \times V \rightarrow K$$を内積という． :正定値性|任意のベクトル$$\bf{v} \in V$$に対して，$$<\bf{v, v}>$$は非負の実数で、$$<\bf{v,v}> = 0 \leftrightarrow \bf{v} = 0$$． :線型性 |任意のスカラー$$a,b \in K$$と任意のベクトル$$\bf{u,v,w} \in V$$に対して、$$ = a<\bf{u,v}> + b<\bf{v,w}>$$． :対称性 |任意のベクトル$$\bf{v,w} \in V$$に対して、$$<\bf{v,w}> = <\bf{w,v}>$$ 内積の具体的な計算方法は$$K$$-ベクトル空間により異なり，また一つであるとも限らない． +数ベクトルの場合&br()二つのベクトルを$$\bf{u,v}$$とすると，内積$$<\bf{u,v}>$$は次式によって定義される．&br()$$<\bf{u,v}> = \sum_k u_k v_k$$ +関数ベクトルの場合&br()二つのベクトルを$$f(t),g(t)$$とすると，内積$$$$は次式によって定義される．&br()$$ = \int f(t)g(t)dt$$ //$$f(t)$$もベクトルとみなすことができる． //関数のサンプリングデータをベクトル$$\bf{f} = \{f(t_0), f(t_0+\tau), f(t_0+2\tau), \cdots\}$$で表すとき，サンプリング間隔$$\tau$$を小さくしていくことで関数$$f(t)$$とベクトル$$f(t)$$が一致するからだ． //このときベクトルの内積は，データのサンプル数$$n$$に比例することを防ぐために次式で定義される． **ノルムノルムは内積$$<\cdot,\cdot>$$を用いて定義される量で，$$K$$-ベクトル空間$$V$$から体$$K$$への写像である． $$||\bf{v}||:=\sqrt{<\bf{v,v}>}$$ &font(blue){ノルムとは与えられた内積で測った "ベクトルの大きさ" であり，この意味で&strong(){内積はベクトル空間に計量 (metric) を定める}という．} 幾何ベクトルの場合，ノルムは有向線分の長さを表すことになる． **相関係数相関係数もまた内積を用いて定義される量で，二つのベクトルの"近さ"を表す量である．二つのベクトルを$$\bf{u,v} \in V$$とすると，相関係数$$cos \theta$$は次式によって定義される． $$cos \theta = \frac{<\bf{u,v}>}{||\bf{u}||\cdot||\bf{v}||}$$ **成分分解任意のベクトル$$\bf{x}$$を基底（単位ベクトル）$$\bf{u}_k$$に射影した結果は $$x_k = <\bf{x,u}_k>$$ によって計算される． *行列 **正則行列 &font(blue){逆行列の存在する行列は正則}であるという． $$n \times n$$の行列$$A$$が正則であるためには，$$A$$の逆行列を計算できなければならないので $$\mbox{rank}(A) = n$$ という条件を満たす必要がある． **固有ベクトル・固有値線形変換$$A$$に対して $$A\bf{x}=\lambda\bf{x}$$ （$$\lambda$$は実数）なる$$\bf{x}$$，$$\lambda$$が存在する場合，$$\bf{x}, \lambda$$をそれぞれ固有ベクトル，固有値と呼ぶ．線形変換によってほとんどのベクトルが大きさと方向の両方を変化させるのに対し，&font(blue){固有ベクトルはその大きさのみを変化させる．} 線形変換$$A$$の固有ベクトルを求める問題を&bold(){固有値問題}という． **正定値行列全ての固有値が正の値をとる行列を指す．そのため，固有ベクトルを正定値行列によって線形変換した場合，向きが逆になることはない. ----

パターン認識 & 回帰分析

2009-01-18T18:23:18+09:00

パターン認識と回帰分析の目的は、ともにデータセット

\mathcal{D}_x = \{x_1,x_2,\dots,x_n\},\mathcal{D}_y = \{y_1,y_2,\dots,y_n\}

から予測関数

y = f(x,w)

を求めることにある。予測関数

f

は、パターン認識では識別関数と、回帰分析では回帰関数とそれぞれ呼ばれているが、本質的には同じものである。その違いは、出力変数が離散変数か連続変数かの違いでしかない。ここではパターン認識と回帰分析をひとまとめに考え、その基礎となる技術の解説をおこなう。 __TOC__ ==パーセプトロン== ==多層パーセプトロン== ==偏りと分散のジレンマ== モデルの自由度が高いときに十分な訓練データが与えられなければ、分散が高くなり、結果としてＭＳＥが増大する。この問題をオーバーフィッティング（過適応）という。 ===解決策１：モデル選択=== ===解決策２：ベイズ推定法=== 後述する確率モデルによって表現しなければならない。 ==確率モデルによる推定== 決定理論との相性。事前確率の入れ替え ==パターン認識＆回帰分析の方法== 入力変数

x

から出力変数

y

を予測する方法には、大きく分けて２とおりある。 #予測関数

f(x,w)

を直接推定する。　→　最小二乗法、フィッシャーの判別法、ニューラルネットワーク etc. #条件付き確率分布

p(y|x,w)

を推定する。ここで、

w

はモデルパラメーターである。単純にパターン認識や回帰分析をするだけならば、予測関数を直接推定するだけで十分である。しかしながら、条件付き確率分布を推定することで、次のようなメリットがある。 *得られた結果の信頼度を確率によって評価できる。 *決定理論（期待損失最小化、棄却オプション）による誤識別のリスク軽減 *学習アルゴリズムについて *#ベイズ推定法による、オーバーフィッティングの回避 *#逐次学習の直感的な定式化 *尤度の計算によるモデルの評価（周辺尤度最大化） *確率モデルの結合容易性　→　複数の要因を組み合わせたパターン認識＆回帰分析 *訓練データの人為的な操作（事前確率を入れ替えることでキャンセルできる。） ===確率モデルのつくりかた=== パターン認識や回帰分析の確率モデルは、識別モデルと生成モデルに分けられる。 #識別モデルでは、予測関数

f(x,w)

を用いて、条件付き確率

p(y|x,w)

を直接モデル化する。 #それに対して、生成モデルでは、2つの確率分布

p(x|y,w), p(y)

をモデル化して、ベイズの定理から

p(y|x,w)

を導出する。

p(y)

から、実験用データを生成できる？？識別モデルの方がモデルパラメーターの数が少なくなるので、パターン認識や回帰分析を解く目的ならば識別モデルが一番適している。パターン認識の識別モデル :

p(y|x,w) = \sigma\bigl(f(x,w)\bigr)

ここで、

\sigma

はロジスティックシグモイド関数である。このモデルの正当性は、確率分布が指数関数族で表せるという仮定のもとで、生成モデルから式変形することにより一般的に得られる。回帰分析の識別モデル :

p(y|x,w) = \mathcal{N}\bigl(f(x,w),\beta^{-1}\bigr)

==確率論にもとづくモデルパラメーターの学習アルゴリズム== ===最尤法=== 最尤法では、学習データがもっとも生起しやすいようにモデルパラメーター

w

を決める： :

\hat{w} = \arg\max_{w}\ L(w) = \arg\max_{w}\ p(\mathcal{D}_y|\mathcal{D}_x,w) = \arg\max_{w}\ \prod_i p(y_i|x_i,w)

。

\hat{w}

がモデルパラメーターの推定値である。

L(w)

を尤度関数という。実際には、尤度関数を直接最大化するのではなく、対数尤度関数

L'(w) = \log L(w)

を最大化することが多い。対数をとることで、 :

L'(w) = \log\ L(w) = \sum_i \log\ p(y_i|x_i,w)

となり、解析的な取り扱いが容易となるためだ。とくに、確率分布が指数関数族であらわされる場合は右辺が多項式になるので、解析的に

\frac{d L'(w)}{dw} = 0

となる

w

を求めることができる。条件付き確率分布

p(y|x,w)

を

\mathcal{N}\bigl(f(x,w),\sigma^2\bigr)

とモデル化した場合、学習アルゴリズムが最小二乗法と同じになることが数学的に証明されている。 ===最大事後確率推定法=== 基本的な考え方は、最尤法にしたがうが、尤度関数を最大化するのではなく、モデルパラメーターの事後確率

p(w|\mathcal{D}_x,\mathcal{D}_y) = p(\omega)p(\mathcal{D}_y|\mathcal{D}_x,w)

を最大化する： :

\hat{w} = \arg\max_{w}\ p(w)p(\mathcal{D}_y|\mathcal{D}_x,w)

。事前確率

p(\omega)

を考慮することで、オーバーフィッティングを回避できる。ただし、次に説明するベイズ推定法とは異なり、適切な事前確率が見つけ出せなければ、無意味な答えを出すモデルとなってしまう。 ===ベイズ推定法=== 最尤法や最大事後確率推定法のようにモデルパラメーターを点推定するのではなく、モデルパラメーターに関して期待値

\mathbb{E}_{w}[p(y|x,w)]

を計算するのがベイズ推定法である。期待値を計算することで、あらゆるモデルパラメーターのあらゆる場合を重みつきで評価しているので、オーバーフィッティングを回避することができる。ベイズ推定法を定式化すると次式のようになる。 :

p(y|x) = \mathbb{E}_{\omega}[p(y|x,w)] = \int p(y|x,w)p(w|\mathcal{D}_{x},\mathcal{D}_{y}) dw

文献によってはモデルパラメーターについて周辺化すると述べているが、同じことである。ベイズ推定法は、モデルパラメーターに関して周辺化する必要があるため、厳密に解析できる問題は限られている。多くの場合は、ラプラス近似やサンプリング法を利用することで近似することになる。 ==決定理論== 条件付き確率

p(y|x)

から予測関数

y(x)

を求める方法が決定理論である。 ===識別率最大化法=== 識別率を最大化するように予測関数を決定する。定式化すると下記のようになる。 :

y(x) = \arg\max_y\ P(Y=y|X=x)

。条件付き確率

P(Y=y|X=x)

が正規分布を用いてモデル化される場合、予測関数と分布の平均は一致する： :

y(x) = \arg\max_y\ P(Y=y|X=x) = \mathbb{E}[Y|X]

。 ===期待損失最小化法=== 予測関数を

y(x)

としたときに、予想される損失の期待値を最小化する。確率変数

Y

の分布が条件付き確率

P(Y|X)

によってあらわされるときに（このとき、）、

y(x)

と決定してしまったときの損失を

L(Y,y(x))

とすると、損失の期待値は :

\mathbb{E}_Y\bigl[L(Y,y(x))\bigr] = \int_Y L(Y,y(x)) P(Y|X)dY

とあらわせる。これを最小化する予測関数

y(x)

を求めればよい。変分法を用いれば、その答えは、 :

y(x) = \mathbb{E}[Y|X]

であると導かれる。したがって、予測分布が正規分布のときは、識別率最大化法と期待損失最小化法は同じ予測関数を導くことになる。 ===棄却オプション=== 書き込み中 ==ニューラルネットワーク== ==ノンパラメトリックモデル== ==参考文献== *Christopher M. Bishop "Pattern Recognition And Machine Learning" Springer-Verlag (2006) ISBN 978-0387310732 ----

機械学習と決定理論

2009-01-09T19:23:13+09:00

ここでは、パターン認識や回帰分析の研究をするにあたって基礎となる機械学習と決定理論について、知っておくべき事項を簡単まとめる。 __TOC__ ==機械学習== 学習データセット

\mathcal{D}_x = \{x_1, \dots, x_i, \dots\}

から確率分布

P(X)

を推定することを機械学習という。とくに、対となる２つの学習データセット

\mathcal{D}_x, \mathcal{D}_y

から結合分布

P(X,Y)

もしくは条件付き分布

P(Y|X)

を推定する場合を教師あり学習という。パターン認識や回帰分析は、教師あり学習の一つである。機械学習では、無作為抽出されたサンプル集団から元の確率分布を推定することになるので、推測統計学と関係が深い。実際、機械学習で使う技法の多くは推測統計学のものである。機械学習には、大きく分けてパラメトリック法とノンパラメトリック法とがある。パラメトリック法は、パラメトリックモデル — 有限次元のモデルパラメータで記述された関数の族（Ｅｘ．正規分布） — を用いて確率変数

X

の確率分布を推定する方法である。パラメトリック法には、最尤法、ベイズ推定法、最大事後確率推定法がある。一方、ノンパラメトリック法は、モデルパラメーターは用いずに、データ集合から直接に目的の確率

P(X)

を計算する方法である。ノンパラメトリック法には、ヒストグラム密度推定法やカーネル密度推定法、最近傍法がある。 *パラメトリック法 **最尤法 **ベイズ推定法 **最大事後確率最大化法 *ノンパラメトリック法 **ヒストグラム密度推定法 **カーネル密度推定法 **最近傍法 ===最尤法=== パラメトリック法のなかで、もっともポピュラーかつ古典的な推定法が最尤法である。最尤法のコンセプトは、学習データがもっとも生起しやすいようにモデルパラメーター

\theta

を決めることである。変数

X

の確率分布が、モデルパラメーター

\theta

を用いて条件付き確率

P(X|\theta)

であらわせるとしたら、尤度関数 :

f(\theta) = P(\mathcal{D}_x|\theta) = \prod_i P(x_i|\theta)

を最大化する

\theta

を推定値

\hat{\theta}

とする： :

\hat{\theta} = \arg \max_{\theta} f(\theta)

。実際に利用する場合には、尤度関数を直接最大化するのではなく、対数尤度関数

f'(\theta) = \log f(\theta)

を最大化することが多い。対数をとることで、 :

f'(\theta) = \log f(\theta) = \sum_i \log P(x_i|\theta)

となり、解析的な取り扱いが容易となるためだ。とくに、確率分布が指数関数族であらわされる場合は右辺が多項式になるので、解析的に

\frac{d f'(\theta)}{d\theta} = 0

となる

\theta

を求めることができる。教師あり学習において、条件付き確率を

P(Y|X,\omega,\sigma) = \rm{N}(f(x),\sigma^2)

，

f(x) = \sum_i \omega_i \phi_i(x)

とモデル化すれば、最尤法と最小二乗法が等価になることが数学的に証明されている。さらに、

P(Y|X,\omega,\sigma) = \rm{N}(f(x),\sigma^2)

に対して決定理論を適用すると、予測関数は

y(x) = f(x) = \sum_i \omega_i \phi_i(x)

となり、これもやはり最小二乗法の予測関数と一致する。 ===ベイズ推定法=== パラメトリック法において、本来、定数であるはずのモデルパラメーターに不確実性があることをみとめ、その不確実性をも評価する推定法がベイズ推定法である。モデルパラメーターの不確実性は（ベイズ）確率によって定量的に評価する。古典的な確率論の立場では、確率は客観的な頻度としてしか解釈されないので、定数であるモデルパラメーターに確率を定義することはできない。そのため、ベイズ主義者のなかでしか認められていない推定法である。ベイズ推定法のコンセプトは、モデルパラメーターの確率変数化と周辺化である。まず、データセット

\mathcal{D}_x

からモデルパラメーターの事後確率

P(\theta|\mathcal{D}_x) = P(\theta)P(\mathcal{D}_x|\theta)

を求める。次に、求めた事後確率

P(\theta|\mathcal{D}_x)

に条件付き確率

P(X|\theta)

をかけて、結合分布

P(X,\theta|\mathcal{D}_x) = P(X|\theta)P(\theta|\mathcal{D}_x)

を計算する。これをモデルパラメーターについて周辺化することで、

P(X|\mathcal{D}_x)

を推定する： :

P(X|\mathcal{D}_x) = \sum_{\theta} P(X,\theta|\mathcal{D}_x)

。ベイズ推定法を用いる利点としては、次のものが挙げられる。 *モデルの複雑度が高い場合でも、オーバーフィッティング（モデルパラメーターの過適応）を避けることができる。 *モデルの比較・選択を訓練データからおこなえる。→ [http://www9.atwiki.jp/novpat/pages/35.html#id_fe5eeba7251083396a90a86b54be4dac 周辺尤度最大化法] *ベイズ確率を認めていることから、逐次的な学習が容易に導入できる。今、モデルパラメーター

\theta

の確率分布

P(\theta)

が既知であるとする（事前確率）。ここで、新しい情報

X_1=x_1

が得られたとすると、ベイズの定理より、

P(\theta|X_1=x_1) \propto P(\theta)P(X_1 = x_1|\theta)

と更新できる（事後確率）。さらに、新しい情報

X_2=x_2

を得られたとすると、

P(\theta|X_1=x_1,X_2=x_2) \propto P(\theta|X_1=x_1)P(X_2 = x_2|\theta, X_1=x_1)

と更新できる。これを繰り返すことで、最終的に

P(\theta|\mathcal{D}_x)

を得ることができる。 ===MAP推定法（最大事後確率推定法）=== 最尤法とベイズ推定法の中間に位置する推定法である。ベイズ推定法と同様に、ベイズ確率を採用している。基本的な考え方は、最尤法にしたがうが、尤度を最大化するのではなく、モデルパラメーターの事後確率

P(\theta|\mathcal{D}_x) = P(\theta)P(\mathcal{D}_x|\theta)

を最大化する： :

\hat{\theta} = \arg \max_{\theta} P(\theta|\mathcal{D}_x)

。 MAP推定法は、最尤推定法に正則化項を加えることに対応する。事前確率が正則化項にあたる。正則化項を加えることで、確率モデルの複雑度を制御し、オーバーフィッティングを防止できる。ただし、ベイズ推定法とは異なり、適切な事前確率を見つけ出すことができなければ、オーバーフィッティングを防ぐことはできない。 ===ヒストグラム密度推定法=== ノンパラメトリック法のなかでもっともシンプルな推定法がヒストグラム密度推定法である。連続な確率変数

X

を幅

\Delta

で区切り、その

i

番目の区間に入った

X

の観測地の数を

n_i

とする。この係数を正規化された確率密度とするために、これらの係数を、観測地の総数

N

と、区間の幅

\Delta

とで割る。すると、各区間の密度は、 :

p_i = \frac{n_i}{N\Delta_i}

になる ===カーネル密度推定法=== ヒストグラム密度推定法と同様に、ノンパラメトリックなアプローチの推定法である。 ===最近傍法=== これも、ノンパラメトリックなアプローチの推定法である。 ==モデル選択== ===交差確認=== モデルの推定に最尤推定法を用いた場合のモデル選択法が交差確認である。訓練データ

\mathcal{D}

とは別にテストデータ

\mathcal{T}

を用意し、尤度関数

P(\mathcal{T}|\omega, \mathcal{M}_i)

を最大化するモデル

\mathcal{M}_i

を選択する。

\omega

はモデルパラメーターで、訓練データによって最尤推定する。訓練データとテストデータを分けねばならず、効率が悪い。また、モデルパラメーターを繰り返し学習しなおす必要があるため、時間もかかる。 ===周辺尤度最大化=== モデルの推定にベイズ推定法を用いた場合のモデル選択法が周辺尤度最大化である。ベイズ確率を認めているので、モデルの確かさを確率によって定量的に評価できる。交差確認と異なり、訓練データとテストデータを分ける必要がなく、手持ちのデータをすべて有効活用できるという長所を持つ。モデル選択のひとつであるハイパーパラメーターの決定も、周辺尤度最大化によって解決できる。今、モデルの候補を

\mathcal{M}_i

であらわすと、モデルの確かさは次のようにあらわせる。 :

P(\mathcal{M}_i|\mathcal{D}) \propto P(\mathcal{M}_i)P(\mathcal{D}|\mathcal{M}_i)

。ここで、事前確率

P(\mathcal{M}_i)

はモデルの好みをあらわしている。事前確率が等確率であると仮定すれば、 :

P(\mathcal{M}_i|\mathcal{D}) \simeq P(\mathcal{D}|\mathcal{M}_i) = \int P(\mathcal{D},\omega|\mathcal{M}_i) d\omega = \int P(\mathcal{D}|\omega,\mathcal{M}_i)P(\omega) d\omega

である。

\omega

はモデルパラメーターである。モデルパラメーターについて周辺化しているので、

P(\mathcal{D}|\mathcal{M}_i)

を周辺尤度という。周辺尤度最大化では、これを最大化するモデル

\mathcal{M}_i

を選択する。周辺尤度を最大化することの、根拠は以下のとおりである。もし、モデルの複雑度が小さすぎると、自由度の狭さから、周辺尤度は小さくなる可能性が高い。一方で、モデルの複雑度が大きすぎると、密度が薄くなり、やはり周辺尤度は小さくなる可能性が高い。この結果、周辺尤度最大化によって、中程度の複雑さをもったモデルが選ばれることになる。 ==決定理論== パターン認識や回帰分析のような教師付き学習において、条件付き確率

P(Y|X)

から予測関数

y(x)

を求める方法が決定理論である。条件付き確率

P(Y|X)

は機械学習によって求める。 ===識別率最大化法=== 識別率を最大化するように予測関数を決定する。定式化すると下記のようになる。 :

y(x) = \arg \max_y P(Y=y|X=x)

。条件付き確率

P(Y=y|X=x)

が正規分布を用いてモデル化される場合、予測関数と分布の平均は一致する： :

y(x) = \arg \max_y P(Y=y|X=x) = \mathbb{E}[Y|X]

。 ===期待損失最小化法=== 予測関数を

y(x)

としたときに、予想される損失の期待値を最小化する。確率変数

Y

の分布が条件付き確率

P(Y|X)

によってあらわされるときに（このとき、）、

y(x)

と決定してしまったときの損失を

L(Y,y(x))

とすると、損失の期待値は :

\mathbb{E}_Y\bigl[L(Y,y(x))\bigr] = \int_Y L(Y,y(x)) P(Y|X)dY

とあらわせる。これを最小化する予測関数

y(x)

を求めればよい。変分法を用いれば、その答えは、 :

y(x) = \mathbb{E}[Y|X]

であると導かれる。したがって、予測分布が正規分布のときは、識別率最大化法と期待損失最小化法は同じ予測関数を導くことになる。 ===棄却オプション=== 書き込み中 ==ベイズの定理== ベイズ推定法において重要な役割を果たすベイズの定理は次式である。 :

P(\theta|\mathcal{D}) \propto P(\theta)P(\mathcal{D}|\theta)

P(\theta)

は、情報

\mathcal{D}

が得られる前からわかっている確率分布だから、事前確率分布とよぶ。一方、

P(\theta|\mathcal{D})

は、情報

\mathcal{D}

が得られた後にわかる確率分布だから、事後確率分布と呼ぶ。事前確率を事後確率に変換するために必要な関数

P(\mathcal{D}|\theta)

は尤度である。 ==参考文献== *Christopher M. Bishop "Pattern Recognition And Machine Learning" Springer-Verlag (2006) ISBN 978-0387310732 ---- *統計学 &font(green){無作為抽出されたサンプル集団から母集団の確率分布を推定する方法論が統計学である。} 確率分布の推定方法には、大きく分けてパラメトリックモデルとノンパラメトリックモデルがある。パラメトリックモデルは、確率分布を関数の線型（非線型）結合によって表現し、そのパラメーターを推定することで、確率分布の推定をおこなう。一方、ノンパラメトリックモデルは、今現在得られているデータ集合から目的の確率分布を計算する。パターン認識や回帰分析は、目的変数と従属変数の結合分布もしくは条件付き分布を推定することと言い換えることもできる。 *ベイズ統計学 **ベイズ推論の概要 &font(green){ベイズ推論とは、確率の加法定理や乗法定理を過不足なく用いて（未知）変数の確率分布を推論することである。}従来の方式（未知変数の不確実性を無視し一つの推定値を求めていた）とは異なり、すべての可能性を保持・評価するため、 +ベイズの定理を用いることで、逐次的な学習（確率分布の更新）が自然に導入できる。今、目的変数$$Y$$の確率分布$$P(Y)$$が既知であるとする（事前確率）。ここで、新しい情報$$X_1=x_1$$が得られたとすると、ベイズの定理より、$$P(Y|X_1=x_1) \propto P(Y)P(X_1 = x_1|Y)$$と更新できる（事後確率）。さらに、新しい情報$$X_2=x_2$$を得られたとすると、$$P(Y|X_1=x_1,X_2=x_2) \propto P(Y|X_1=x_1)P(X_2 = x_2|Y, X_1=x_1)$$と更新できる。ただし、逐次的に得られる情報が独立であると仮定できる場合は（ほとんどの例でできる）、$$P(Y|X_1=x_1,X_2=x_2) \propto P(Y|X_1=x_1)P(X_2 = x_2|Y)$$である。これをナイーブベイズ識別器という。最尤推定法でも、Robbins-Monroアルゴリズムを用いれば、逐次的な学習は可能であるが、収束スケジュールの調整など技巧的なテクニックを必要とする。 +期待値を推定値とすることで、学習時に含まれる誤差（外れ値）の影響を少なくできる。 +決定理論と組み合わせることで、最適な意志決定（事後確率の最大化 or 期待損失の最小化）ができる。 +棄却オプションを利用できる。 +確率モデル（独立に学習した結果）の結合が容易である。というメリットがある。ベイズ推論をおこなおうとすると、客観確率（頻度としての確率）に加えて主観確率（不確実性の尺度としての確率）をも確率として認める必要がでてくる。というのも、ベイズ推論にしたがえば、頻度の定義できない変数にも確率分布が定義できてしまうためである。たとえば、正規分布にしたがって生成された乱数列から元の正規分布の平均$$\mu$$を推定することを考える。このとき、$$\mu$$は間違いなく定数であり確率（頻度）を伴う変数ではない。しかし、ベイズ推論にしたがうと、$$\mu$$の確率分布を求める（考える）ことになる。確率を不確実性の尺度として理解することで、この矛盾が解消できるのである。 **ベイズの定理ベイズ推論では、未知変数の確率分布を求めようとする。そのため、確率分布の更新を可能とするベイズの定理： $$P(Y|X=x) \propto P(Y)P(X=x|Y)$$ は大きな意味をもつ。$$X, Y$$は確率変数である。確率分布$$P(Y)$$を&bold(){事前確率}, $$P(Y|X=x)$$を&bold(){事後確率}とよぶ。$$P(Y)$$は、$$X=x$$という情報を得る&bold(){前}にわかっている確率分布だから&bold(){事前}確率であり、$$P(Y|X=x)$$は$$X=x$$という情報を得た&bold(){後}にわかる確率分布だから&bold(){事後}確率である。&font(green){ベイズの定理によれば、事後確率$$P(Y|X=x)$$は、事前確率$$P(Y)$$に尤度関数$$P(X=x|Y)$$を掛けることで得ることができる。} **パターン認識への３つのアプローチ :生成モデル |$$x$$を入力変数、$$y$$を目的変数とする。結合分布$$P(x,y)$$をモデル化し、決定理論を用いることで$$y$$の最適値を決定する。このモデルの最大の特徴は、サンプリング法によって人工の入力列を生成できる点にある。これによって学習データの不足領域が明らかになる。入力変数の確率分布までも求めなければならないため、３つのアプローチのなかで最も手間がかかる。特に入出力空間が大きい場合は、パラメトリック学習を用いないと安定した識別器を得ることは難しい。 :識別モデル |事後確率$$P(y|x)$$を直接モデル化する。推論と意思決定だけが問題である場合、識別モデルで十分である。 :識別関数モデル |識別関数$$y = f(x)$$の関数形を直接モデル化する。このとき、学習の対象は関数のパラメーターとなる。このアプローチは、他の２つの方法と異なり、入力変数や出力変数の確率分布を考慮しない。そのため、ベイズ推論をおこなうメリットのうち、２．〜５．は使えない。しかし、一度学習さえ完了すれば、意思決定は高速にできるので、音声認識などの実時間処理をしたいシステムに向いている。誤差逆伝搬法やSVMは、ノンパラメトリックな識別関数の学習法の一種である。 *決定理論ベイズ推論によって得られた確率分布から最適な意思決定（行動決定）するための方法論が決定理論である。入力ベクトルを$$\bf{x}$$とすると、入力空間$$\bf{x}$$のすべてに最適なクラス$$\rm{C}_k$$を割り当てることが目標となる。以後の説明では、結合確率$$P(x,\rm{C}_k)$$は既知とする。クラス$$\rm{C}_k$$の決定領域（クラス$$\rm{C}_k$$に割り当てられた$$\bf{x}$$の集合）は$$\rm{R}_k$$で表す。 :ベイズ決定則（事後確率最大化法） |事後確率$$P(\rm{C}_k|\bf{X=x})$$は、$$\bf{X=x}$$という乗法が与えられたとき、クラスが$$\rm{C}_k$$となる確率を表しているが、&bold(){クラスが}$$\rm{C}_k$$&bold(){で正しい確率}と読み替えることもできる。このように読み替えると、決定領域$$\rm{R}_k$$が正しい識別結果を返却する確率は&br()$$\sum_k \int_{\bf{x} \in \rm{R}_k} P(\rm{C}_k|\bf{X=x})d\bf{x}$$&br()によって表すことができる。この確率を最大化するように決定領域を設定したい。その方法は、上式より明らかに、事後確率$$P(\rm{C}_k|\bf{X=x})$$を最大にするクラスへ分類することだ。 :期待損失最小化 |入力$$x$$にクラス$$\rm{C}_k$$を割り当てたときの期待損失（損失の期待値）を考える。損失は$$x$$と思っていたものが :期待値 |目的変数$$y$$が実数ならば・・・ :棄却オプション | *最尤推定法 **最尤推定法の概要ベイズ推論とは異なり、頻度主義にもとづく推定法である。 *確率モデル *情報理論 **情報量 **エントロピー期待できる情報量。驚きの期待値。分布の一様性を定量的に表したもの。 **カルバックライブラー情報量 ----

機械学習と決定理論（atwikiモード）

2008-12-24T19:05:21+09:00

#contents() *機械学習 &font(green){学習データセット$$\rm x$$から確率分布$$P(\cdot)$$を推定することを機械学習という。}とくに、単一データからなる学習データセット$$\rm{D} \ni x_i$$から確率分布$$P(X)$$を推定することを教師なし学習といい、二つ（以上）のデータからなる学習データセット$$\rm{D} \ni (x_i, y_i)$$から結合分布$$P(X,Y)$$もしくは条件付き分布$$P(Y|X)$$を推定することを教師あり学習という。無作為抽出されたサンプル集団から元の確率分布を推定することになるので、機械学習は&bold(){推測統計学}と関係が深い。実際、機械学習で使う技法の多くは推測統計学のものである。機械学習には、大きく分けてパラメトリックなアプローチとノンパラメトリックなアプローチとがある。パラメトリックなアプローチでは、確率分布関数$$P(X)$$を一次独立な関数の線型（非線型）結合によって表現し、そのパラメーターを推定する。一方、ノンパラメトリックなアプローチでは、データ集合から直接に目的の確率を計算する。 **最尤推定法パラメトリックなアプローチにおいて、もっともポピュラーかつ古典的な推定法が最尤推定法である。変数$$X$$の確率分布が、パラメーター$$\theta$$を用いて条件付き確率$$P(X|\theta)$$であらわされるとき、尤度関数$$f(\theta) = P(\rm{D}|\theta) = \prod_i P(x_i|\theta)$$を最大化する$$\theta$$を推定値$$\hat{\theta}$$とする： $$\hat{\theta} = \arg \max_{\theta} f(\theta)$$。実用的には尤度関数を直接最大化するのではなく、対数尤度関数$$f'(\theta) = \log f(\theta)$$を最大化することが多い。対数をとることで、 $$f'(\theta) = \log f(\theta) = \sum_i \log P(x_i|\theta)$$ となり、解析的な取り扱いが容易となるためだ。とくに、確率分布が指数関数族であらわされる場合は右辺が多項式になるので、解析的に$$\frac{d \log f(\theta)}{d\theta} = 0$$となる$$\theta$$を求めることができる。 **ベイズ推定法パラメトリックなアプローチにおいて、本来、定数であるはずのモデルパラメーターに不確実性があることをみとめ、その不確実性をも評価する推定法がベイズ推定法である。モデルの不確実性は（ベイズ）確率によって定量的に表現する。古典的な確率論の立場では、確率は客観的な頻度としてしか解釈されないので、定数であるモデルパラメーターに確率を定義することはできない。そのため、ベイズ主義者のなかでしか認められていない推定法である。ベイズ推定法では、まず、データセット$$D$$から確率分布$$P(X,\theta|\rm{D}) = P(X|\theta)P(\theta|\rm{D})$$を求める。次に、これをパラメーターについて周辺化することで、$$P(X)$$を推定する： $$P(X) = \sum_{\theta} P(X,\theta)$$。ベイズ推定法の利点としては、次のものが挙げられる。 -モデルの複雑度が高い場合でも、オーバーフィッティング（モデルパラメーターの過適応）を避けることができる。 -逐次的な学習が容易に導入できる。今、モデルパラメーター$$\theta$$の確率分布$$P(\theta)$$が既知であるとする（事前確率）。ここで、新しい情報$$X_1=x_1$$が得られたとすると、ベイズの定理より、$$P(\theta|X_1=x_1) \propto P(\theta)P(X_1 = x_1|\theta)$$と更新できる（事後確率）。さらに、新しい情報$$X_2=x_2$$を得られたとすると、$$P(\theta|X_1=x_1,X_2=x_2) \propto P(\theta|X_1=x_1)P(X_2 = x_2|\theta, X_1=x_1)$$と更新できる。これより、帰納的に$$P(\theta|\rm{D})$$が学習できる。 **MAP推定法（最大事後確率推定法）最尤推定法とベイズ推定法の中間に位置する推定法である。ベイズ推定法と同様に、モデルパラメーターに不確実性があることを認めている。 MAP推定法では、ベイズ推定法のようにパラメーターについて周辺化するのではなく、確率分布$$P(\theta|\rm{D}) = P(\rm{D}|\theta)P(\theta) = \prod_i P(x_i|\theta)P(\theta)$$を最大化する$$\theta$$を推定値$$\hat{\theta}$$とする： $$\hat{\theta} = \arg \max_{\theta} \prod_i P(x_i|\theta)P(\theta)$$。 $$P(\theta)$$は、$$X$$に関する情報$$\rm D$$が得られる&bold(){前}からわかっている確率分布だから、&bold(){事前確率分布}とよぶ。一方、$$P(\theta|\rm{D})$$は、$$X$$に関する情報$$\rm D$$が得られた&bold(){後}の確率分布だから、&bold(){事後確率分布}と呼ぶ。事前確率を事後確率に変換するために必要な$$\prod_i P(x_i|\theta)$$は尤度関数である。 **ノンパラメトリック法 *決定理論 **誤認識率最小化法 **期待損失最小化法 **棄却オプション ---- *統計学 &font(green){無作為抽出されたサンプル集団から母集団の確率分布を推定する方法論が統計学である。} 確率分布の推定方法には、大きく分けてパラメトリックモデルとノンパラメトリックモデルがある。パラメトリックモデルは、確率分布を関数の線型（非線型）結合によって表現し、そのパラメーターを推定することで、確率分布の推定をおこなう。一方、ノンパラメトリックモデルは、今現在得られているデータ集合から目的の確率分布を計算する。 [[パターン認識]]や回帰分析は、目的変数と従属変数の結合分布もしくは条件付き分布を推定することと言い換えることもできる。 *ベイズ統計学 **ベイズ推論の概要 &font(green){ベイズ推論とは、確率の加法定理や乗法定理を過不足なく用いて（未知）変数の確率分布を推論することである。}従来の方式（未知変数の不確実性を無視し一つの推定値を求めていた）とは異なり、すべての可能性を保持・評価するため、 +ベイズの定理を用いることで、逐次的な学習（確率分布の更新）が自然に導入できる。今、目的変数$$Y$$の確率分布$$P(Y)$$が既知であるとする（事前確率）。ここで、新しい情報$$X_1=x_1$$が得られたとすると、ベイズの定理より、$$P(Y|X_1=x_1) \propto P(Y)P(X_1 = x_1|Y)$$と更新できる（事後確率）。さらに、新しい情報$$X_2=x_2$$を得られたとすると、$$P(Y|X_1=x_1,X_2=x_2) \propto P(Y|X_1=x_1)P(X_2 = x_2|Y, X_1=x_1)$$と更新できる。ただし、逐次的に得られる情報が独立であると仮定できる場合は（ほとんどの例でできる）、$$P(Y|X_1=x_1,X_2=x_2) \propto P(Y|X_1=x_1)P(X_2 = x_2|Y)$$である。これをナイーブベイズ識別器という。最尤推定法でも、Robbins-Monroアルゴリズムを用いれば、逐次的な学習は可能であるが、収束スケジュールの調整など技巧的なテクニックを必要とする。 +期待値を推定値とすることで、学習時に含まれる誤差（外れ値）の影響を少なくできる。 +決定理論と組み合わせることで、最適な意志決定（事後確率の最大化 or 期待損失の最小化）ができる。 +棄却オプションを利用できる。 +確率モデル（独立に学習した結果）の結合が容易である。というメリットがある。ベイズ推論をおこなおうとすると、客観確率（頻度としての確率）に加えて主観確率（不確実性の尺度としての確率）をも確率として認める必要がでてくる。というのも、ベイズ推論にしたがえば、頻度の定義できない変数にも確率分布が定義できてしまうためである。たとえば、正規分布にしたがって生成された乱数列から元の正規分布の平均$$\mu$$を推定することを考える。このとき、$$\mu$$は間違いなく定数であり確率（頻度）を伴う変数ではない。しかし、ベイズ推論にしたがうと、$$\mu$$の確率分布を求める（考える）ことになる。確率を不確実性の尺度として理解することで、この矛盾が解消できるのである。 **ベイズの定理ベイズ推論では、未知変数の確率分布を求めようとする。そのため、確率分布の更新を可能とするベイズの定理： $$P(Y|X=x) \propto P(Y)P(X=x|Y)$$ は大きな意味をもつ。$$X, Y$$は確率変数である。確率分布$$P(Y)$$を&bold(){事前確率}, $$P(Y|X=x)$$を&bold(){事後確率}とよぶ。$$P(Y)$$は、$$X=x$$という情報を得る&bold(){前}にわかっている確率分布だから&bold(){事前}確率であり、$$P(Y|X=x)$$は$$X=x$$という情報を得た&bold(){後}にわかる確率分布だから&bold(){事後}確率である。&font(green){ベイズの定理によれば、事後確率$$P(Y|X=x)$$は、事前確率$$P(Y)$$に尤度関数$$P(X=x|Y)$$を掛けることで得ることができる。} **パターン認識への３つのアプローチ :生成モデル |$$x$$を入力変数、$$y$$を目的変数とする。結合分布$$P(x,y)$$をモデル化し、決定理論を用いることで$$y$$の最適値を決定する。このモデルの最大の特徴は、サンプリング法によって人工の入力列を生成できる点にある。これによって学習データの不足領域が明らかになる。入力変数の確率分布までも求めなければならないため、３つのアプローチのなかで最も手間がかかる。特に入出力空間が大きい場合は、パラメトリック学習を用いないと安定した識別器を得ることは難しい。 :識別モデル |事後確率$$P(y|x)$$を直接モデル化する。推論と意思決定だけが問題である場合、識別モデルで十分である。 :識別関数モデル |識別関数$$y = f(x)$$の関数形を直接モデル化する。このとき、学習の対象は関数のパラメーターとなる。このアプローチは、他の２つの方法と異なり、入力変数や出力変数の確率分布を考慮しない。そのため、ベイズ推論をおこなうメリットのうち、２．〜５．は使えない。しかし、一度学習さえ完了すれば、意思決定は高速にできるので、音声認識などの実時間処理をしたいシステムに向いている。誤差逆伝搬法やSVMは、ノンパラメトリックな識別関数の学習法の一種である。 *決定理論ベイズ推論によって得られた確率分布から最適な意思決定（行動決定）するための方法論が決定理論である。入力ベクトルを$$\bf{x}$$とすると、入力空間$$\bf{x}$$のすべてに最適なクラス$$\rm{C}_k$$を割り当てることが目標となる。以後の説明では、結合確率$$P(x,\rm{C}_k)$$は既知とする。クラス$$\rm{C}_k$$の決定領域（クラス$$\rm{C}_k$$に割り当てられた$$\bf{x}$$の集合）は$$\rm{R}_k$$で表す。 :ベイズ決定則（事後確率最大化法） |事後確率$$P(\rm{C}_k|\bf{X=x})$$は、$$\bf{X=x}$$という乗法が与えられたとき、クラスが$$\rm{C}_k$$となる確率を表しているが、&bold(){クラスが}$$\rm{C}_k$$&bold(){で正しい確率}と読み替えることもできる。このように読み替えると、決定領域$$\rm{R}_k$$が正しい識別結果を返却する確率は&br()$$\sum_k \int_{\bf{x} \in \rm{R}_k} P(\rm{C}_k|\bf{X=x})d\bf{x}$$&br()によって表すことができる。この確率を最大化するように決定領域を設定したい。その方法は、上式より明らかに、事後確率$$P(\rm{C}_k|\bf{X=x})$$を最大にするクラスへ分類することだ。 :期待損失最小化 |入力$$x$$にクラス$$\rm{C}_k$$を割り当てたときの期待損失（損失の期待値）を考える。損失は$$x$$と思っていたものが :期待値 |目的変数$$y$$が実数ならば・・・ :棄却オプション | *最尤推定法 **最尤推定法の概要ベイズ推論とは異なり、頻度主義にもとづく推定法である。 *確率モデル *情報理論 **情報量 **エントロピー期待できる情報量。驚きの期待値。分布の一様性を定量的に表したもの。 **カルバックライブラー情報量 ----

パターン認識

2008-12-20T23:09:53+09:00

#contents() *パターン認識入力変数を$$x$$、出力変数を$$y$$としたとき、学習データセット$$\rm{D} \ni (x_i,y_i)$$から$$x$$と$$y$$の間に存在する規則性を見つけ出し、新しく観測された$$\hat{x}$$に対応する$$\hat{y}$$を求めることをパターン認識という。なお、出力変数が連続値の場合は&bold(){回帰分析}と同等である。機械学習には、大きく分けてパラメトリックなアプローチとノンパラメトリックなアプローチとがある。パラメトリックなアプローチでは、確率分布関数$$P(y|x)$$を一次独立な関数の線型（非線型）結合によって表現し、そのパラメーターを推定する。一方、ノンパラメトリックなアプローチでは、データ集合から直接に目的の確率を計算する。ある入力$$x$$に対して出力$$y$$が，$$y=f(x)$$にしたがって決まるとする．このとき，&font(red){学習セット$$t_i = [x_i, y_i]$$の集合から関数$$f$$を推定することを機械学習と呼ぶ．}$$y$$が有限離散数の場合は，関数$$f$$が入力$$x$$の分類器の役割を果たすので&font(blue){パターン認識}と呼ばれ，$$y$$が有限離散数の場合は回帰と呼ばれる．なお、出力変数が連続値の場合は&bold(){回帰分析}と同等である。 *機械学習 &font(green){入力変数を$$x$$、出力変数を$$y$$としたとき、学習データセット}$$\rm{D} \ni (x_i,y_i)$$&font(green){から条件付き確率分布$$P(y|x)$$を推定することを機械学習という。}無作為抽出されたサンプル集団から（母集団の）確率分布を推定することになるので、機械学習は&bold(){推測統計学}と関係が深い。実際、機械学習で使う技法の多くは推測統計学のものである。なお、出力変数が連続値の場合は&bold(){回帰分析}と同等である。機械学習には、大きく分けてパラメトリックなアプローチとノンパラメトリックなアプローチとがある。パラメトリックなアプローチでは、確率分布関数$$P(y|x)$$を一次独立な関数の線型（非線型）結合によって表現し、そのパラメーターを推定する。一方、ノンパラメトリックなアプローチでは、データ集合から直接に目的の確率を計算する。 *パターン認識と回帰分析ある入力$$x$$に対する出力$$y$$が，関数$$y=f(x)$$にしたがって決まるとする．このとき，入力と出力（教師）の組$$(x_i, y_i)$$の集合（学習データセット）$$\bf D$$から関数$$f$$を推定することを&bold(){機械学習}とよぶ．&bold(){パターン認識}の場合は、$$y$$が有限離散変数$$\rm{C}_k$$であり、関数$$f$$はクラス分類をおこなう。一方，&bold(){回帰分析}の場合は、$$y$$が連続変数である． *ベイズ推定法 [[確率的情報処理]]をパターン認識に適用する．ベイズ推定法から前述のNN法を導出することもできるため，一般的なパターン認識法の一般的な表現ともいえる？？学習のメカニズムを説明するのにも適している？？ *最近傍法 **NN法入力ベクトルとプロトタイプベクトル（クラスを代表するベクトル）の距離を測り，もっとも近いプロトタイプの属するクラスを認識結果として出力する方法を最近傍法（NN法）と呼ぶ．まず，分類するクラスが$$c$$個あるとして，それぞれを$$\{ \omega_1, \omega_2, \cdots, \omega_c \}$$で表すとする．特徴ベクトルが$$d$$次元であるとすると，クラス$$\omega_i$$のプロトタイプ$$\bf{p}_i$$は以下のように定義される． $$\bf{p}_i = (p_{i1}, p_{i2}, \cdots, p_{id})^t$$　　$$(i = 1, \cdots, c)$$ このとき，入力ベクトル$$\bf{x} = (x_1, x_2, \cdots, x_d)^t$$とプロトタイプ$$\bf{p}_i$$との距離は次式によって求められる． $$D(\bf{x,p}_i) = ||\bf{x - p}_i||$$ この距離を最小にするプロトタイプの属するクラスが識別器の出力となる．（余談：２クラス問題のNN法はパーセプトロンと数学的に等価である．《[[(参考)フリーソフトでつくる　音声認識システム>http://www.amazon.co.jp/フリーソフトでつくる音声認識システム-パターン認識・機械学習の初歩から対話システムまで-荒木-雅弘/dp/4627847114/ref=sr_1_1?ie=UTF8&s=books&qid=1214203827&sr=8-1]]》） **K-NN法 NN法では，最近傍のプロトタイプベクトルにより，入力ベクトルの識別をおこなった． k-NN法では，最近傍の$$k$$個のプロトタイプベクトルにより，入力ベクトルの識別をおこなう．最近傍の$$k$$個のプロトタイプベクトルを探し，その中で多数を占めたクラスを識別結果とする． *サポートベクトルマシン（SVM） **概要 **線型非分離な問題への対策