PRML

黄色い本について

各章の基本的な流れ
問題定式化→最小二乗法(頻度主義)→オンライン→ベイズジアン

表記

確率密度関数
p : \mathbb{R}^N \to \mathbb{R}_{\geq 0}
\mbox{s.t. } \int p(\mathbf{x}) d\mathbf{x} = 1
 多変数分布関数というのは,要するに同時分布(結合分布)を表しているに他ならない!!!
従って,特に各成分が独立なとき次が成り立つ。
p(\mathbf{x}) = \prod p_i (x_i)
密度関数の変数変換 多変数で本当に成り立つかどうかは疑問?
\mathbf{x} = \phi(\mathbf{t})
\Rightarrow \widetilde{p}(\mathbf{t}) = p(\phi ( \mathbf{t} )) \Big| \frac{\partial \mathbf{x}}{\partial \mathbf{t}} \Big|
周辺分布
同時分布のどれかの変数を潰して得られる分布
以下の例では,「yを周辺化した分布」と呼ばれる。
\widetilde{p}( x ) := \int p(x,y) dy
基本法則
和の法則;分布の周辺化という操作によって得られる関数は再び分布である。
積の法則:同時分布と条件付き確率の関係
p(x,y) = p(x|y)p(y)
ベイズの定理:積の法則の系。条件付き確率をひっくり返す方法。
p(y|x) = \frac{ p(x|y) p(y) }{ p(x) } = \frac{ p(x|y)p(y) }{ \int p(x|y)p(y)dy }
期待値
一変数:\mathbb{E}[f] := \int f(x) dp(x)
多変数:\mathbb{E}_{x_i} [f( \mathbf{x} )] := \int f( \mathbf{x} ) p( \mathbf{x} )dx_i
条件付き期待値:\mathbb{E}_x [f(x)|y] := \int f(x) p(x|y) dx
 条件yを固定してから積分するので,結局得られるものはyの関数である。
分散
\mathrm{var}[f] := \mathbb{E}[ \{ f - \mathbb{E}[f] \}^2 ] = \mathbb{E}[f^2] - \mathbb{E}[f]^2
\mathrm{cov}[\mathbf{x},\mathbf{y}] := \mathbb{E}[ \{ \mathbf{x}-\mathbb{E}[\mathbf{x}] \} \{ \mathbf{y}^\mathrm{T}-\mathbb{E}[\mathbf{y}^\mathrm{T}] \} ] = \mathbb{E}[\mathbf{xy^\mathrm{T}}]-\mathbb{E}[\mathbf{x}]\mathbb{E}[\mathbf{y}^\mathrm{T}]
ベイズ推定   ←パラメータΘを推定したい。未知入力xに対する予測yがほしいのではない。
0. パラメータθで支配される確率モデルf(x;\theta)を考える。
   例えば,正規分布とか。ニューラル回帰とか。
   与えられたデータは、このモデルに対応する密度関数p_f(x;\theta)に従って出現する。    ←観測値xの分布
   データからモデルを選ぶ操作とは,パラメータを選ぶ操作にほかならない。
1. データが観測される。各データは独立として、パラメータの尤もらしさが評価できる。
   尤度関数:L(\theta) := \prod_{x \in \mathcal{D}} p_f(x|\mathbf{\theta})
2. パラメータ自体が適当な分布をもつと仮定する。←パラメタΘの分布。ここからがベイジアン。尤度最大化に持ち込むのが最尤推定。
   事前確率:p(\theta)
3. データが観測されると,パラメータの分布が変化する。
   事後確率:p(\theta|\mathcal{D}) \propto L(\theta) p(\theta)
4. 事後分布は、平均操作をとるのに使う。ここで事後分布最大化に持ち込むのはMAP推定。
    \mathbb{E}_{p(\theta|\mathjcal{D})}[f(x;\theta)] 

事前分布と事後分布が同じ表式になるような事前分布を共役事前分布という。
共役事前分布は観測値の分布p_f(x;\theta)によって決まり、
特に指数分布族に対しては必ず共役事前分布が存在する。
注. 同時分布との違い
同時分布p(\mathcal{D},\theta)は,\thetaを固定しない表現なので,
\thetaに関する確率もかかっている。
フィッシャー情報量
対数尤度関数l(\theta) := \log L(\theta)のθによる導関数をスコアという。
l(θ)の導関数の外積の期待値を,フィッシャー情報行列という。
\mathcal{I}(\theta) := \mathbf{E} \left[ \frac{\partial \, l(\theta)}{\partial \theta} \left( \frac{\partial \, l(\theta)}{\partial \theta} \right)^\mathrm{T} \right]
←ヘッセ行列ではないことに注意!ただし,スコアの期待値が0であることから,確かこれはヘッセ行列の期待値と一致するはず???
データ集合Dが得られたときに,適当な事前分布から事後分布を計算する方法
1. 事前知識と称して,パラメータの事前分布 p(θ)を作る。
2. 適当な理屈を付けて,尤度関数p(D|θ)を構成する。
3. ベイズの定理によって事後分布を得る。
   p(\mathbf{\theta} | \mathcal{D}) = \frac{p(\mathcal{D} | \mathbf{\theta}) p(\mathbf{\theta} )}{\int p(\mathcal{D} | \mathbf{\theta}) p(\mathbf{\theta} ) d\mathbf{\theta}}
MAP推定:最大事後確率推定
事前分布とか尤度関数を最初から決めるのは難しいので,ハイパーパラメータを導入して分布族•関数族を考え,
事後が最大になるようにハイパーパラメータを決定するという方法。
\mbox{maximize   } p(\mathbf{\theta} | \mathcal{D},\alpha,\beta ) \propto p(\mathbf{\theta} | \mathcal{D}, \alpha) p(\mathbf{\theta} | \beta)
クラス判別
入力ベクトル x に対するクラスCkを決定する話。
つまり各クラスCkに対して事後分布p(Ck|x)を作る問題。
生成モデル
p(Ck) と p(x|Ck) を作って,ベイズの公式からp(Ck|x)を作る方法
識別モデル
p(Ck|x) を直接作る方法
識別関数
p(Ck|x) を作って(推論段階),確率が最も大きいkをとる(決定段階)というステップではなく,
直接 x をクラスラベル k に写像する関数 f(x) を構成する方法。

ロジスティックシグモイドとハイパボリックタンジェントの関係

\tanh x = \frac{e^x-e^{-x}}{e^x+e^{-x}}
\sigma(\alpha) = \frac{1}{1+e^{-\alpha}}
\frac{1}{2} \left( \tanh \frac{x}{2} + 1 \right) = \sigma(x)

レジュメとか

PRML62.tex

メモ

最尤推定の一般的な問題:過学習…パラメータ数に対してデータ数が極端に少ないときに起こる問題。 →ベイジアンなら大丈夫(有効パラメータ)。

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 指数分布族が単峰性を持つというよりは, 平均がそもそも確率密度関数p(x)から実数Rへの写像だから というのが原因ではないだろうか。

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● データ集合Dから元の分布のパラメータθを推定したい →尤度関数p(D|θ)をθの関数L(θ)とみなし,最大化するのが普通。

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 曲線フィッティング  訓練データ(D,t)から,新たな点xに対するtを予測することが目標。

1.5.5
期待損失
教師信号t
最終更新:2010年06月29日 11:26
ツールボックス

下から選んでください:

新しいページを作成する
ヘルプ / FAQ もご覧ください。
添付ファイル