アットウィキロゴ

メニュー2

\documentclass[10pt]{jreport}

\usepackage{bm}
\usepackage{amsmath}
\usepackage{amsfonts}
\usepackage{mathtools}
\usepackage{txfonts}
\usepackage{color}
\usepackage{geometry}

\DeclareMathOperator*{\argmax}{arg\,max}

\begin{document}
\chapter{序論}
\section{例:多項式曲線フィッティング}
N個の観測値xおよび対応する観測値tが存在。
フィッティングを
\begin{eqnarray}
y(x,\bm{w}) = w_{0}+w_{1}x+ w_{2}x^2 + \cdots + w_{M}x^{m} = \sum_{j=0}^{M}w_{j}x^{j}
\end{eqnarray}
により行う。二乗和誤差は
\begin{eqnarray}
E(\bm{w}) = \frac{1}{2}\sum_{n=1}^{N}\{y(x_{n},\bm{w})-t_{n}\}^2
\end{eqnarray}
により定義される。これを最小化する$\bm{w}$を$\bm{w}^{*}$と書き
\begin{eqnarray}
E_{\mathrm{RMS}} = \sqrt{2E(\bm{w}^{*})/N}
\end{eqnarray}
を平均二乗平方根誤差という。過学習を抑制するために
\begin{eqnarray}
\tilde{E}(\bm{w}) = \frac{1}{2}\sum_{n=1}^{N}\{y(x_{n},\bm{w})-t_{n}\}^2 + \frac{\lambda}{2}||\bm{w}||^2
\end{eqnarray}
を用いることもある。これを正則化という。

\section{確率論}
省略
\subsection{確率密度}
省略
\subsection{期待値と分散}
ある関数$f(x)$の確率分布$p(x)$のもとでの期待値は
\begin{eqnarray}
\mathbb{E}[f] \equiv \sum_{x}p(x)f(x)
\end{eqnarray}
で与えられる。連続変数の場合は
\begin{eqnarray}
\mathbb{E}[f] \equiv \int p(x)f(x)dx
\end{eqnarray}
となる。これは有限個の$N$点で
\begin{eqnarray}
\mathbb{E}[f]\approx\frac{1}{N}\sum_{n=1}^{N}f(x_{n})
\end{eqnarray}
と近似できる。多変数関数の期待値で一部の変数についての平均をとるときには添え字を用いて
\begin{eqnarray}
\mathbb{E}_{x}[f(x,y)] \equiv \sum_{x}p(x,y)f(x,y)
\end{eqnarray}
と表す。これは$y$の関数となる。また、条件付き期待値
\begin{eqnarray}
\mathbb{E}_{x}[f(x,y)|y] \equiv \sum_{x}p(x|y)f(x,y)
\end{eqnarray}
を考えることもできる。
$f(x)$の分散は
\begin{eqnarray}
\mathrm{var}[f] &\equiv& \mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^2\right] \notag \\
&=& \mathbb{E}[f(x)^2] - \mathbb{E}[f(x)]^2
\end{eqnarray}
と定義される。確率変数$x$自身の分散は
\begin{eqnarray}
\mathrm{var}[x] = \mathbb{E}[x^2] - \mathbb{E}[x]^2
\end{eqnarray}
となる。
2つの確率変数$x$と$y$の共分散は
\begin{eqnarray}
\mathrm{cov}[x,y] &\equiv& \mathbb{E}\left[ \{x-\mathbb{E}[x]\} \{y-\mathbb{E}[y]\} \right] \notag \\
&=& \mathbb{E}[xy] - \mathbb{E}[x]\mathbb{E}[y]
\end{eqnarray}
と定義される。また、2つの確率変数ベクトル$\bm{x},\bm{y}$に関して、共分散は行列
\begin{eqnarray}
\mathrm{cov}[\bm{x},\bm{y}] &\equiv& \mathbb{E}\left[ \{\bm{x}-\mathbb{E}[\bm{x}]\} \{\bm{y}^{T}-\mathbb{E}[\bm{y}^{T}]\} \right] \notag \\
&=& \mathbb{E}[\bm{x}\bm{y}^{T}] - \mathbb{E}[\bm{x}]\mathbb{E}[\bm{y}^{T}]
\end{eqnarray}
となり、ベクトル$\bm{x}$の成分間の共分散を表すのには
\begin{eqnarray}
\mathrm{\bm{x}} \equiv \mathrm{cov}[\bm{x},\bm{x}]
\end{eqnarray}
と書く。

\subsection{ベイズ確率}
モデルパラメータ$\bm{w}$の適切な選び方に関する不確実性を取り扱う方法を考える。
あらかじめ$\bm{w}$に関する事前確率分布$p(\bm{w})$を仮定し、観測データを$\mathcal{D}$と書くことにすれば
\begin{eqnarray}
p(\bm{w}|D) = \frac{p(\mathcal{D}|\bm{w})p(\bm{w})}{p(\mathcal{D})}
\end{eqnarray}
となる。$p(\mathcal{D}|\bm{w})$は尤度関数と呼ばれる。また
\begin{eqnarray}
p(\mathcal{D}) = \int p(\mathcal{D}|\bm{w})p(\bm{w})d\bm{w}
\end{eqnarray}
である。

\subsection{ガウス分布}
ガウス分布は
\begin{eqnarray}
\mathcal{N}(x|\mu,\sigma^2) \equiv \frac{1}{(2\pi\sigma^2)^{1/2}} \exp\left\{ -\frac{1}{2\sigma^2}(x-\mu)^2\right\}
\end{eqnarray}
で定義される。この分布については
\begin{eqnarray}
\mathbb{E}[x] &=& \mu \notag \\
\mathbb{E}[x^2] &=& \mu^2 + \sigma^2 \notag \\
\mathrm{var}[x] &=& \sigma^2
\end{eqnarray}
が成り立つ。
多変数の場合は
\begin{eqnarray}
\mathcal{N}(\bm{x}|\bm{\mu},\bm{\Sigma}) \equiv \frac{1}{(2\pi)^{D/2}|\Sigma|^{1/2}} \exp\left\{ -\frac{1}{2\sigma^2}(\bm{x}-\bm{\mu})^T\bm{\Sigma}^{-1}(\bm{x}-\bm{\mu})\right\}
\end{eqnarray}
となる。ここで$D$はベクトルの次元で$|\Sigma|$は$\Sigma$の行列式を表す。

次にスカラー変数の$N$個の観測値からなるデータ集合${\bf x} = (x_{1},\cdots,x_{N})$から$\mu$と$\sigma^2$を推定することを考える。
尤度関数は
\begin{eqnarray}
p({\bf x}|\mu,\sigma^2) = \prod_{n=1}^{N}\mathcal{N}(x_{n}|\mu,\sigma^2)
\end{eqnarray}
で与えられ、その対数は
\begin{eqnarray}
\ln p({\bf x}|\mu,\sigma^2) = -\frac{1}{2\sigma^2}\sum_{n=1}^{N}(x_{n}-\mu)^2 - \frac{N}{2}\ln \sigma^2 -\frac{N}{2}\ln(2\pi)
\end{eqnarray}
となる。
これを最大化すると
\begin{eqnarray}
\mu_{\mathrm{ML}} &=& \frac{1}{N}\sum_{n=1}^{N}x_{N} \notag \\
\sigma_{\mathrm{ML}}^{2} &=& \frac{1}{N}\sum_{n=1}^{N}(x_{n}-\mu_{\mathrm{ML}})^2
\end{eqnarray}
となる。ところで、これらのデータがパラメータ$\mu,\sigma^2$を持つガウス分布から与えられたとすると、この量の期待値は
\begin{eqnarray}
\mathbb{E}[\mu_{ML}] &=& \mu \notag \\
\mathbb{E}[\sigma_{\mathrm{ML}}^2] &=& \left( \frac{N-1}{N}\right) \sigma^2
\end{eqnarray}
となる。したがって
\begin{eqnarray}
\tilde{\sigma}^{2} = \frac{N}{N-1} \sigma_{\mathrm{ML}}^{2}
\end{eqnarray}
は分散パラメータの不偏推定量になる。

\subsection{曲線フィッティング再訪}
訓練データの集合${\bf x} = (x_{1},\cdots,x_{N})^{T}$とっそれに対応する目標値${\bf t} = (t_{1},\cdots,t_{N})^{T}$に基づいて、新たな入力$x$に対する目標変数$t$の予測を確率分布で表すことを考える。 ここでは$x$に対応する$t$が多項式曲線$y(x,\bm{w})$を平均とするガウス分布に従うと仮定する。
すなわち
\begin{eqnarray}
p(t|x,\bm{w},\beta) = \mathcal{N}(t|y(x,\bm{w}),\beta^{-1})
\end{eqnarray}
として考える。尤度関数はデータが独立であると仮定し、
\begin{eqnarray}
p({\bf t}|{\bf x},\bm{w},\beta) = \prod_{n=1}^{N} \mathcal{N}(t_{n}|y(x_{n},\bm{w}),\beta^{-1})
\end{eqnarray}
で与えられる。その対数は
\begin{eqnarray}
\ln p({\bf t}|{\bf x},\bm{w},\beta) = -\frac{\beta}{2}\sum_{n=1}^{N}\{y(x_{n},\bm{w})-t_{n}\}^2 + \frac{N}{2}\ln \beta -\frac{N}{2}\ln(2\pi)
\end{eqnarray}
である。これを最大化することは$\bm{w}$については二乗和誤差の最小化と等価であり、$\beta$については
\begin{eqnarray}
\frac{1}{\beta} = \frac{1}{N} \sum_{n=1}^{N}\{y(x_{n},\bm{w}_{\mathrm{ML}})-t_{n}\}^2
\end{eqnarray}
を得る。

よりベイズ的なアプローチでは$\bm{w}$に関する事前分布を導入する。ここでは
\begin{eqnarray}
p(\bm{w}|\alpha) = \mathcal{N}(\bm{w}|\bm{0},\alpha^{-1}\bm{I}) = \left(\frac{\alpha}{2\pi}\right)^{(M+1)/2} \exp \left\{ -\frac{\alpha}{2}\bm{w}^{T}\bm{w} \right\}
\end{eqnarray}
を考える。ここで$M$は多項式の時数であり、$\bm{w}$の要素数は$M+1$である。また$\alpha$を超パラメータと呼ぶ。
ベイズの定理より、$\bm{w}$の事後分布は事前分布と尤度関数の積に比例し
\begin{eqnarray}
p(\bm{w}|{\bf x},{\bf t},\alpha, \beta) \propto p({\bf t}| {\bf x}, \bm{w}, \beta)p(\bm{w}|\alpha)
\end{eqnarray}
となる。この最大値は
\begin{eqnarray}
\frac{\beta}{2}\sum_{n=1}^{N} \{y(x_{n},\bm{w})-t_{n}\}^2 + \frac{\alpha}{2}\bm{w}^{T}\bm{w}
\end{eqnarray}
を最小にする$\bm{w}$によって与えられる。これは、正則化された二乗和誤差の最小化と等価である。

\subsection{ベイズ曲線フィッティング}
3.3節でやるため、省略。

\section{モデル選択}
省略

\section{次元の呪い}
省略

\section{決定理論}
入力ベクトル$\bm{x}$と対応する目標変数$\bm{t}$が存在し、新たな$\bm{x}$に対する$\bm{t}$を予測することを考える。
例として、入力$\bm{x}$を患者のX線画像、出力を癌であるクラス$\mathcal{C}_{1}$、癌でないクラス$\mathcal{C}_{2}$とする。
目標は患者の画像$\bm{x}$が与えられたときに2つのクラスに属する確率$p(\mathcal{C}_{k}|\bm{x})$を求めることであり、ベイズの定理により
\begin{eqnarray}
p(\mathcal{C}_{k}|\bm{x}) = \frac{p(\bm{x}|\mathcal{C}_{k})p(\mathcal{C}_{k})}{p(\bm{x})}
\end{eqnarray}
と表すことができる。

\subsection{誤識別率の最小化}
$\bm{x}$の各値に一つのクラスを割り振る規則を考えることにする。すなわち、$\mathcal{R}_{k}$上の点にはクラス$C_{k}$を割り当てることにする。
同時分布を用いると、誤りが起きる確率は
\begin{eqnarray}
p(誤り) = \int_{\mathcal{R}_{1}} p(\bm{x},\mathcal{C}_{2}) d\bm{x} + \int_{\mathcal{R}_{2}} p(\bm{x},\mathcal{C}_{1})d\bm{x}
\end{eqnarray}
となる。また一般の$K$クラスの場合は、正解の確率が
\begin{eqnarray}
p(正解) = \sum_{k=1}^{K} \int_{\mathcal{R}_{k}} p(\bm{x},\mathcal{C}_{k})d\bm{x}
\end{eqnarray}
で表される。
これを最大化するには各$\bm{x}$を最大事後確率$p(\mathcal{C}_{k}|\bm{x})$を持つクラスに割り当てるべきである。

\subsection{期待損失の最小化}
目的が正解確率の最大化でない場合、例えば以下の損失関数を最小化したい場合を考える。
\begin{eqnarray}
\mathbb{E}[L] = \sum_{k,j}\int_{\mathcal{R}_{j}}L_{kj}p(\bm{x},\mathcal{C}_{k})d\bm{x}
\end{eqnarray}
これを最小化するには各$\bm{x}$において
\begin{eqnarray}
\sum_{k}L_{kl}p(\bm{x},\mathcal{C}_{k})
\end{eqnarray}
が最も小さくなるようなクラス$j$を選べばよい。

\subsection{棄却オプション}
省略

\subsection{推論と決定}
省略

\subsection{回帰のための損失関数}
回帰問題の場合についても、各入力$\bm{x}$に対して$t$の値に対する推定値$y(\bm{x})$を考えたときに、損失$L(t,y(\bm{x}))$をこうむるとすると、期待損失は
\begin{eqnarray}
\mathbb{E}[L] = \int\int L(t,y(\bm{x})) p(\bm{x},t) d\bm{x}dt
\end{eqnarray}
で与えられる。二乗誤差の場合
\begin{eqnarray}
\mathbb{E}[L] = \int\int \{y(\bm{x})-t\}^2 p(\bm{x},t) d\bm{x}dt
\end{eqnarray}
となる。変分法を用いることによって、
\begin{eqnarray}
\frac{\delta \mathbb{E}[L]}{\delta y(\bm{x})} = 2\int \{ y(\bm{x})-t \} p(\bm{x},t) dt = 0
\end{eqnarray}
より、損失を最小にする$y(\bm{x})$として
\begin{eqnarray}
y(\bm{x}) = \frac{\int tp(\bm{x},t)dt}{p(\bm{x})} = \int tp(t|\bm{x}) dt = \mathbb{E}_{t}[t|\bm{x}]
\end{eqnarray}
を得る。この結果は別の方法で導くこともできる。
二乗の項は
\begin{eqnarray}
\{ y(\bm{x})-t \}^2 &=& \{ y(\bm{x}) - \mathbb{E}_{t}[t|\bm{x}] + \mathbb{E}_{t}[t|\bm{x}] - t \}^2 \notag \\
&=& \{ y(\bm{x}) - \mathbb{E}_{t}[t|\bm{x}] \}^2 + 2\{ y(\bm{x}) - \mathbb{E}_{t}[t|\bm{x}] \} \{ \mathbb{E}_{t}[t|\bm{x}] - t \} + 2\{ \mathbb{E}_{t}[t|\bm{x}] - t \}^2 \notag \\
\end{eqnarray}
となる。
\begin{eqnarray}
\int \{ \mathbb{E}_{t}[t|\bm{x}] - t \} p(\bm{x},t) dt = 0
\end{eqnarray}
より、
\begin{eqnarray}
\mathbb{E}[L] = \int \{ y(\bm{x}) - \mathbb{E}_{t}[t|\bm{x}] \}^2 p(\bm{x})d\bm{x} + \int \mathrm{var}[t|\bm{x}]p(\bm{x})d\bm{x}
\end{eqnarray}
となる。ただし
\begin{eqnarray}
\mathrm{var}[t|\bm{x}] = \int \{ t - \mathbb{E}_{t}[t|\bm{x}] \}^2 p(t|\bm{x}) dt
\end{eqnarray}
である。

二乗誤差には単純な一般化が存在し、
\begin{eqnarray}
\mathbb{E}[L_{q}] = \int\int \{y(\bm{x})-t\}^q p(\bm{x},t) d\bm{x}dt
\end{eqnarray}
をミンコフスキー損失という。

\section{情報理論}
離散分布に対する
\begin{eqnarray}
H[x] = -\sum_{x}p(x)\log_{2}p(x)
\end{eqnarray}
をエントロピーという。また、連続分布に対する。
\begin{eqnarray}
H[\bm{x}] = -\int p(\bm{x})\ln p(\bm{x}) d\bm{x}
\end{eqnarray}
を微分エントロピーという。離散分布のエントロピーを最大化する分布は等確率分布であり、微分エントロピーを最大化する分布はガウス分布である。

また、確率変数$\bm{x},\bm{y}$に対して、
\begin{eqnarray}
H[\bm{y}|\bm{x}] = -\int \int p(\bm{y},\bm{x}) \ln p(\bm{y}|\bm{x})d\bm{y}d\bm{x}
\end{eqnarray}
を$\bm{x}$に対する$\bm{y}$の情報エントロピーという。このとき
\begin{eqnarray}
H[\bm{x},\bm{y}] = -\int \int p(\bm{y},\bm{x}) \ln p(\bm{y},\bm{x})d\bm{y}d\bm{x} = H[\bm{y}|\bm{x}] + H[\bm{x}]
\end{eqnarray}
が成り立つ。

\subsection{相対エントロピーと相互情報量}

二つの分布$p(\bm{x})$tと$q(\bm{x})$に対して、
\begin{eqnarray}
KL(p||q) &=& -\int p(\bm{x}) \ln q(\bm{x})d\bm{x} -\left(-\int p(\bm{x}) \ln p(\bm{x})d \bm{x} \right) \notag \\
&=& -\int p(\bm{x}) \ln \left \{ \frac{ q(\bm{x}) }{ p(\bm{x}) } \right \} d\bm{x}
\end{eqnarray}
を$p(\bm{x})$tと$q(\bm{x})$の間の相対エントロピーという。これは真の分布$p(\bm{x})$の代わりに$q(\bm{x})$を使った時に必要となる追加の情報量と解釈される。
また、この量は対称ではない。

イェンセンの不等式を用いると、常に$KL(p||q) \geq 0$が成り立ち等号成立は$p(\bm{x}) = q(\bm{x})$に限ることがわかる。
イェンセンの不等式は$p(\bm{x}) > 0$、$\int p(\bm{x})d\bm{x}=1$とし、関数fを凸関数とすると
\begin{eqnarray}
\int f(g(\bm{x}))p(\bm{x})d\bm{x} \geq f \left( \int g(\bm{x})p(\bm{x}) d\bm{x} \right)
\end{eqnarray}
が成り立つことをいい、その証明は以下のように行う。
\textcolor{blue}{
凸関数については
\begin{eqnarray}
f(b) \geq f(a) + f'(a)(b-a)
\end{eqnarray}
が成り立つ。等号成立は$b=a$の時に限る。
$b$に$g(\bm{x})$を、$a$に$\int g(\bm{x})p(\bm{x}) d\bm{x}$を代入し、辺々$p(\bm{x})$をかけて積分を行うと、イェンセンの不等式を得る。
等号成立は$g(\bm{x})$が定数の時に限る。
}
相対エントロピーの性質を証明するには、$f$を$-\ln$に、$g(\bm{x})$を$q(\bm{x})/p(\bm{x})$に置き換えればよい。

2つの確率変数$\bm{x}$、$\bm{y}$に関して
\begin{eqnarray}
I[\bm{x},\bm{y}] &\equiv& KL( p(\bm{x},\bm{y}) || p(\bm{x})p(\bm{y}) ) \notag \\
&=& -\int p(\bm{x},\bm{y}) \ln \left( \frac{ p(\bm{x})p(\bm{y}) }{ p(\bm{x},\bm{y} ) } \right) d\bm{x}d\bm{y}
\end{eqnarray}
を相互情報量とよぶ。相対エントロピー同様に$I[\bm{x},\bm{y}] \geq 0$であり、
\begin{eqnarray}
I[\bm{x},\bm{y}] = H[\bm{x}] - H[\bm{x} | \bm{y}] = H[\bm{y}] - H[\bm{y}|\bm{x}]
\end{eqnarray}
が成り立つ。

\chapter{確率分布}

\section{二値変数}
$x\in \{0,1\}$上で定義された
\begin{eqnarray}
\mathrm{Bern}(x|\mu) = \mu^{x}(1-\mu)^{1-x}
\end{eqnarray}
をベルヌーイ分布とよぶ。$x=0,1$の確率がそれぞれ$1-\mu,\mu$で与えられる。期待値と分散は
\begin{eqnarray}
\mathbb{E}[x] &=& \mu \notag \\
\mathrm{var}[x] &=& \mu(1-\mu)
\end{eqnarray}
データ集合$\mathcal{D} = (x_{1},\cdots, x_{n})$がこの分布から独立に得られたとすると、尤度関数とその対数は
\begin{eqnarray}
p(\mathcal{D}|\mu) &=& \prod_{n=1}^{N}p(x_{n}|\mu) = \prod_{n=1}^{N}\mu^{x_{n}}(1-\mu)^{1-x_{n}} \notag \\
\ln p(\mathcal{D}|\mu) &=& \sum_{n=1}^{N}\ln p(x_{n}|\mu) = \sum_{n=1}^{N}\{ x_{n}\ln\mu + (1-x_{n})\ln(1-\mu) \}
\end{eqnarray}
で与えられる。これを最大化すると
\begin{eqnarray}
\mu_{\mathrm{ML}} = \frac{1}{N} \sum_{n=1}^{N}x_{n}
\end{eqnarray}
を得る。

ベルヌーイ分布に基づく試行を$N$回行った場合に$x=1$が出る回数を表す確率分布を二項分布といい、
\begin{eqnarray}
\mathrm{Bin}(m|N,\mu) &=&
\begin{pmatrix} N \\ m \end{pmatrix}
\mu^{m}(1-\mu)^{N-m} \notag \\
\begin{pmatrix} N \\ m \end{pmatrix}
&\equiv& \frac{N!}{(N-m)!m!}
\end{eqnarray}
で表される。平均と分散は
\begin{eqnarray}
\mathbb{E}[x] &=& N\mu \notag \\
\mathrm{var}[x] &=& N\mu(1-\mu)
\end{eqnarray}
で与えられる。

\subsection{ベータ分布}
$(0,1)$上で定義された以下の分布をベータ分布という。
\begin{eqnarray}
\mathrm{Beta}(\mu|a,b) &\equiv& \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1} \notag \\
\Gamma(x) &\equiv& \int_{0}^{\infty}u^{x-1}e^{-u}du
\end{eqnarray}
その平均と分散は
\begin{eqnarray}
\mathbb{E}[\mu] &=& \frac{a}{a+b} \notag \\
\mathrm{var}[\mu] &=& \frac{ab}{(a+b)^2(a+b+1)}
\end{eqnarray}
で与えられる。

ベルヌーイ分布から$x=1$となる観測値を$m$個、$x=0$なる観測値を$l$個含むデータ集合を考え、ベルヌーイ分布のパラメータ$\mu$の事前分布がガンマ分布と仮定すると、$\mu$に関する事後分布は
\begin{eqnarray}
p(\mu|m,l,a,b) = \frac{\Gamma(m+a+l+b)}{\Gamma(m+a)\Gamma(l+b)}\mu^{m+a-1}(1-\mu)^{l+b-1}
\end{eqnarray}
となってやはりガンマ分布となる。この性質を共役性と呼ぶ。
次の試行に対する予測分布は
\begin{eqnarray}
p(x=1|m,l,a,b) &=& \int_{0}^{1}p(x=1|\mu)p(\mu|m,l,a,b)d\mu \notag \\
&=& \int_{0}^{1}\mu p(\mu|m,l,a,b)d\mu \notag \\
&=& \frac{m+a}{m+a+l+b}
\end{eqnarray}
となる。

\section{多値変数}
$K$個の異なる状態のうち$1$つをとる離散変数を扱うことを考える。
状態を表す変数には、$K$次元空間を張る$K$個の単位ベクトルを考えればよく確率分布はパラメータ$\mu_{k}$を用いて
\begin{eqnarray}
p(\bm{x}|\bm{\mu}) = \prod_{k=1}^{K}\mu_{k}^{x_{k}}
\end{eqnarray}
と表され、その期待値は
\begin{eqnarray}
\mathbb{E}[\bm{x}|\bm{\mu}] = \sum_{\bm{x}}p(\bm{x}|\bm{\mu})\bm{x} = \bm{\mu}
\end{eqnarray}
となる。
$N$個の独立な観測値$\bm{x}_{1},\cdots,\bm{x}_{N}$のデータ集合$\mathcal{D}$が与えられた場合の尤度関数は
\begin{eqnarray}
p(\mathcal{D}|\bm{\mu}) &=& \prod_{n=1}^{N}\prod_{k=1}^{K}\mu_{k}^{x_{nk}} = \prod_{k=1}^{K}\mu_{k}^{m_{k}} \notag \\
m_{k} &=& \sum_{n}x_{nk}
\end{eqnarray}
となる。
$\mu$の最尤推定解を求めるには$\sum_{k}\mu_{k}=1$を満たしつつ尤度関数の対数を最大化するため、ラグランジュ乗数法を用いるとよく、
\begin{eqnarray}
\sum_{k=1}^{K}m_{k}\ln\mu_{k} + \lambda\left(\sum_{k=1}^{K}\mu_{k}-1\right)
\end{eqnarray}
の導関数を$0$にすればよい。その結果として
\begin{eqnarray}
\mu_{k}^{\mathrm{ML}} = \frac{m_{k}}{N}
\end{eqnarray}
を得る。

パラメータ$\bm{\mu}$および観測値の総数$N$が与えられた条件での$m_{1},\cdots,m_{K}$の同時確率は
\begin{eqnarray}
\mathrm{Mult}(m_{1},\cdots,m_{K}|\bm{\mu},N) &=&
\begin{pmatrix} N \\ m_{1}\cdots m_{K} \end{pmatrix}
\prod_{k=1}^{K}\mu_{k}^{m_{k}} \notag \\
\begin{pmatrix} N \\ m_{1}\cdots m_{K} \end{pmatrix} &=&
\frac{N!}{m_{1}!\cdots m_{K}!}
\end{eqnarray}
で与えられ、多項分布と呼ばれる。

\subsection{ディリクレ分布}
多項分布の共役事前分布は、パラメータ$\bm{\alpha}$を用いて
\begin{eqnarray}
\mathrm{Dir}(\bm{\mu}|\bm{\alpha}) &=& \frac{\Gamma(a_{0})}{\Gamma(a_{1})\cdots\Gamma(a_{K})}
\prod_{k=1}^{K}\mu_{k}^{\alpha_{k}-1} \notag \\
\alpha_{0} &=& \sum_{k=1}^{K}\alpha_{k}
\end{eqnarray}
と表される。ここで$\bm{\mu}$には$\sum_{k=1}^{K}\mu_{k}=1$の制約が課されていることに注意する。
\textcolor{blue}{
ディリクレ分布に関する演習2.9保留
}

データ集合が与えられた場合の事後分布は$p(\bm{\mu}|\mathcal{D},\bm{\alpha}) \propto p(\mathcal{D}|\bm{\mu})p(\bm{\mu}|\bm{\alpha})$であり、正規化係数を求めると、
\begin{eqnarray}
p(\bm{\mu}|\mathcal{D},\bm{\alpha}) = \mathrm{Dir}(\bm{\mu}|\bm{\alpha}+\bm{m})
&=& \mathrm{Dir}(\bm{\mu}|\bm{\alpha}+\bm{m}) \notag \\
&=& \frac{\Gamma(a_{0}+N)}{\Gamma(a_{1}+m_{1})\cdots\Gamma(a_{K}+m_{k})}
\end{eqnarray}
を得る。
\textcolor{blue}{
本文には「尤度関数(2.34)を掛けると」とあるが「(2.29)の方が適切と考えられる。」
}

\section{ガウス分布}
1変数$x$に対するガウス分布は
\begin{eqnarray}
\mathcal{N}(x|\mu,\sigma^2) = \frac{1}{(2\pi\sigma^2)^{1/2}}\exp \left \{ -\frac{1}{2\sigma^2}(x-\mu)^2 \right \}
\end{eqnarray}
と書かれる。ここで平均は$\mu$で、分散は$\sigma^2$である。$D$次元変数の場合は
\begin{eqnarray}
\mathcal{N}(\bm{x}|\bm{\mu},\bm{\Sigma}) = \frac{1}{(2\pi)^{D/2}|\Sigma|^{1/2}}\exp \left \{ -\frac{1}{2}(\bm{x}-\bm{\mu})\bm{\Sigma}^{-1} (\bm{x}-\bm{\mu}) \right \}
\end{eqnarray}
となり、
\begin{eqnarray}
\mathbb{E}[\bm{x}] &=& \bm{\mu} \notag \\
\mathrm{cov}[\bm{x}] &=& \bm{\Sigma}
\end{eqnarray}
が成り立つ。

\subsection{条件付きガウス分布}
$\bm{x}$をガウス分布$\mathcal{N}(\bm{x}|\bm{\mu},\bm{\Sigma})$に従う$D$次元のベクトルとする。
これを2つの互いに素な部分$\bm{x}_{a},\bm{x}_{b}$に分割する場合を考える。また$\bm{\mu},\bm{\Sigma}$についても分割を定義し
\begin{eqnarray}
\bm{x} = \begin{pmatrix} \bm{x}_{a} \\ \bm{x}_{b} \end{pmatrix} \quad
\bm{\mu} = \begin{pmatrix} \bm{\mu}_{a} \\ \bm{\mu}_{b} \end{pmatrix} \quad
\bm{\Sigma} =
\begin{pmatrix}
\bm{\Sigma}_{aa} & \bm{\Sigma}_{ab} \\
\bm{\Sigma}_{ba} & \bm{\Sigma}_{bb}
\end{pmatrix}
\end{eqnarray}
とする。また、共分散の逆行列を精度行列と定義しこれについても分割を考える。すなわち
\begin{eqnarray}
\bm{\Lambda} =
\begin{pmatrix}
\bm{\Lambda}_{aa} & \bm{\Lambda}_{ab} \\
\bm{\Lambda}_{ba} & \bm{\Lambda}_{bb}
\end{pmatrix}
\end{eqnarray}
である。
このとき、$\bm{x}_{b}$を固定した場合の$\bm{x}_{a}$の条件付き分布は
\begin{eqnarray}
p(\bm{x}_{a}|\bm{x}_{b}) &\equiv& \frac{p(\bm{x}_{a},\bm{x}_{b})}{\int p(\bm{x}_{a},\bm{x}_{b}) d\bm{x}_{a}} = \mathcal{N}(\bm{x}_{a}|\bm{\mu}_{a|b}, \Lambda_{aa}^{-1}) \notag \\
\bm{\mu}_{a|b} &=& \bm{\mu}_{a} - \bm{\Lambda}_{aa}^{-1}\bm{\Lambda}_{ab}(\bm{x}_{b}-\mu_{b})
\end{eqnarray}
となる。

\subsection{周辺ガウス分布}
周辺分布については以下が成り立つ
\begin{eqnarray}
p(\bm{x}_{a}) = \int p(\bm{x}_{a},\bm{x}_{b}) d\bm{x}_{b} = \mathcal{N}(\bm{x}_{a}|\bm{\mu}_{a},\bm{\Sigma}_{aa})
\end{eqnarray}

\subsection{ガウス変数に対するベイズの定理}
次に周辺分布と条件付き分布が以下のように与えられている問題を考える。
\begin{eqnarray}
p(\bm{x}) &=& \mathcal{N}(\bm{x}|\bm{\mu},\bm{\Lambda}^{-1}) \notag \\
p(\bm{y}|\bm{x}) &=& \mathcal{N}(\bm{y}|\bm{Ax}+\bm{b},\bm{L}^{-1})
\end{eqnarray}
このとき$\bm{z}^T=(\bm{x}^T,\bm{y}^T)$も正規分布に従い
\begin{eqnarray}
\mathbb{E}[\bm{z}] =
\begin{pmatrix}
\bm{\mu} \\ \bm{A\mu} + \bm{b}
\end{pmatrix}
\quad
\mathrm{cov}[\bm{z}] = \bm{R}^{-1} =
\begin{pmatrix}
\bm{\Lambda} + \bm{A}^{T}\bm{LA} & -\bm{A}^{T}\bm{L} \\
  • \bm{LA} & \bm{L}
\end{pmatrix}
\end{eqnarray}
が成り立つ。その他にも
\begin{eqnarray}
p(\bm{y}) &=& \int p(\bm{y}|\bm{x})p(\bm{x}) d\bm{x} = \mathcal{N}(\bm{y}|\bm{A\mu}+\bm{b},\bm{L}^{-1}+\bm{A\Lambda}^{-1}\bm{A}^{T})
\notag \\
p(\bm{x}|\bm{y}) &=& \mathcal{N}(\bm{x}|\bm{\Sigma}\{\bm{A}^{T}\bm{L}(\bm{y}-\bm{b})+\bm{\Lambda\mu} \}, \bm{\Sigma}) \notag \\
\bm{\Sigma} &=& (\bm{\Lambda}+\bm{A}^{T}\bm{L}\bm{A})^{-1}
\end{eqnarray}

\subsection{ガウス分布の最尤推定}
多変量ガウス分布から独立に得られたと仮定したデータ集合$\bm{X} = (\bm{x}_{1},\cdots,\bm{x}_{N})^{T}$があるとき、対数尤度関数は
\begin{eqnarray}
\ln p(\bm{X}|\bm{\mu},\bm{\Sigma}) = -\frac{ND}{2}\ln(2\pi) - \frac{N}{2}\ln|\bm{\Sigma}|
  • \frac{1}{2}\sum_{n=1}^{N}(\bm{x}_{n}-\bm{\mu})^{T}\bm{\Sigma}^{-1}(\bm{x}_{n}-\bm{\mu}) \notag \\
\end{eqnarray}
となり、これを最大化すると
\begin{eqnarray}
\bm{\mu}_{\mathrm{ML}} &=& \frac{1}{N}\sum_{n=1}^{N}\bm{x}_{n} \notag \\
\bm{\Sigma}_{\mathrm{ML}} &=& \frac{1}{N}\sum_{n=1}^{N}(\bm{x}_{n}-\bm{\mu}_{\mathrm{ML}})(\bm{x}_{n}-\bm{\mu}_{\mathrm{ML}})^{T}
\end{eqnarray}
を得る。真の分布で最尤推定解の期待値を評価すると
\begin{eqnarray}
\mathbb{E}[\bm{\mu}_{\mathrm{ML}}] &=& \bm{\mu} \notag \\
\mathbb{E}[\bm{\Sigma}_{\mathrm{ML}}] &=& \frac{N-1}{N}\bm{\Sigma}
\end{eqnarray}
となる。したがって分散の不偏推定量は
\begin{eqnarray}
\tilde{\bm{\Sigma}} = \frac{1}{N-1}\sum_{n=1}^{N}(\bm{x}_{n}-\bm{\mu}_{\mathrm{ML}})(\bm{x}_{n}-\bm{\mu}_{\mathrm{ML}})^{T}
\end{eqnarray}
となる。

\subsection{逐次推定}
同時分布$p(z,\theta)$に従う確率変数$\theta$と$z$を考える。また
\begin{eqnarray}
f(\theta) \equiv \mathbb{E}[z|\theta] = \int zp(z|\theta)dz
\end{eqnarray}
という関数を定義し
\begin{eqnarray}
\mathbb{E}[(z-f)^2|\theta] < \infty
\end{eqnarray}
と仮定する。
\textcolor{blue}{
$z,\theta$が独立である場合、$f(\theta)$はそもそも定数になる。この節の議論は何らかの仮定が落ちていると考えられるので以下省略
}

\subsection{ガウス分布に対するベイズ推論}
1変数の場合から考える。$N$個のデータ集合${\bf x}=\{x_1,\cdots,x_{N}\}$が与えられ、それが分散$\sigma^2$を既知とするガウス分布から与えられたとすると、尤度関数は
\begin{eqnarray}
p({\bf x}|\mu) = \prod_{n=1}^{N}p(x_{n}|\mu) = \frac{1}{(2\pi\sigma^2)^{N/2}}\exp\left\{ -\frac{1}{2\sigma^2}\sum_{n=1}^{N}(x_n-\mu)^2 \right\}
\end{eqnarray}
となる。平均に関する共益事前分布は
\begin{eqnarray}
p(\mu) = \mathcal{N}(\mu|\mu_{0},\sigma_{0}^2)
\end{eqnarray}
となる。事後分布は
\begin{eqnarray}
p(\mu|{\bf x}) &=& \frac{1}{C} p({\bf x}|\mu)p(\mu) \notag \\
&=& \mathcal{N}(\mu|\mu_{N},\sigma_{N}^2)
\end{eqnarray}
となる。ただし
\begin{eqnarray}
\mu_{N} &=& \frac{\sigma^2}{N\sigma_{0}^2+\sigma^2}\mu_{0} + \frac{N\sigma_{0}^2}{N\sigma_{0}^2+\sigma^2}\mu_{\mathrm{ML}} \notag \\
\frac{1}{\sigma_{N}^2} &=& \frac{1}{\sigma_{0}^2} + \frac{N}{\sigma^2} \notag \\
\mu_{\mathrm{ML}} &=& \frac{1}{N}\sum_{n=1}^{N}x_{n}
\end{eqnarray}
である。

次に平均がわかっていて、分散がわからない場合を考える。
これについては精度$\lambda \equiv 1/\sigma^2$で考えるほうが容易で、尤度関数は
\begin{eqnarray}
p({\bf x}|\lambda) = \prod_{n=1}^{N}\mathcal{N}(x_{n}|\mu,\lambda^{-1}) \propto \lambda^{N/2}
\exp\left\{-\frac{\lambda}{2}\sum_{n=1}^{N}(x_{n}-\mu)^2 \right\}
\end{eqnarray}
で与えられる。
共役事前分布は
\begin{eqnarray}
\mathrm{Gam}(\lambda|a_0,b_0) \equiv \frac{1}{\Gamma(a)}b_{0}^{a_{0}}\lambda^{a_{0}-1}\exp(-b_{0}\lambda)
\end{eqnarray}
で定義されるガンマ分布になる。
なお、この分布の期待値、分散は
\begin{eqnarray}
\mathbb{E}[\lambda] &=& \frac{a}{b} \notag \\
\mathrm{var}[\lambda] &=& \frac{a}{b^2}
\end{eqnarray}
事後分布については
\begin{eqnarray}
p(\lambda|{\bf x}) &=& \frac{1}{C} p({\bf x}|\lambda)p(\lambda) \notag \\
&=&\mathrm{Gam}(\lambda|a_{N},b_{N})
\end{eqnarray}
となる。ただし
\begin{eqnarray}
a_{N} &=& a_{0} + \frac{N}{2} \notag \\
b_{N} &=& b_{0} + \frac{1}{2}\sum_{n=1}^{N}(x_{n}-\mu)^2 = b_{0}+\frac{N}{2}\sigma_{\mathrm{ML}}^2
\end{eqnarray}
である。また平均と精度両方が未知の場合事前分布は
\begin{eqnarray}
p(\mu,\lambda) = \mathcal{N}(\mu|\mu_{0},(\beta_{0}\lambda)^{-1})\mathrm{Gam}(\lambda|a_{0},b_{0})
\end{eqnarray}
で与えられる。ただし$a_{0}=(1+\beta_{0})/2$である。
\textcolor{blue}{$\mu_{N},\beta_{N},b_{N}$の表式は未確認。}
多変数の場合は省略

\subsection{スチューデントの$t$分布}
省略

\subsection{周期変数}
$[0,2\pi)$上で定義された
\begin{eqnarray}
p(\theta|\theta_{0},m) &=& \frac{1}{2\pi I_{0}(m)}\exp\{m\cos(\theta-\theta_{0})\} \notag \\
I_{0}(m) &=& \frac{1}{2\pi}\int_{0}^{2\pi}\exp\{m \cos \theta \} d\theta
\end{eqnarray}
をフォン・ミーゼス分布という。

データ$\{\theta_{1},\cdots,\theta_{N}\}$が与えられた場合の対数尤度関数は
\begin{eqnarray}
\ln p(\mathcal{D}|\theta_{0},m) = -N\ln(2\pi) - N\ln I_{0}(m) + m\sum_{n=1}^{N}\cos(\theta_{n}-\theta_{0})
\end{eqnarray}
で与えられる。$\theta_{0}$についての導関数を$0$とおくと
\begin{eqnarray}
\sum_{n=1}^{N}\sin(\theta_{n}-\theta_{0}) = 0
\end{eqnarray}
より、
\begin{eqnarray}
\theta_{0}^{\mathrm{ML}} = \tan^{-1}\left\{ \frac{\sum_{n}\sin\theta_{n}}{\sum_{n}\cos\theta_{n}} \right\}
\end{eqnarray}
となる。これは幾何的には$\{(\cos\theta_{i},\sin\theta_{i})\}$の重心の偏角となっている。
一方$m$については
\begin{eqnarray}
\frac{I_{0}'(m_{\mathrm{ML}})}{I_{0}'(m_{\mathrm{ML}})} = \frac{1}{N}\sum_{n=1}^{N}\cos(\theta_{n}-\theta_{0}^{\mathrm{ML}})
\end{eqnarray}
より数値的に求めることができる。

\subsection{混合ガウス分布}
\begin{eqnarray}
\sum_{k=1}^{K}\pi_{k} = 1 \quad 0 \leq \pi_{k} \leq 1
\end{eqnarray}
なる$\pi_{k}$を用いて表される
\begin{eqnarray}
p(\bm{x}) = \sum_{k=1}^{K}\pi_{k}\mathcal{N}(\bm{x}|\bm{\mu}_{k},\bm{\Sigma}_{k})
\end{eqnarray}
を混合ガウス分布という。

データ$\bm{X} = \{\bm{x}_{1},\cdots,\bm{x}_{N}\}$が与えられた場合の対数尤度関数は
\begin{eqnarray}
\ln p(\bm{X}|\bm{\pi},\bm{\mu},\bm{\Sigma}) = \sum_{n=1}^{N}\ln \left \{ \sum_{k=1}^{K}\pi_{k}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{k},\bm{\Sigma}_{k}) \right \}
\end{eqnarray}
となる。


\section{指数分布族}
$\bm{\eta}$をパラメータとし
\begin{eqnarray}
p(\bm{x}|\bm{\eta}) &=& h(\bm{x})g(\bm{\eta})\exp\{\bm{\eta}^{T}\bm{u}(\bm{x})\} \notag \\
g(\bm{\eta}) &=& \frac{1}{\int h(\bm{x}) \exp\{\bm{\eta}^{T}\bm{u}(\bm{x})\}d\bm{x}}
\end{eqnarray}
で表されるを指数型分布族という。
ベルヌーイ分布、多項分布、ガウス分布はすべてこれに該当する。

\subsection{最尤推定と十分統計量}
指数型分布族では一般的に
\begin{eqnarray}
  • \nabla \ln g(\bm{\eta}) = \mathbb{E}[\bm{u}(\bm{x})]
\end{eqnarray}
が成り立つ。またデータの集合$\bm{X} = \{\bm{x}_{1},\cdots,\bm{x}_{N}\}$が与えられた場合の尤度関数は
\begin{eqnarray}
p(\bm{X}|\bm{\eta}) = \left(\prod_{n=1}^{N}h(\bm{x}) \right) g(\bm{\eta})^{N} \exp \left\{ \bm{\eta}^{T}\sum_{n=1}^{N}\bm{u}(\bm{x}_{n}) \right\}
\end{eqnarray}
で与えられ、最尤推定量はこの対数の微分を$0$にする点として与えられ
\begin{eqnarray}
  • \nabla \ln g(\bm{\eta}_{\mathrm{ML}}) = \frac{1}{N} \sum_{n=1}^{N}\bm{u}(\bm{x}_{n})
\end{eqnarray}
を満たす。最尤推定の解はデータに$\sum_{n}\bm{u}(\bm{x}_{n})$を通じてのみ依存し、この量を分布の十分統計量と呼ぶ。

\subsection{共役事前分布}
指数型分布族の分布の共役事前分布は
\begin{eqnarray}
p(\bm{\eta}|\bm{\chi},\nu) = f(\bm{\chi},\nu)g(\bm{\eta})^{\nu}\exp\{ \nu \bm{\eta}^{T}\bm{\chi} \}
\end{eqnarray}
で与えられる。ここで$f(\bm{\chi},\nu)$は正規化係数である。
データが与えられた場合の事後分布は正規化係数を除くと
\begin{eqnarray}
p(\bm{\eta}|\bm{X},\bm{\chi},\nu) \propto g(\bm{\eta})^{\nu+N} \exp\left\{ \bm{\eta}^{T}\left( \sum_{n=1}^{N}\bm{u}(\bm{x}_{n}) + \nu\bm{\chi} \right)\right\}
\end{eqnarray}
で与えられる。

\subsection{無情報事前分布}
省略

\section{ノンパラメトリック法}
データ集合から値が決定される少数のパラメータで関数形が決まる方法はパラメトリックなアプローチと呼ばれる。
一方関数形を仮定しないものをノンパラメトリックなアプローチという。
たとえばヒストグラム密度推定法では、確率変数$x$のとりうる領域を幅$\Delta_{i}$の区間に区切り、$i$番目の区間に入った$x$の観測値を$n_{i}$とし、$i$番目の区間の確率密度を
\begin{eqnarray}
p_{i} = \frac{n_{i}}{N\Delta_{i}}
\end{eqnarray}
と推定する。ただし$N$はデータの総数である。

\subsection{カーネル密度推定法}
カーネル密度推定法とは、与えられたデータに対して、
\begin{eqnarray}
k(\bm{u}) \leq 0 \notag \\
\int k(\bm{u}) d\bm{u} = 1
\end{eqnarray}
を満たすカーネル関数を用いて確率密度を
\begin{eqnarray}
p(\bm{x}) = \frac{1}{N} \sum_{n=1}^{N}\frac{1}{h^{D}}k\left( \frac{\bm{x}-\bm{x}_{n}}{h}\right)
\end{eqnarray}
と推定する方法である。
関数$k$としては、例えば原点を中心とする単位立方体を用いることができる。
また、ガウス関数をカーネルとして用いた場合
\begin{eqnarray}
p(\bm{x}) = \frac{1}{N} \sum_{n=1}^{N}\frac{1}{(2\pi h^2)^{D/2}}\exp\left\{ -\frac{||\bm{x}-\bm{x}_{n}||^2}{2h^2}\right\}
\end{eqnarray}
となる。

\subsection{最近傍法}
省略

\chapter{線形回帰モデル}
回帰の目標は$N$個の観測値$\{\bm{x}_{n}\}$と対応する目標値${t_{n}}$が与えられた場合に新しい$\bm{x}$に対する$t$の値を予測することである。
最も単純なアプローチは適当な関数$y(\bm{x})$を直接構成することであり、より一般的には、予測分布$p(t|\bm{x})$を構成することである。

\section{線形基底関数モデル}
$M$個のパラメータ$w_{i}$および、基底関数$\phi_{i}(\bm{x})$を用いて予測関数を
\begin{eqnarray}
y(\bm{x},\bm{w}) = \sum_{j=0}^{M-1}w_{j}\phi_{j}(\bm{x}) = \bm{w}^{T}\bm{\phi}(\bm{x})
\end{eqnarray}
とするモデルを線形基底関数モデルという。ここで$\phi_{0}=1$は定数関数で、他の$M-1$個の関数はあらかじめ決めておき、
パラメータ$w_{i}$の方は与えられたデータに基づいて何らかの方法で決定する。

\subsection{最尤推定と最小二乗法}
予測分布を決定論的な関数$y(\bm{x},\bm{w})$を中心としたガウス分布で与えることを考える。すなわち
\begin{eqnarray}
p(t|\bm{x},\bm{w},\beta) = \mathcal{N}(t|y(\bm{x},\bm{w}),\beta^{-1})
\end{eqnarray}
とする。$N$個のデータが与えられた場合の尤度関数は
\begin{eqnarray}
p(\bm{t}|\bm{X},\bm{w},\beta) = \prod_{n=1}^{N}\mathcal{N}(t_{n}|\bm{w}^{T}\bm{\phi}(\bm{x_{n}}),\beta^{-1})
\end{eqnarray}
となる。その対数は
\begin{eqnarray}
\ln p(\bm{t}|\bm{X},\bm{w},\beta) &=& \sum_{n=1}^{N} \ln \mathcal{N}(t_{n}|\bm{w}^{T}\bm{\phi}(\bm{x}),\beta^{-1}) \notag \\
&=& \frac{N}{2}\ln\beta -\frac{N}{2}(2\pi) - \beta E_{\mathcal{D}}(\bm{w}) \notag \\
E_{\mathcal{D}}(\bm{w}) &=& \frac{1}{2}\sum_{n=1}^{N}\{t_{n} - \bm{w}^{T}\bm{\phi}(\bm{x}_{n}) \}^{2}
\end{eqnarray}
で与えられる。$E_{\mathcal{D}}(\bm{w})$は二乗和誤差関数であり、$\bm{w}$の最尤解はこれを最小にする。
\textcolor{blue}{これを微分すると
\begin{eqnarray}
\frac{\partial}{\partial w_{i}} E_{\mathcal{D}}(\bm{w}) = \sum_{n=1}^{N}\left(t_{n}-\sum_{j=0}^{M-1}w_{j}\phi_{j}(\bm{x})\right) \phi_{i}(\bm{x}_{n})
\end{eqnarray}
となり、$\phi_{i}(\bm{x}_{n})=\Phi_{ni}$と書き上式を0とおくと
\begin{eqnarray}
\sum_{n=1}^{N}\Phi_{ni}t_{n} &=& \sum_{n=1}^{N}\sum_{j=0}^{M-1}\Phi_{nj}\Phi_{ni}w_{j}
\end{eqnarray}
より
}
\begin{eqnarray}
\bm{w}_{\mathrm{ML}} = \left( \bm{\Phi}^{T}\bm{\Phi} \right)^{-1} \bm{\Phi}^{T} \bm{t}
\end{eqnarray}
を得る。また、ノイズの精度パラメータ$\beta$については
\begin{eqnarray}
\frac{1}{\beta_{\mathrm{ML}}} = \frac{1}{N}\sum_{n=1}^{N} \{ t_{n}-\bm{w}_{\mathrm{ML}}^{T}\bm{\phi}(\bm{x}_{n}) \}^2
\end{eqnarray}
で与えられる。

\subsection{最小二乗法の幾何学}
省略

\subsection{逐次学習}
省略

\subsection{正則化最小二乗法}
省略

\subsection{出力変数が多次元の場合}
目標ベクトルが$K$次元の場合、
\begin{eqnarray}
\bm{y}(\bm{x},\bm{w}) = \bm{W}^{T}\bm{\phi}(\bm{x})
\end{eqnarray}
とすればよい。目標ベクトルの条件付き分布を
\begin{eqnarray}
p(\bm{t}|\bm{x},\bm{W},\beta) = \mathcal{N}(\bm{t}|\bm{W}^{T}\bm{\phi}(\bm{x}),\beta^{-1}\bm{I})
\end{eqnarray}
と仮定する。
$n$番目の行が$\bm{t}_{n}^{T}$となる行列を$\bm{T}$とすると、
このときの対数尤度関数は
\begin{eqnarray}
\ln p(\bm{T}|,\bm{X},\bm{W},\beta) &=& \sum_{n=1}^{N}\ln \mathcal{N}(\bm{t}_{n}|\bm{W}^{T}\bm{\phi}(\bm{x}_{n}), \beta^{-1}\bm{T}) \notag \\
&=& \frac{NK}{2}\ln \left( \frac{\beta}{2\pi} \right) - \frac{\beta}{2}\sum_{n=1}^{N} || \bm{t}_{n}-\bm{W}^{T}\bm{\phi}(\bm{x}_{n}) ||^2 \notag \\
\end{eqnarray}
であり、これを最大にする$\bm{W}$として
\begin{eqnarray}
\bm{W}_{\mathrm{ML}} = \left( \bm{\Phi}^{T}\bm{\Phi} \right)^{-1} \bm{\Phi}^{T} \bm{T}
\end{eqnarray}
を得る。

\section{バイアス‐バリアンス分解}
引き続き、入力$\bm{x}$に対して出力$t$を予測する問題を考える。1.5.5節で示したように二乗損失関数
\begin{eqnarray}
\mathbb{E}[L] = \int \int \{ y(\bm{x}) -t \}^{2}p(\bm{x},t)d\bm{x}dt
\end{eqnarray}
を最小にする予測は
\begin{eqnarray}
h(\bm{x}) = \mathbb{E}[t|\bm{x}] = \int tp(t|\bm{x})dt
\end{eqnarray}
で与えられる。同じく1.5.5節で示したように任意の予測関数$y(\bm{x})$に対して、期待二乗損失は
\begin{eqnarray}
\mathbb{E}[L] = \int \{ y(\bm{x}) - h(\bm{x})\}^2 d\bm{x} + \int \int \{ h(\bm{x}) -t\}^2 p(\bm{x},t) d\bm{x}dt
\end{eqnarray}
で与えられる。予測関数の関数形をどのように選ぼうと、これはデータに依存する量であり、その期待値を考えることができる。上の式の第一項は
\begin{eqnarray}
&&\{y(\bm{x};\mathcal{D}) - h(\bm{x}) \}^2 \notag \\
&=&\{y(\bm{x};\mathcal{D}) - \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] + \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] - h(\bm{x}) \}^2 \notag \\
&=& \{y(\bm{x};\mathcal{D}) - \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] \}^2 + \{ \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] - h(\bm{x}) \}^2 \notag \\
&+& 2\{y(\bm{x};\mathcal{D}) - \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] \} \{ \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] - h(\bm{x}) \}
\end{eqnarray}
である。この式全体のデータ集合$\mathcal{D}$の取り方に関する期待値は
\begin{eqnarray}
&&\mathbb{E}_{\mathcal{D}} [ \{y(\bm{x};\mathcal{D}) - h(\bm{x}) \}^2 ] \notag \\
&=& \{ \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] - h(\bm{x}) \}^2
  1. \mathbb{E}_{\mathcal{D}} [ \{y(\bm{x};\mathcal{D}) - \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] \}^2 ]
\end{eqnarray}
となる。第一項は二乗バイアスとよばれ、第二項はバリアンスと呼ばれる。
したがって、期待二乗損失のデータに対する期待値についても
\begin{eqnarray}
\mathbb{E}_{\mathcal{D}}[\mathbb{E}[L]] &=& (バイアス)^2 + バリアンス + ノイズ \notag \\
(バイアス)^2 &=& \int \{ \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] - h(\bm{x}) \}^2 p(\bm{x})d\bm{x} \notag \\
バリアンス &=& \int \mathbb{E}_{\mathcal{D}} [ \{y(\bm{x};\mathcal{D}) - \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] \}^2 ] p(\bm{x})d\bm{x} \notag \\
ノイズ &=& \int \int \{ h(\bm{x}) -t\}^2 p(\bm{x},t) d\bm{x}dt
\end{eqnarray}
となる。
\textcolor{blue}{
ここで言っているデータの期待値を考えるというのは、データ集合$\{(\bm{x}_{i},t_{i})\}$に対して
\begin{eqnarray}
\prod_{i=1}^{N}\int p(\bm{x}_{i},t_{i}) d\bm{x}_{i}dt_{i}
\end{eqnarray}
を考えるということである。
}

\section{ベイズ線形回帰}
\subsection{パラメータの分布}
ここではモデルパラメータの事前分布
\begin{eqnarray}
p(\bm{w}) = \mathcal{N}(\bm{w}|\bm{m}_{0},\bm{S}_{0})
\end{eqnarray}
を考える。
\textcolor{blue}{
この問題では、与えられたデータ$\bm{X}=(\bm{x}_{1},\cdots,\bm{x}_{N}) ,\bm{t} = (t_{1},\cdots,t_{N})$に対して$p(\bm{w}|\bm{t},\bm{X})$を考える。
対応するベイズの定理は
\begin{eqnarray}
p(\bm{w}|\bm{t},\bm{X}) p(\bm{t},\bm{X}) = p(\bm{t}|\bm{X},\bm{w})p(\bm{X}|\bm{w})p(\bm{w})
\end{eqnarray}
である。この問題では$\bm{X}$は$\bm{w}$に依存しない、すなわち$p(\bm{X}|\bm{w})$は$\bm{w}$によらないため
\begin{eqnarray}
p(\bm{w}|\bm{t},\bm{X}) \propto p(\bm{t}|\bm{X},\bm{w})p(\bm{w})
\end{eqnarray}
である。
}
3.1.1節の尤度関数
\begin{eqnarray}
p(\bm{t}|\bm{X},\bm{w},\beta) = \prod_{n=1}^{N}\mathcal{N}(t_{n}|\bm{w}^{T}\bm{\phi}(\bm{x_{n}}),\beta^{-1})
\end{eqnarray}
を用いると、
\begin{eqnarray}
p(\bm{w}|\bm{t},\bm{X})&=& \mathcal{N}(\bm{w}|\bm{m}_{N},\bm{S}_{N}) \notag \\
\bm{m}_{N} &=& \bm{S}_{N}\left( \bm{S}_{0}^{-1}\bm{m}_{0} + \beta \bm{\Phi}^{T}\bm{t} \right) \notag \\
\bm{S}_{N}^{-1} &=& \bm{S}_{0}^{-1} + \beta \bm{\Phi}^{T}\bm{\Phi}
\end{eqnarray}
を得る。ただし$\phi_{i}(\bm{x}_{n}) = \Phi_{ni}$である。

\subsection{予測分布}
実際的な場面では、$\bm{w}$の値そのものよりも、新しい$\bm{x}$に対する$t$の値を予測したいのであって、それは、
\begin{eqnarray}
p(t|\bm{x},\bm{t},\bm{X}) = \int p(t|\bm{x},\bm{w})p(\bm{w}|\bm{t},\bm{X})d\bm{w}
\end{eqnarray}
で与えられる。
\begin{eqnarray}
p(t|\bm{x},\bm{w},\beta) &=& \mathcal{N}(t|\bm{w}^{T}\phi(\bm{x}),\beta^{-1}) \notag \\
p(\bm{w}|\bm{t},\bm{X},\beta) &=& \mathcal{N}(\bm{w}|\bm{m}_{N},\bm{S}_{N})
\end{eqnarray}
を考えると、
\begin{eqnarray}
p(t|\bm{x},\bm{t},\bm{X}) &=& \mathcal{N}(t|\bm{m}_{N}^{T}\bm{\phi}(\bm{x}),\sigma_{N}^{2}(\bm{x})) \notag \\
\sigma_{N}^{2}(\bm{x}) &=& \frac{1}{\beta} + \bm{\phi}(\bm{x})^{T}\bm{S}_{N}\bm{\phi}(\bm{x})
\end{eqnarray}
を得る。

\subsection{等価カーネル}
$\bm{w}$の事前分布の平均値を$0$とすると
\begin{eqnarray}
\bm{m}_{N} &=& \beta \bm{S}_{N}\bm{\Phi}^{T}\bm{t}
\end{eqnarray}
となる。これを用いると
\begin{eqnarray}
y(\bm{x},\bm{m}_{N}) = \bm{m}_{N}^{T}\bm{\phi}(\bm{x}) = \beta \bm{\phi}(\bm{x})^{T}\bm{S}_{N}\bm{\Phi}^{T}\bm{t}
= \sum_{n=1}^{N}\beta \bm{\phi}(\bm{x})^{T}\bm{S}_{N}\bm{\phi}(\bm{x}_{n})t_{n}
\end{eqnarray}
を得る。ここで等価カーネルと呼ばれる関数
\begin{eqnarray}
k(\bm{x},\bm{x}') = \beta \bm{\phi}(\bm{x})^{T} \bm{S}_{N}\bm{\phi}(\bm{x}')
\end{eqnarray}
を定義すると
\begin{eqnarray}
y(\bm{x},\bm{m}_{N}) = \sum_{n=1}^{N}k(\bm{x},\bm{x}_{n})t_{n}
\end{eqnarray}
が成り立つ。なお、等価カーネルはその関数の定義が$\bm{S}_{N}$を通してデータ集合$\bm{x}_{n}$に依存している。

\textcolor{blue}{
また、$\bm{w}$の事前分布の分散が大きい極限では
\begin{eqnarray}
\bm{S}_{N}^{-1} = \beta \bm{\Phi}^{T}\bm{\Phi}
\end{eqnarray}
が成り立つ。この状況の下では、
\begin{eqnarray}
\sum_{n=1}^{N}k(\bm{x},\bm{x}_{n}) = 1
\end{eqnarray}
が全ての$\bm{x}$について成り立つ。
(本文には書いてないが、演習3.14の書き方からしても、$\bm{w}$の事前分布の分散が大きい極限であることは上の式が成り立つ必要条件になっているはず。)
これは以下のように証明する。
\begin{eqnarray}
\sum_{n=1}^{N}k(\bm{x},\bm{x}_{n}) &=& \beta \sum_{n}\sum_{ij}\phi_{i}(\bm{x})S_{Nij}\phi_{j}(\bm{x}_{n}) \notag \\
&=& \beta \sum_{n}\sum_{ij}\phi_{i}(\bm{x})S_{Nij}\phi_{j}(\bm{x}_{n})\phi_{0}(\bm{x}_{n}) \notag \\
&=& \sum_{i}\phi_{i}(\bm{x})I_{i0} \notag \\
&=& 1
\end{eqnarray}
}

\section{ベイズモデル比較}
省略

\section{エビデンス近似}
本節では、超パラメータの事前分布を導入することを考える。
\textcolor{blue}{その前に数式などを確認しておく。
その際本文に合わせ、関数形の表記からは新しい入力$\bm{x}$を省略する。
起点となるのは、目標変数$t$を決定論的な関数$y(\bm{x},\bm{w})$と加法性のガウスノイズの和で表す
\begin{eqnarray}
p(t|\bm{w},\beta) = \mathcal{N}(t|y(\bm{x},\bm{w}),\beta^{-1})
\end{eqnarray}
である。
$\bm{w}$についての事前分布を
\begin{eqnarray}
p(\bm{w}|\alpha) = \mathcal{N}(\bm{w}|\bm{0},\alpha^{-1}\bm{I})
\end{eqnarray}
とすると、データを与えた後の事後分布は
\begin{eqnarray}
p(\bm{w}|\bm{t},\alpha,\beta) &=& \mathcal{N}(\bm{w}|\bm{m}_{N},\bm{S}_{N}) \notag \\
\bm{m}_{N} &=& \beta \bm{S}_{N} \bm{\Phi}^{T} \bm{t} \notag \\
\bm{S}_{N}^{-1} &=& \alpha \bm{I} + \beta \bm{\Phi}^{T} \bm{\Phi}
\end{eqnarray}
で与えられる。
}
ここで$\alpha,\beta$の事前分布を導入すると、予測分布の表式は
\begin{eqnarray}
p(t|\bm{t}) = \int\int\int p(t|\bm{w},\beta)p(\bm{w}|\bm{t},\alpha,\beta)p(\alpha,\beta|\bm{t}) d\bm{w}d\alpha d\beta
\end{eqnarray}
となる。
ベイズの定理によると
\begin{eqnarray}
p(\alpha,\beta|\bm{t}) \propto p(\bm{t}|\alpha,\beta)p(\alpha,\beta)
\end{eqnarray}
である。

\subsection{エビデンス関数の評価}
周辺尤度関数$p(\bm{t}|\alpha,\beta)$は
\begin{eqnarray}
p(\bm{t}|\alpha,\beta) = \int p(\bm{t}|\bm{w},\beta)p(\bm{w}|\alpha)d\bm{w}
\end{eqnarray}
であり計算を実行すると
\begin{eqnarray}
p(\bm{t}|\alpha,\beta) &=& \left( \frac{\beta}{2\pi} \right) ^{N/2} \left( \frac{\alpha}{2\pi} \right) ^{M/2} \int \exp \{-E(\bm{w})\} d\bm{w} \notag \\
E(\bm{w}) &=& \beta E_{D}(\bm{w}) + \alpha E_{W}(\bm{w}) \notag \\
&=& \frac{\beta}{2} || \bm{t} - \bm{\Phi}\bm{w} ||^2 + \frac{\alpha}{2} \bm{w}^{T}\bm{w}
\end{eqnarray}
となり、さらに計算を進めると
\begin{eqnarray}
\int \exp\{ -E(\bm{w}) \} d\bm{w} = \exp\{ -E(\bm{m}_{N}) \} (2\pi)^{M/2} |\bm{S}_{N}^{-1}|^{-1/2}
\end{eqnarray}
となり、
\begin{eqnarray}
\ln p(\bm{t}|\alpha,\beta) = \frac{M}{2} \ln \alpha + \frac{N}{2} \ln \beta - E(\bm{m}_{N}) - \frac{1}{2} \ln|\bm{S}_{N}^{-1}| - \frac{N}{2} \ln(2\pi)
\end{eqnarray}
となる。

\subsection{エビデンス関数の最大化}
\textcolor{blue}{
周辺尤度の対数を微分する過程で、本文の(3.89)式で$\bm{m}_{N}$が$\alpha$に依存されることが無視されているように見えるので保留。}

\subsection{有効パラメータ数}
省略

\section{固定された基底関数の限界}
省略

\chapter{線形識別モデル}
本章では、ある入力ベクトル$\bm{x}$を$K$個の離散クラス$\mathcal{C}_{k}$に割り当てる問題を考える。

\section{識別関数}
\subsection{2クラス}
$K=2$の場合に最も簡単な識別関数の表現は
\begin{eqnarray}
y(\bm{x}) = \bm{w}^{T}\bm{x} + w_{0}
\end{eqnarray}
を考え、入力ベクトル$\bm{x}$を$y(\bm{x})\leq 0$ならば$\mathcal{C}_{1}$に、$y(\bm{x})< 0$ならば$\mathcal{C}_{2}$に割り当てることである。

\subsection{多クラス}
前節の内容を多クラスに一般化することを考える。それには、$K$個の線形関数
\begin{eqnarray}
y_{k}(\bm{x}) = \bm{w}_{k}^{T}\bm{x} + w_{k0}
\end{eqnarray}
を用いて、全ての$j\neq k$に対して$y_{k}(\bm{x}) > y_{j}(\bm{x})$である場合、点$\bm{x}$をクラス$\mathcal{C}_{k}$に割り当てればよい。

この場合2点$\bm{x}_{A},\bm{x}_{B}$が決定領域$\mathcal{R}_{k}$に属するとすると、2点を結ぶ線分上の点も$\bm{x}_{C}$もまた$\mathcal{R}_{k}$に属する。
これは以下のように証明できる。
\begin{eqnarray}
y_{k}(\bm{x}_{C}) &=& y_{k}(\lambda\bm{x}_{A} + (1-\lambda)\bm{x}_{B}) \notag \\
&=& \lambda y_{k}(\bm{x}_{A}) + (1-\lambda)y_{k}(\bm{x}_{B}) \notag \\
&\geq& \lambda y_{j}(\bm{x}_{A}) + (1-\lambda)y_{j}(\bm{x}_{B}) \notag \\
&=& y_{j}(\bm{x}_{C})
\end{eqnarray}

\subsection{分類における最小二乗}
\textcolor{blue}{
この節では3.1節の手法を線形識別にそのまま用いることを考える。
それには、各クラスに対応する目的変数ベクトル$\bm{t}$を$1$-of-$K$符号化法により定めて、
\begin{eqnarray}
y_{k}(\bm{x}) = \sum_{j=0}^{D}w_{kj}\phi_{j}(\bm{x})
\end{eqnarray}
を考えて、$\phi_{0}(\bm{x}) = 1$および$\phi_{j}(\bm{x}) = x_{j}\ (j\geq1)$を考えればよい。
$\tilde{\bm{x}} = (1,\bm{x}^{T})^{T}$とすれば $K$個の要素は行列の表式で
\begin{eqnarray}
\bm{y}(\bm{x}) = \tilde{\bm{W}}^{T}\tilde{\bm{x}}
\end{eqnarray}
と書ける。
$\phi_{i}(\bm{x}_{n})=\Phi_{ni}$としたのと同様に、$\tilde{\bm{X}}_{ni} = \tilde{\bm{x}}_{ni}$
と定義すれば
\begin{eqnarray}
\tilde{\bm{W}} = \left( \tilde{\bm{X}}^{T}\tilde{\bm{X}} \right)^{-1} \tilde{\bm{X}}^{T} \bm{T}
\end{eqnarray}
を得る。
演習4.2は長いので省略
}

\subsection{フィッシャーの線形判別}
2クラスの分類を次元の削減という観点から考える。
$D$次元の入力ベクトルを得て、それを1次元に射影することを考える。すなわち
\begin{eqnarray}
y = \bm{w}^{T}\bm{x}
\end{eqnarray}
を考える。また、クラス$\mathcal{C}_{1}$とクラス$\mathcal{C}_{2}$の平均ベクトル
\begin{eqnarray}
\bm{m}_{1} = \frac{1}{N_1}\sum_{n\in \mathcal{C}_{1}}\bm{x}_{n}, \quad
\bm{m}_{2} = \frac{1}{N_2}\sum_{n\in \mathcal{C}_{2}}\bm{x}_{n}, \quad
\end{eqnarray}
を考える。
\begin{eqnarray}
m_{k} = \bm{w}^{T}\bm{m}_{k}
\end{eqnarray}
を定義した時に
\begin{eqnarray}
m_{2}-m_{1} = \bm{w}^{T}(\bm{m}_{2}-\bm{m}_{1})
\end{eqnarray}
の値が大きいベクトルは、2つのクラスを分類する適切なベクトルであると考えられる。
さらに、クラス内の分散
\begin{eqnarray}
s_{k}^{2} = \sum_{n\in \mathcal{C}_{k}}(\bm{w}^{T}\bm{x}_{n} -m_{k})^2
\end{eqnarray}
は小さい方が、各クラスを特徴づける適切なベクトルであると考えられる。
そこで、フィッシャーの判別基準
\begin{eqnarray}
J(\bm{w}) = \frac{(m_{2}-m_{1})^2}{s_{1}^{2}+s_{2}^{2}}
\end{eqnarray}
を最大化することを考える。これは各量の定義から
\begin{eqnarray}
J(\bm{w}) &=& \frac{\bm{w}^{T}\bm{S}_{\mathrm{B}}\bm{w}}{\bm{w}^{T}\bm{S}_{\mathrm{W}}\bm{w}} \notag \\
\mathrm{S}_{\mathrm{B}} &=& (\bm{m}_{2}-\bm{m}_{1}) (\bm{m}_{2}-\bm{m}_{1})^{T} \notag \\
\mathrm{S}_{\mathrm{W}} &=& \sum_{n\in \mathcal{C}_{1}} (\bm{x}_{n}-\bm{m}_{1}) (\bm{x}_{n}-\bm{m}_{1})^{T}
  1. \sum_{n\in \mathcal{C}_{2}} (\bm{x}_{n}-\bm{m}_{2}) (\bm{x}_{n}-\bm{m}_{2})^{T} \notag \\
\end{eqnarray}
となり、これを$\bm{w}$に関して微分することで
\textcolor{blue}{(この場合は本文(4.22)と異なり分母にも$\bm{w}$があるためにラグランジュ未定乗数は必要ない)}
\begin{eqnarray}
(\bm{w}^{T}\bm{S}_{\mathrm{B}}\bm{w})\bm{S}_{\mathrm{W}}\bm{w} = (\bm{w}^{T}\bm{S}_{\mathrm{W}}\bm{w})\bm{S}_{\mathrm{B}}\bm{w}
\end{eqnarray}
を得る。$\bm{S}_{\mathrm{B}}\bm{w}$が常に$(\bm{m}_{2}-\bm{m}_{1})$の方向を向いていること、$\bm{w}$はその方向だけが重要であることから
\begin{eqnarray}
\bm{w} \propto \bm{S}_{\mathrm{W}}^{-1}(\bm{m}_{2}-\bm{m}_{1})
\end{eqnarray}
がわかる。

\subsection{最小二乗との関連}
省略

\subsection{多クラスにおけるフィッシャーの判別}
省略

\subsection{パーセプトロンアルゴリズム}
省略

\section{確率的生成モデル}
ここでは、クラスの条件付き確率密度$p(\bm{x}|\mathcal{C}_{k})$とクラスの事前確率$p(\mathcal{C}_{k})$をモデル化する生成的アプローチを考える。

2クラスの場合、事後確率は
\begin{eqnarray}
p(\mathcal{C}_{1}|\bm{x}) &=& \frac{p(\bm{x}|\mathcal{C}_{1})p(\mathcal{C}_{1})}{p(\bm{x}|\mathcal{C}_{1})p(\mathcal{C}_{1})+p(\bm{x}|\mathcal{C}_{2})p(\mathcal{C}_{2})} \notag \\
&=& \frac{1}{1+\exp(-a)} = \sigma(a)
\end{eqnarray}
となる。ここで
\begin{eqnarray}
a = \ln \frac{p(\bm{x}|\mathcal{C}_{2})p(\mathcal{C}_{2})}{p(\bm{x}|\mathcal{C}_{2})p(\mathcal{C}_{2})}
\end{eqnarray}
$\sigma(a)$はロジスティックシグモイド関数である。

また$K>2$クラスの場合、事後確率は
\begin{eqnarray}
p(\mathcal{C}_{k}|\bm{x}) &=& \frac{p(\bm{x}|\mathcal{C}_{k})p(\mathcal{C}_{k})}{\sum_{j}p(\bm{x}|\mathcal{C}_{j})p(\mathcal{C}_{j})} \notag \\
&=& \frac{\exp(a_{k})}{\sum_{j}\exp(a_{j})}
\end{eqnarray}
で与えられる。ただし
\begin{eqnarray}
a_{k} = \ln(p(\bm{x}|\mathcal{C}_{k})p(\mathcal{C}_{k}))
\end{eqnarray}
である。

\subsection{連続値入力}
クラス$\mathcal{C}_{k}$の確率密度が
\begin{eqnarray}
p(\bm{x}|\mathcal{C}_{k}) = \frac{1}{(2\pi)^{D/2}|\bm{\Sigma}|^{1/2}}
\exp \left \{ -\frac{1}{2}(\bm{x}-\bm{\mu}_{k})^{T} \bm{\Sigma}^{-1}(\bm{x}-\bm{\mu}_{k}) \right \}
\end{eqnarray}
の場合を考える。
2クラスの場合は
\begin{eqnarray}
p(\mathcal{C}_{1}|\bm{x}) &=& \sigma(\bm{w}^{T}\bm{x} + w_{0}) \notag \\
\bm{w} &=& \bm{\Sigma}^{-1}(\bm{\mu}_{1}-\bm{\mu}_{2}) \notag \\
w_{0} &=& -\frac{1}{2}\bm{\mu}_{1}^{T}\bm{\Sigma}^{-1}\bm{\mu}_{1} + \frac{1}{2}\bm{\mu}_{2}^{T}\bm{\Sigma}^{-1}\bm{\mu}_{2} + \ln \frac{p(\mathcal{C}_{1})}{p(\mathcal{C}_{2})}
\end{eqnarray}
を得る。多クラスの場合は
\begin{eqnarray}
p(\mathcal{C}_{k}|\bm{x}) &=& \frac{\exp(a_{k}(\bm{x}))}{\sum_{j}\exp(a_{j}(\bm{x}))} \notag \\
a_{k}(\bm{x}) &=& \bm{w}_{k}^{T}\bm{x} + w_{k0} \notag \\
\bm{w}_{k} &=& \bm{\Sigma}^{-1}\bm{\mu}_{k} \notag \\
w_{k0} &=& -\frac{1}{2} \bm{\mu}_{k}^{T}\bm{\Sigma}^{-1}\bm{\mu}_{k} + \ln p(\mathcal{C}_{k})
\end{eqnarray}

\subsection{最尤解}
2クラス分類の問題を考えて、各クラスの事前確率を$p(\mathcal{C}_{1})=\pi,\ p(\mathcal{C}_{2})=1-\pi$と仮定し、各クラスの条件付き確率密度をガウス分布とすると
\begin{eqnarray}
p(\bm{x}_{n},\mathcal{C}_{1}) &=& p(\mathcal{C}_{1})p(\bm{x}_{n}|\mathcal{C}_{1}) = \pi \mathcal{N}(\bm{x}_{n}|\bm{\mu}_{1},\bm{\Sigma}) \notag \\
p(\bm{x}_{n},\mathcal{C}_{2}) &=& p(\mathcal{C}_{2})p(\bm{x}_{n}|\mathcal{C}_{2}) = (1-\pi) \mathcal{N}(\bm{x}_{n}|\bm{\mu}_{2},\bm{\Sigma})
\end{eqnarray}
となる。ここでは、データ集合$\{ \bm{x}_{n},t_{n} \}$が与えられた場合の各パラメータの最尤解を考える。ただし、$t_{n}=1$がクラス$\mathcal{C}_{1}$に$t_{n}=0$がクラス$\mathcal{C}_{2}$にそれぞれ対応する。
尤度関数は
\begin{eqnarray}
p(\bm{t},\bm{X}|\pi, \bm{\mu}_{1}, \bm{\mu}_{2}, \bm{\Sigma})
= \prod_{n=1}^{N} [\pi\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{1},\bm{\Sigma})]^{t_{n}} [(1-\pi)\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{2},\bm{\Sigma})]^{1-t_{n}}
\notag \\
\end{eqnarray}
で与えられ、各パラメータに対する対数の微分を0とおくと
\begin{eqnarray}
\pi &=& \frac{N_{1}}{N_{1}+N_{2}} \notag \\
\bm{\mu}_{1} &=& \frac{1}{N_{1}} \sum_{n=1}^{N}t_{n}\bm{x}_{n} \notag \\
\bm{\mu}_{2} &=& \frac{1}{N_{2}} \sum_{n=2}^{N}(1-t_{n}) \bm{x}_{n} \notag \\
\bm{\Sigma} &=& \frac{N_{1}}{N} \bm{S}_{1} + \frac{N_{2}}{N} \bm{S}_{2} \notag \\
\bm{S}_{i} &=& \frac{1}{N_{i}} \sum_{n\in \mathcal{C}_{1}} (\bm{x}-\bm{u}_{i}) (\bm{x}-\bm{u}_{i})^{T}
\end{eqnarray}
を得る。ここで$N_{i}$はクラス$\mathcal{C}_{i}$に属するデータ点の個数である。

\subsection{離散特徴}
省略

\subsection{指数型分布族}
省略

\section{確率的識別モデル}

\subsection{固定既定関数}
省略

\subsection{ロジスティック回帰}
2クラス分類問題における一般化線形モデルを考える。このモデルでは、特徴ベクトル$\bm{\phi}$が与えられたときのクラス$\mathcal{C}_{1}$の事後確率は
\begin{eqnarray}
p(\mathcal{C}_{1}|\bm{\phi}) = y(\bm{\phi}) = \sigma(\bm{w}^{T}\bm{\phi})
\end{eqnarray}
と与えられる。
\textcolor{blue}{ここで$\bm{\phi}$を用いているのは、特徴ベクトル$\bm{\phi}$が入力$\bm{x}$の関数であっても議論が成立するためと考えられる}
ここではこのモデルのパラメータを最尤法を用いて決定する。
データ集合に対する尤度関数は
\begin{eqnarray}
p(\bm{t}|\bm{w}) = \prod_{n=1}^{N}y_{n}^{t_{n}}(1-y_{n})^{1-t_{n}}
\end{eqnarray}
となる。ただし$y_{n}=p(\mathcal{C}_{1}|\bm{\phi}_{n})$である。
尤度の負の対数を誤差関数とすると、
\begin{eqnarray}
E(\bm{w}) = -\ln p(\bm{t}|\bm{w}) = -\sum_{n=1}^{N} \{ t_{n}\ln y_{n} + (1-t_{n})\ln(1-y_{n}) \}
\end{eqnarray}
となる。ここで$y_{n}=\sigma(\bm{w}^{T}\bm{\phi}_{n})$である。
これを$\bm{w}$について微分すると
\begin{eqnarray}
\nabla E(\bm{w}) = \sum_{n=1}^{N}(y_{n}-t_{n})\bm{\phi}_{n}
\end{eqnarray}
が得られる。
\textcolor{blue}{この手法を用いると図4.5の右の分類ができるらしいのだけれど、よくわからない。}

\subsection{反復再重みづけ最小二乗}
関数$E(\bm{w})$を最小化するために
\begin{eqnarray}
\bm{w}^{\mathrm{(new)}} &=& \bm{w}^{\mathrm{(old)}} - \bm{H}^{-1}\nabla E(\bm{w}) \notag \\
\bm{H} &=& \nabla\nabla E(\bm{w})
\end{eqnarray}
により順次ベクトルを更新していく手法をニュートン‐ラフソン法という。

線形回帰モデルにおける二乗和誤差関数
\begin{eqnarray}
E_{\mathrm{D}}(\bm{w}) = \frac{1}{2}\sum_{n=1}^{N} \{ t_{n} - \bm{w}^{T}\bm{\phi}(\bm{x}_{n}) \}^2
\end{eqnarray}
の場合
\begin{eqnarray}
\nabla E(\bm{w}) &=& \sum_{n=1}^{N}(\bm{w}^{T}\bm{\phi}_{n}-t_{n})\bm{\phi}_{n} = \bm{\Phi}^{T}\bm{\Phi}\bm{w}-\bm{\Phi}^{T}\bm{t} \notag \\
\bm{H} = \nabla\nabla E(\bm{w}) &=& \bm{\Phi}^{T}\bm{\Phi}
\end{eqnarray}
であるため
\begin{eqnarray}
\bm{w}^{\mathrm{(new)}} &=& \bm{w}^{\mathrm{(old)}} - (\bm{\Phi}^{T}\bm{\Phi})^{-1} \left\{ \bm{\Phi}^{T}\bm{\Phi}\bm{w}-\bm{\Phi}^{T}\bm{t} \right\} \notag \\
&=& (\bm{\Phi}^{T}\bm{\Phi})^{-1} \bm{\Phi}^{T} \bm{t}
\end{eqnarray}
となるため、一度で最小二乗解に到達する。これは誤差関数が$\bm{w}$の二次関数だからである。

一方ロジスティック回帰の交差エントロピー誤差関数の場合
\begin{eqnarray}
\nabla E(\bm{w}) &=& \sum_{n=1}^{N}(y_{n}-t_{n})\bm{\phi}_{n} = \bm{\Phi}^{T}(\bm{y}-\bm{t}) \notag \\
\bm{H} &=& \sum_{n=1}^{N}y_{n}(1-y_{n})\bm{\phi}_{n}\bm{\phi}_{n}^{T} = \bm{\Phi}^{T}\bm{R}\bm{\Phi}
\end{eqnarray}
となる。ここで$\bm{R}$は
\begin{eqnarray}
R_{nn} = y_{n}(1-y_{n})
\end{eqnarray}
を満たす対角行列である。

\subsection{多クラスロジスティック回帰}
多クラスの事後確率は
\begin{eqnarray}
p(\mathcal{C}_{k}|\bm{\phi}) = y_{k}(\bm{\phi}) = \frac{\exp(a_{k})}{\sum_{j}\exp(a_{j})}
\end{eqnarray}
と与えられるが、ここでは
\begin{eqnarray}
a_{k} = \bm{w}_{k}^{T}\bm{\phi}
\end{eqnarray}
となるモデルを考え、最尤法を用いて$\bm{w}_{k}$を決定する。
目的変数ベクトルについては1-of-K符号化法を使うことで、与えられたデータに関する尤度関数は$y_{k}(\bm{\phi}_{n})=y_{nk}$と書いて
\begin{eqnarray}
p(\bm{T}|\bm{w}_{1},\cdots,\bm{w}_{K}) = \prod_{n=1}^{N}\prod_{k=1}^{K}p(\mathcal{C}_{k}|\bm{\phi}_{n})^{t_{nk}} = \prod_{n=1}^{N}\prod_{k=1}^{K}y_{nk}^{t_{nk}}
\end{eqnarray}
であり、負の対数を取ると、
\begin{eqnarray}
E(\bm{w}_{1},\cdots,\bm{w}_{K}) = -\ln p(\bm{T}|\bm{w}_{1},\cdots,\bm{w}_{K}) = -\sum_{n=1}^{N}\sum_{k=1}^{K}t_{nk}\ln y_{nk}
\end{eqnarray}
となる。この勾配は
\begin{eqnarray}
\nabla_{\bm{w}_{j}} E(\bm{w}_{1},\cdots,\bm{w}_{K}) = \sum_{n=1}^{N}(y_{nj}-t_{nj})\bm{\phi}_{n}
\end{eqnarray}
で与えられ、ヘッセ行列の$M\times M$サイズのブロックは
\begin{eqnarray}
\nabla_{\bm{w}_{k}} \nabla_{\bm{w}_{j}} E(\bm{w}_{1},\cdots,\bm{w}_{K}) &=& \sum_{n=1}^{N}y_{nk}(I_{kj}-y_{nj})\bm{\phi}_{n}\bm{\phi}_{n}^{T}
\end{eqnarray}
で与えられる。
\textcolor{blue}{このヘッセ行列の半正定値性は以下のようにして示すことができる。
ヘッセ行列を$\bm{H}$と書き、ベクトルを$\bm{v}=(\bm{v}_{1}^{T},\cdots,\bm{v}_{K}^{T})^{T}$と書くことにすると、
\begin{eqnarray}
\bm{v}^{T}\bm{H}\bm{v} &=& \sum_{n=1}^{N}\sum_{k,j=1}^{K}y_{nk}(I_{kj}-y_{nj})\bm{v}_{k}^{T}\bm{\phi}_{n}\bm{\phi}_{n}^{T}\bm{v}_{j} \notag \\
\sum_{k,j=1}^{K}y_{nk}(I_{kj}-y_{nj})\bm{v}_{k}^{T}\bm{\phi}_{n}\bm{\phi}_{n}^{T}\bm{v}_{j}
&=& \sum_{k}y_{nk}(\bm{v}^{T}\bm{\phi}_{k})^{2} - \left(\sum_{k}y_{nk}\bm{v}_{k}^{T}\bm{\phi}_{k} \right)^{2} \notag \\
&=& \sum_{k}y_{nk}\left(a_{k}-\sum_{j}y_{nj}a_{j}\right)^{2} \geq 0
\end{eqnarray}
より。ここで$a_{k} = \bm{v}_{k}^{T}\bm{\phi}_{n}$とした。
}

\subsection{正準連結関数}
\textcolor{blue}{この節の内容は線形識別モデルに限った話ではないように思える。}
入力$\bm{\phi}$に対する出力$t$が存在する系に対して、以下の式で与えられる確率分布を考える。
\begin{eqnarray}
p(t|\eta=\psi(f(\bm{w}^{T}\bm{\phi})),s) = \frac{1}{s}h\left(\frac{t}{s}\right)g(\eta) \exp \left \{ \frac{\eta t}{s} \right \}
\end{eqnarray}
ここで関数$g$は規格化因子であり
\begin{eqnarray}
g(\eta) = \frac{1}{\int \frac{1}{s}h\left(\frac{t}{s}\right) \exp \left \{ \frac{\eta t}{s} \right \}dt }
\end{eqnarray}
である。また$y$で表現される$t$の条件付き平均が
\begin{eqnarray}
y \equiv \mathbb[t|\eta] = -s\frac{d}{d\eta}\ln g(\eta)
\end{eqnarray}
で与えられるが、$y$と$\eta$のこの関係を表すのが関数$\eta = \psi(y)$である。
$f$は何らかの非線形関数である。
このモデルを一般化線形モデルという。
このモデルについて、データが与えられた場合の$\bm{w}$を最尤法で考える。
データ$\{\bm{\phi}_{n}, t_{n} \}$が与えられた場合の対数尤度関数は
\begin{eqnarray}
\ln p(\bm{t}|\eta,s) &=& \sum_{n=1}^{N}\ln p(t_{n}|\eta_{n},s) \notag \\
&=& \sum_{n=1}^{N} \left \{ \ln g(\eta_{n}) + \frac{\eta_{n}t_{n}}{s} \right \} + \bm{w}によらない定数
\end{eqnarray}
で与えられる。これを$\bm{w}$で微分すると
\begin{eqnarray}
\nabla_{\bm{w}} \ln p(\bm{t}|\eta,s) &=& \sum_{n=1}^{N} \left \{ \frac{d}{d\eta_{n}} \ln g(\eta_{n}) + \frac{t_{n}}{s} \right \}
\frac{d\eta_{n}}{dy_{n}} \frac{dy_{n}}{da_{n}} \nabla a_{n} \notag \\
&=& \sum_{n=1}^{N}\frac{1}{s} \{ t_{n}-y_{n} \} \psi'(y_{n}) f' (a_{n})\bm{\phi_{n}}
\end{eqnarray}
ここで$a_{n}=\bm{w}^{T}\bm{\phi}$である。ここで
\begin{eqnarray}
f^{-1}(y) = \psi(y)
\end{eqnarray}
となるように関数$f$を選ぶと、$f(\psi(y))=y$より$f'(\psi)\psi'(y)=1$となり、誤差関数の勾配として
\begin{eqnarray}
\nabla E(\bm{w}) = \frac{1}{s} \sum_{n=1}^{N} \{ y_{n}-t_{n} \} \bm{\phi}_{n}
\end{eqnarray}
を得る。

\textcolor{blue}{
難しく書かれているが結局本文(4.124)が成り立つモデルは
\begin{eqnarray}
p(t|\bm{w}^{T}\bm{\phi},s) = \frac{1}{s}h\left(\frac{t}{s}\right)g(\bm{w}^{T}\bm{\phi}) \exp \left \{ \frac{\bm{w}^{T}\bm{\phi} t}{s} \right \}
\end{eqnarray}
となるはず。
}

\section{ラプラス近似}
ある確率分布を、そのモードを平均とするガウス分布で近似する手法をラプラス近似という。
すなわち
\begin{eqnarray}
p(z) = \frac{1}{Z}f(z)
\end{eqnarray}
に対して、
\begin{eqnarray}
\left. \frac{df(z)}{dz}\right|_{z=z_{0}} = 0
\end{eqnarray}
なる$z_{0}$を求め、
\begin{eqnarray}
A = - \left. \frac{d^2}{dz^2} \ln f(z) \right |_{z=z_{0}}
\end{eqnarray}
を計算し、
\begin{eqnarray}
q(z) = \left( \frac{A}{2\pi} \right)^{1/2} \exp \left \{ -\frac{A}{2}(z-z_{0})^2 \right \}
\end{eqnarray}
で近似することをいう。
多変数の場合も同様である。

\subsection{モデルの比較とBIC}
省略

\section{ベイズロジスティック回帰}
この節ではロジスティック回帰のベイズ的な取り扱いについて考える。

\subsection{ラプラス近似}
2クラスのロジスティック回帰問題を考える。すなわち、パラメータ$\bm{w}$が与えられた場合のデータ$\bm{t}$の尤度関数が
\begin{eqnarray}
p(\bm{t}|\bm{w}) &=& \prod_{n=1}^{N}y_{n}^{t_n} \{ 1-y_{n} \} ^{1-t_{n}} \notag \\
y_{n} &=& \sigma(\bm{w}^{T}\bm{\phi}_{n})
\end{eqnarray}
で与えられるモデルで、$\bm{w}$の事前分布がガウス分布により
\begin{eqnarray}
p(\bm{w}) = \mathcal{N}(\bm{w}|\bm{m}_{0}, \bm{S}_{0})
\end{eqnarray}
で与えられるとする。
この時事後確率分布は
\begin{eqnarray}
p(\bm{w}|\bm{t}) \propto p(\bm{w}) p(\bm{t}|\bm{w})
\end{eqnarray}
であり、対数尤度関数は
\begin{eqnarray}
\ln p(\bm{w}|\bm{t}) &=& -\frac{1}{2}(\bm{w}-\bm{m}_{0})^{T}\bm{S}_{0}^{-1}(\bm{w}-\bm{m}_{0}) \notag \\
&+& \sum_{n=1}^{N} \{ t_{n}\ln y_{n} + (1-t_{n})\ln(1-y_{n}) \} + 定数
\end{eqnarray}
となる。ラプラス近似を行う場合、2回微分が必要になるが、これは
\begin{eqnarray}
\bm{S}_{N}^{-1} = -\nabla\nabla \ln p(\bm{w}|\bm{t}) = \bm{S}_{0}^{-1} + \sum_{n=1}^{N}y_{n}(1-y_{n}) \bm{\phi}_{n}\bm{\phi}_{n}^{T}
\end{eqnarray}
で与えられる。よって、事後確率のラプラス近似の結果として、
\begin{eqnarray}
q(\bm{w}) = \mathcal{N}(\bm{w} | \bm{w}_{\mathrm{MAP}}, \bm{S}_{N})
\end{eqnarray}
を得る。
\textcolor{blue}
{$\bm{w}_{\mathrm{MAP}}$は何らかの反復法などで求められると考えられる。}

\subsection{予測分布}
前節の結果に基づき、新たな入力$\bm{\phi}$が与えられた場合の予測分布
\begin{eqnarray}
p(\mathcal{C}_{1}|\bm{\phi}, \bm{t}) &=& \int p(\mathcal{C}_{1}|\bm{\phi}, \bm{w}) p(\bm{w}|\bm{t}) d\bm{w} \notag \\
&\approx& \int \sigma(\bm{w}^{T}\bm{\phi})q(\bm{w}) d\bm{w}
\end{eqnarray}
について考える。デルタ関数を用いると
\begin{eqnarray}
\sigma(\bm{w}^{T}\bm{\phi}) = \int \delta(a-\bm{w}^{T}\bm{\phi}) \sigma(a)da
\end{eqnarray}
と書けるため、
\begin{eqnarray}
\int \sigma(\bm{w}^{T}\bm{\phi})q(\bm{w}) d\bm{w} &=& \int \sigma(a)p(a)da \notag \\
p(a) &=& \int \delta(a-\bm{w}^{T}\bm{\sigma})q(\bm{w}) d\bm{w}
\end{eqnarray}
が成り立つ。2.3.2節の結果より、$p(a)$はガウス分布であるから
\textcolor{blue}{($\bm{w}$の一つの成分に関する積分を実行すると、その成分が$a$を含む式で置き換わるため。)}
平均と分散がわかれば、分布がわかったことになる。
これらは
\begin{eqnarray}
\mu_{a} &=& \mathbb{E}[a] = \int p(a)ada = \int q(\bm{w}) \bm{w}^{T}\bm{\phi} d\bm{w} = \bm{w}_{\mathrm{MAP}}^{T}\bm{\phi} \notag \\
\sigma_{a}^{2} &=& \mathrm{var}[a] = \int p(a) \{ a^{2}-\mathbb{E}[a]^{2} \} da \notag \\
&=& \int q(\bm{w}) \{ (\bm{w}^{T}\bm{\phi})^2 - (\bm{w}_{\mathrm{MAP}}^{T}\bm{\phi})^2 \} d\bm{w} = \bm{\phi}^{T}\bm{S}_{N}\bm{\phi}
\end{eqnarray}
により与えられるため、
\begin{eqnarray}
p(\mathcal{C}_{1}|\bm{\phi}, \bm{t}) = \int \sigma(a)p(a) da = \int \sigma(a) \mathcal{N}(a|\mu_{a},\sigma_{a}^2) da
\end{eqnarray}
となる。以下省略。

\chapter{ニューラルネットワーク}
\section{フィードフォワードネットワーク関数}
以下ではパラメータベクトル$\bm{w}$で制御される、入力変数の集合$\{x_{i}\}$から出力変数の集合$\{y_{k}\}$への非線形関数
\begin{eqnarray}
y_{k}(\bm{w},\bm{w}) &=& \sigma \left( \sum_{j=1}^{M}w_{kj}^{(2)}h\left( \sum_{i=1}^{D}w_{ji}^{(1)}x_{i} + w_{j0}^{(1)} \right) + w_{k0}^{(2)} \right) \notag \\
&=& \sigma \left( \sum_{j=0}^{M}w_{kj}^{(2)}h\left( \sum_{i=0}^{D}w_{ji}^{(1)}x_{i} \right) \right)
\end{eqnarray}
を考える。ここで関数$h$は何らかの関数である。
また、より一般的な図5.2のような構造を持った関数も考えることができて、各ユニットが
\begin{eqnarray}
z_{k} = h\left( \sum_{j}w_{kj}z_{j} \right)
\end{eqnarray}
を計算する。

\subsection{重み空間対称性}
省略

\section{ネットワーク訓練}
導入部分に書いてあることは単純なので省略

\subsection{パラメータ最適化}
省略

\subsection{局所二次近似}
省略

\subsection{勾配情報の利用}
省略

\subsection{勾配降下最適化}
省略

\section{誤差逆伝播}

\subsection{誤差関数微分の評価}
以下では誤差関数が、訓練集合の各データに対応する誤差項の和
\begin{eqnarray}
E(\bm{w}) = \sum_{n=1}^{N}E_{n}(\bm{w})
\end{eqnarray}
と表される場合を考える。
一般のフィードフォワードネットワークでは、それぞれのユニットの出力が
\begin{eqnarray}
a_{j} &=& \sum_{i}w_{ji}z_{i} \notag \\
z_{j} &=& h(a_{j})
\end{eqnarray}
で与えられる。
誤差関数の微分は
\begin{eqnarray}
\frac{\partial E_{n}}{\partial w_{ji}} &=& \frac{\partial E_{n}}{\partial a_{j}} \frac{\partial a_{j}}{\partial w_{ji}} \notag \\
&=& \delta_{j}z_{i}
\end{eqnarray}
となる。ただし
\begin{eqnarray}
\delta_{j} \equiv \frac{\partial E_{n}}{\partial a_{j}}
\end{eqnarray}
であり、これは誤差とよばれる。これの評価は
\begin{eqnarray}
\delta_{j} &\equiv& \frac{\partial E_{n}}{\partial a_{j}} = \sum_{k} \frac{\partial E_{n}}{\partial a_{k}} \frac{\partial a_{k}}{\partial a_{j}} \notag \\
&=& h'(a_{j}) \sum_{k}w_{kj}\delta_{k}
\end{eqnarray}
となっている。すなわち、ユニット$j$の誤差はそれよりも出力に近い側のユニットの誤差に依存しているのであり、逆伝播の公式と呼ばれる。

\subsection{単純な例}
省略

\subsection{逆伝播の効率}
省略

\subsection{ヤコビ行列}
ここではネットワークの出力の入力に関する微分
\begin{eqnarray}
J_{ki} \equiv \frac{\partial y_{k}}{\partial x_{i}}
\end{eqnarray}
を考える。これはヤコビ行列と呼ばれ
\begin{eqnarray}
J_{ki} = \frac{\partial y_{k}}{\partial x_{i}} &=& \sum_{j}\frac{\partial y_{k}}{\partial a_{j}} \frac{\partial a_{j}}{\partial x_{i}} \notag \\
&=& \sum_{j}w_{ji} \frac{\partial y_{k}}{\partial a_{j}} \notag \\
&=& \sum_{j}w_{ji} \sum_{l} \frac{\partial y_{k}}{\partial a_{l}} \frac{\partial a_{l}}{\partial a_{j}} \notag \\
&=& \sum_{j}w_{ji} h'(a_{j}) \sum_{l} w_{lj} \frac{\partial y_{k}}{\partial a_{l}}
\end{eqnarray}
と逐次的に評価される。
\textcolor{blue}{
演習5.15と関連するか不明であるが、上の式は
\begin{eqnarray}
J_{ki} = \frac{\partial y_{k}}{\partial x_{i}} =
\sum_{l} \frac{\partial y_{k}}{\partial a_{l}} \sum_{j} w_{lj} h'(a_{j}) w_{ji}
\end{eqnarray}
と書いた方が理解しやすい気がする。}

\section{ヘッセ行列}
以下では誤差関数の2階微分
\begin{eqnarray}
\frac{\partial^2 E}{\partial w_{ji}\partial w_{lk}}
\end{eqnarray}
について考える。

\subsection{対角近似}
ヘッセ行列を対角成分だけ考えると
\begin{eqnarray}
\frac{\partial^2 E}{\partial w_{ji}^2} &=& \frac{\partial^2 E}{\partial a_{j}^2}z_{i}^2 \notag \\
\frac{\partial^2 E}{\partial a_{j}^2} &=& h'(a_{j})^2\sum_{kk'}w_{kj}w_{k'j} \frac{\partial^2 E_{n}}{\partial a_{k}\partial a_{k'}} + h''(a_{j}) \sum_{k}w_{kj}\frac{\partial E_{n}}{\partial a_{k}}
\end{eqnarray}
を得る。2階微分についての非対角項を無視すると
\begin{eqnarray}
\frac{\partial^2 E}{\partial a_{j}^2} &\approx& h'(a_{j})^2 \sum_{k} w_{kj}^{2} \frac{\partial^2 E_{n}}{\partial a_{k}^2} + h''(a_{j})\sum_{k} w_{kj} \frac{\partial E_{n}}{\partial a_{k}}
\end{eqnarray}

\subsection{外積による近似}
回帰問題を考える場合、通常は
\begin{eqnarray}
E = \frac{1}{2} \sum_{n=1}^{N}(y_{n}-t_{n})^2
\end{eqnarray}
の形を考える。このとき、ヘッセ行列は
\begin{eqnarray}
\bm{H} = \nabla \nabla E = \sum_{n=1}^{N}\nabla y_{n}(\nabla y_{n})^{T} + \sum_{n=1}^{N}(y_{n}-t_{n})\nabla \nabla y_{n}
\end{eqnarray}
で表されるが、このうち第一項だけでヘッセ行列を近似することを外積による近似という。

\subsection{ヘッセ行列の逆行列}
省略

\subsection{有限幅の差分による近似}
省略

\subsection{ヘッセ行列の厳密な評価}
省略

\subsection{ヘッセ行列の積の高速な計算}
多くの場合、興味ある量はヘッセ行列$\bm{H}$そのものではなく、$\bm{H}$と何らかのベクトル$\bm{v}$の積$\bm{v}^{T}\bm{H}$である。
これは
\begin{eqnarray}
\bm{v}^{T}\bm{H} = \bm{v}^{T}\nabla (\nabla E)
\end{eqnarray}
で与えられる量であり、以後$\bm{v}^{T}\nabla$を作用させることを$\mathcal{R}\{\cdot\}$とかく。
\textcolor{blue}{より明示的に書けば
\begin{eqnarray}
\mathcal{R}\{ f \} = \sum_{ij}v_{ij} \frac{\partial }{\partial w_{ij}}f
\end{eqnarray}
である。
}
2層ネットワーク
\begin{eqnarray}
a_{j} = \sum_{i}w_{ji}x_{i} \notag \\
z_{j} = h(a_{j}) \notag \\
y_{k} = \sum_{j}w_{kj}z_{j}
\end{eqnarray}
に対して
\begin{eqnarray}
\mathcal{R}\{a_{j}\} &=& \sum_{i}v_{ji}x_{i} \notag \\
\mathcal{R}\{z_{j}\} &=& h'(a_{j})\mathcal{R}\{a_{j}\} \notag \\
\mathcal{R}\{y_{k}\} &=& \sum_{j}w_{kj}\mathcal{R}\{z_{j}\} + \sum_{j}v_{kj}z_{j}
\end{eqnarray}
が成り立つ。また、誤差関数として二乗和誤差関数を考えているので
\begin{eqnarray}
\delta_{k} &\equiv& \frac{\partial E}{\partial y_{k}} = y_{k} - t_{k} \notag \\
\delta_{j} &\equiv& \frac{\partial E}{\partial a_{j}} = h'(a_{j}) \sum_{k} w_{kj} \delta_{k}
\end{eqnarray}
であり、
\begin{eqnarray}
\mathcal{R}\{ \delta_{k} \} &=& \mathcal{R} \{ y_{k} \} \notag \\
\mathcal{R}\{ \delta_{j} \} &=& h''(a_{j}) \mathcal{R}\{a_{j}\} \sum_{k}w_{kj}\delta_{k} + h'(a_{j})\sum_{k}v_{kj}\delta_{k} + h'(a_{j})\sum_{k}w_{kj}\mathcal{R}\{\delta_{k} \} \notag \\
\end{eqnarray}
が成り立つ。最後に誤差関数の1階微分は
\begin{eqnarray}
\frac{\partial E}{\partial w_{kj}} &=& \delta_{k}z_{j} \notag \\
\frac{\partial E}{\partial w_{ji}} &=& \delta_{j}x_{i}
\end{eqnarray}
であるため、ベクトル$\bm{v}^{T}\bm{H}$の要素の式
\begin{eqnarray}
\mathcal{R} \left \{ \frac{ \partial E}{\partial w_{kj}} \right \} &=& \mathcal{R} \{ \delta_{k} \} z_{j} + \delta_{k}\mathcal{R} \{ z_{j} \} \notag \\
\mathcal{R} \left \{ \frac{ \partial E}{\partial w_{ji}} \right \} &=& x_{i}\mathcal{R} \{ \delta_{j} \}
\end{eqnarray}
が得られる。

\section{ニューラルネットワークの正則化}
ニューラルネットワークの学習でも、過学習を防ぐために、正則化誤差
\begin{eqnarray}
\tilde{E}(\bm{w}) = E(\bm{w}) + \frac{\lambda}{2}\bm{w}^{T}\bm{w}
\end{eqnarray}
を考えることができる。この正則化項は、重みベクトル$\bm{w}$の平均ゼロのガウス事前分布の負の対数と解釈できる。

\subsection{無矛盾なガウス事前分布}
前の式の正則化項は、スケーリングンに関連する限界が存在する。
$\bm{x}$を入力とし$\bm{y}$を出力とする
\begin{eqnarray}
z_{j} &=& h \left( \sum_{i}w_{ji}x_{i} + w_{j0} \right) \notag \\
y_{k} &=& \sum_{j}w_{kj}z_{j} + w_{k0}
\end{eqnarray}
なるシステムを考える。このとき、訓練集合$\{(\bm{x}_{n},\bm{t}_{n})\}$に対して得られる$\bm{w}$と、
訓練集合$\{(a\bm{x}_{n}+b,\bm{t}_{n})\}$に対して得られる$\tilde{\bm{w}}$の間には
\begin{eqnarray}
\tilde{w}_{ji} &=& \frac{1}{a}w_{ji} \notag \\
\tilde{w}_{j0} &=& w_{j0} - \frac{b}{a}\sum_{i}w_{ji}
\end{eqnarray}
の関係があるべきであるが、全ての重みとバイアスを対等に扱う正則化項では、$\lambda$をどのようにスケーリングしてもこの関係が得られない。

一方で
\begin{eqnarray}
\frac{\lambda_{1}}{2}\sum_{w\in \mathcal{W}_{1}}w^2 + \frac{\lambda_{2}}{2}\sum_{w\in \mathcal{W}_{1}}w^2
\end{eqnarray}
という正則化項を考えると、$\lambda_{1} \rightarrow a^2 \lambda_{1}$によって、重みの変換のもとでの不変性が保たれる。
ここで$\mathcal{W}_{1},\mathcal{W}_{2}$はそれぞれ第1,2層の重みの集合であり、バイアス項は和から除かれている。
この正則化項は
\begin{eqnarray}
p(\bm{w}|\alpha_{1},\alpha_{2}) \propto \exp \left( -\frac{\alpha_{1}}{2} \sum_{w\in \mathcal{W}_{1}}w^2 - \frac{\alpha_{2}}{2} \sum_{w\in \mathcal{W}_{2}}w^2 \right)
\end{eqnarray}
という事前分布に対応する。

\subsection{早期終了}
省略

\subsection{不変性}
5.5.1節では、線形変換された入力に対して、システムがどのように変換されるかという観点での不変性が考えられたが、
次の節では、何らかの変換された入力に対して、同じ出力を与えるようなシステムという観点での不変性を考える。

\subsection{接線伝播法}
ある入力$\bm{x}_{n}$への連続的な変換が(例えばある軸での回転のように)1つのパラメータ$\xi$で表されるとする。
$\bm{x}_{n}$にこの変換を作用させて得られるベクトルを$\bm{s}(\bm{x}_{n},\xi)$とし、これは$\bm{s}(\bm{x},0)=\bm{x}$となるように定義されているとする。
このとき
\begin{eqnarray}
\bm{\tau_{n}} = \left. \frac{\partial \bm{s}(\bm{x}_{n},\xi)}{\partial \xi} \right |_{\xi=0}
\end{eqnarray}
を定義すると、出力$k$の$\xi$に対する微分は
\begin{eqnarray}
\left. \frac{\partial y_{k}}{\partial \xi} \right|_{\xi=0} = \left. \sum_{i=1}^{D} \frac{\partial y_{k}}{\partial x_{i}} \frac{\partial x_{i}}{\partial \xi} \right |_{\xi=0}
= \sum_{i=1}^{D} J_{ki}\tau_{i}
\end{eqnarray}
となる。これを正則化項に加えることで、不変性を持つように修正することが可能である。すなわち、新しい誤差関数を
\begin{eqnarray}
\tilde{E} &=& E + \lambda \Omega \notag \\
\Omega &=& \frac{1}{2} \sum_{n}\sum_{k} \left( \left. \frac{\partial y_{nk}}{\partial \xi} \right|_{\xi=0} \right)^2
= \frac{1}{2} \sum_{n}\sum_{k} \left( \sum_{i}^{D}J_{nki}\tau_{ni} \right)^2
\end{eqnarray}
とする。

\subsection{変換されたデータを用いた訓練}
ベースとなる二乗和誤差関数として
\begin{eqnarray}
E = \frac{1}{2} \int \int \{ y(\bm{x})-t \}^2p(t|\bm{x}) p(\bm{x}) d\bm{x} dt
\end{eqnarray}
を考え、前節同様に1つのパラメータ$\xi$で支配される変換を考える。
この変換により拡張したデータでの学習による誤差関数は
\begin{eqnarray}
\tilde{E} = \frac{1}{2} \int \int \int \{ y(s(\bm{x},\xi))-t \}^2p(t|\bm{x}) p(\bm{x}) d\bm{x}p(\xi) dtd\xi
\end{eqnarray}
であたえられる。分布$p(\xi)$が平均ゼロで小さな分散を持つとして、$\xi$のまわりで$\bm{s}$をテイラー展開することを考えると、
\begin{eqnarray}
\bm{s}(\bm{x},\xi) = \bm{x} + \xi \bm{\tau} + \frac{1}{2}\xi^2 \bm{\tau}' + O(\xi^3)
\end{eqnarray}
を得る。ここで$\bm{\tau}'$は$\xi=0$における$\bm{s}(\bm{x},\xi)$の$\xi$に関する2階微分である。
したがってモデル関数は
\begin{eqnarray}
y(\bm{s}(\bm{x},\xi)) = y(\bm{x}) + \xi \bm{\tau}^{T}\nabla y(\bm{x}) + \frac{\xi^2}{2} \left[ (\bm{\tau}')^{T}\nabla y(\bm{x}) + \bm{\tau}^{T}\nabla\nabla y(\bm{x}) \bm{\tau} \right] + O(\xi^3) \notag \\
\end{eqnarray}
となる。これにより平均誤差関数は
\begin{eqnarray}
\tilde{E} &=& \frac{1}{2} \int \int \{ y(\bm{x})-t \}^2 p(t|\bm{x})p(\bm{x})d\bm{x}dt \notag \\
&+& \mathbb{E}[\xi]\int \int \{ y(\bm{x})-t \} \bm{\tau}^{T}\nabla y(\bm{x})p(t|\bm{x})p(\bm{x}) d\bm{x}dt \notag \\
&+& \mathbb{E}[\xi^2]\frac{1}{2} \int \int \left[ { y(\bm{x})-t } \left\{ (\bm{\tau}')^{T}\nabla y(\bm{x}) + \bm{\tau}^{T}\nabla\nabla y(\bm{x}) \bm{\tau} \right\} \right. \notag \\
&+& \left. (\bm{\tau}^{T}\nabla y(\bm{x}))^2 \right] p(t|\bm{x})p(\bm{x}) d\bm{x}dt + O(\xi^3)
\end{eqnarray}
を得る。変換の分布の平均は$0$、すなわち$\mathbb{E}[\xi]=0$であり、$\mathbb{E}[\xi^2] = \lambda$とおくことにすると、
\begin{eqnarray}
\tilde{E} &=& E + \lambda \Omega \notag \\
\Omega &=& \frac{1}{2} \int \left[ \{ y(\bm{x}) - \mathbb{E}[t|\bm{x}] \} \left\{ (\bm{\tau}')^{T}\nabla y(\bm{x}) + \bm{\tau}^{T}\nabla\nabla y(\bm{x}) \bm{\tau} \right\} \right. \notag \\
&&+ \left. (\bm{\tau}^{T}\nabla y(\bm{x}))^2 \right] p(\bm{x}) d\bm{x}
\end{eqnarray}
を得る。ところで、1.5.5節より、二乗和誤差を最小化するモデル関数は$\mathbb{E}[t|\bm{x}]$で与えらることと、正則化誤差が正則化していない二乗和に$O(\xi^2)$の大きさの項を加えたものであるから
\begin{eqnarray}
y(\bm{x}) = \mathbb{E}[t|\bm{x}) + O(\xi^2)
\end{eqnarray}
となる。したがって、$\Omega$の第一項は無視することができて
\begin{eqnarray}
\Omega = \frac{1}{2} \int (\bm{\tau}^{T}\nabla y(\bm{x}))^2 p(\bm{x}) d\bm{x}
\end{eqnarray}
となるが、これは接線伝播法の正則化項と本質的に等価である。

\subsection{たたみ込みニューラルネットワーク}
省略

\subsection{ソフト重み共有}
ここでは、重み$\bm{w}$の成分が各々で近い値を取りやすくなるような正則化項を考える。
これには、事前分布として混合ガウス分布を用いればよく
\begin{eqnarray}
p(\bm{w}) &=& \prod_{i}p(w_{i}) \notag \\
p(w_{i}) &=& \sum_{j=1}^{M}\pi_{j} \mathcal{N}(w_{i}|\mu_{j},\sigma_{j}^2)
\end{eqnarray}
とする。
対応する誤差関数は
\begin{eqnarray}
\tilde{E}(\bm{w}) &=& E(\bm{w}) + \Omega(\bm{w}) \notag \\
\Omega(\bm{w}) &=& -\sum_{i} \ln \left( \sum_{j=1}^{M} \pi_{j} \mathcal{N}(w_{i}|\mu_{j}, \sigma_{j}^{2} ) \right)
の形になる。
\end{eqnarray}
微分については
\begin{eqnarray}
\gamma_{j}(w) = \frac{\pi_{j}\mathcal{N}(w|\mu_{j}, \sigma_{j}^2)} {\sum_{k}\pi_{k} \mathcal{N}(w|\mu_{k},\sigma_{k}^2)}
\end{eqnarray}
を定義すると
\begin{eqnarray}
\frac{\partial \tilde{E}}{\partial w_{i}} + \sum_{j}\gamma_{j}(w_{i}) \frac{(w_{i}-\mu_{j})}{\sigma_{j}^2}
\end{eqnarray}
と書ける。
また事前分布のパラメータに対する微分は
\begin{eqnarray}
\frac{\partial \tilde{E}}{\partial \mu_{j}} &=& \sum_{i}\gamma_{j}(w_{i}) \frac{(\mu_{j}-w_{i})}{\sigma_{j}^2} \notag \\
\frac{\partial \tilde{E}}{\partial \sigma_{j}} &=& \sum_{i} \gamma_{j}(w_{i}) \left( \frac{1}{\sigma_{j}} - \frac{(w_{i}-\mu_{j})^2}{\sigma_{j}^3} \right)
\end{eqnarray}
で与えられる。
また、$\pi_{j}$については$\sum_{j}\pi_{j}=1$および$\pi \geq 0$を考慮して、補助変数$\{\eta_{j}\}$を
\begin{eqnarray}
\pi_{j} = \frac{\exp(\eta_{j})}{ \sum_{k=1}^{M}\exp(\eta_{k}) }
\end{eqnarray}
と導入すると
\begin{eqnarray}
\frac{\partial \tilde{E}}{\partial \eta_{j}} = \sum_{i} \{ \pi_{j} - \gamma_{j}(w_{i}) \}
\end{eqnarray}

\section{混合密度ネットワーク}
ここではモデルの柔軟性をさらに高めるため、
\begin{eqnarray}
p(\bm{t}|\bm{x},\bm{w}) = \sum_{k=1}^{K}\pi_{k}(\bm{x},\bm{w}) \mathcal{N}(\bm{t}|,\bm{\mu}_{k}(\bm{x},\bm{w}), \sigma_{k}^{2}(\bm{x},\bm{w})\bm{I})
\end{eqnarray}
で与えられるモデルを考える。
\textcolor{blue}{訓練データ$\{(\bm{x_{n}},\bm{t_{n}})\}$が与えられたときに、$\bm{w}$の値を与えることで、
$\pi_{k}(\bm{x},\bm{w}),\bm{\mu}_{k}(\bm{x},\bm{w}),\sigma_{k}^{2}(\bm{x},\bm{w})$の関数形を決めることが目的である。}
これは
\begin{eqnarray}
\pi_{k}&=& \frac{\exp(a_{k}^{\pi})}{\sum_{l=1}^{K}\exp(a_{l}^{\pi})} \notag \\
\sigma_{k} &=& \exp(a_{k}^{\sigma}) \notag \\
\mu_{kj} &=& a_{kj}^{\mu}
\end{eqnarray}
と置き換えれば、$\bm{w}$をパラメータとした、$\bm{x}$から$\bm{a}$へのニューラルネットワークの問題として考えることができる。
最小化するべき誤差関数は
\begin{eqnarray}
E(\bm{w}) = - \sum_{n=1}^{N} \ln \left \{ \sum_{k=1}^{K}\pi_{k}(\bm{x}_{n},\bm{w})\mathcal{N}(\bm{t}_{n}|\bm{\mu}_{k}(\bm{x}_{n},\bm{w}), \sigma_{k}^{2}(\bm{x}_{n},\bm{w}) \bm{I}) \right \}
\end{eqnarray}
であり、出力に関する微分は
\begin{eqnarray}
\gamma_{nk}(\bm{t}_{n}|\bm{x}_{n}) = \frac{\pi_{k}\mathcal{N}(\bm{t}_{n}|\bm{\mu}_{k}(\bm{x}_{n},\bm{w}), \sigma_{k}^{2}(\bm{x}_{n},\bm{w}) \bm{I})}
{\sum_{l=1}^{K}\pi_{l}\mathcal{N}(\bm{t}_{n}|\bm{\mu}_{k}(\bm{x}_{n},\bm{w}), \sigma_{k}^{2}(\bm{x}_{n},\bm{w})\bm{I})}
\end{eqnarray}
を用いると、
\begin{eqnarray}
\frac{\partial E_{n}}{\partial a_{k}^{\pi}} &=& \pi_{k} - \gamma_{nk} \notag \\
\frac{\partial E_{n}}{\partial a_{kl}^{\mu}} &=& \gamma_{nk}\left \{ \frac{\mu_{kl}-t_{nl}}{\sigma_{k}^{2}} \right \} \notag \\
\frac{\partial E_{n}}{\partial a_{k}^{\sigma}} &=& \gamma_{nk} \left( L - \frac{||\bm{t}_{n}-\bm{\mu}_{k}||^2}{\sigma_{k}^{2}} \right)
\end{eqnarray}
と書くことができる。ここで$L$は$\bm{t}$の次元である。

\section{ベイズニューラルネットワーク}

\subsection{パラメータの事後分布}
ここでは、目標変数$t$を入力ベクトル$\bm{x}$から予測する問題を考える。
$y(\bm{x},\bm{w})$をニューラルネットワークとし、
\begin{eqnarray}
p(t|\bm{x},\bm{w},\beta) = \mathcal{N}(t|y(\bm{x},\bm{w}),\beta^{-1})
\end{eqnarray}
なるモデルを考える。そして、$\bm{w}$の事前分布を
\begin{eqnarray}
p(\bm{w}|\alpha) = \mathcal{N}(\bm{w}|\bm{0},\alpha^{-1}\bm{I})
\end{eqnarray}
で与えることにすると、与えられたデータに対する尤度関数は
\begin{eqnarray}
p(\mathcal{D}|\bm{w},\beta) = \prod_{n=1}^{N}\mathcal{N}(t_{n}|y(\bm{x},\bm{w}),\beta^{-1})
\end{eqnarray}
となり、事後分布は
\begin{eqnarray}
p(\bm{w}|\mathcal{D},\alpha,\beta) \propto p(\bm{w}|\alpha)p(\mathcal{D}|\bm{w},\beta)
\end{eqnarray}
となる。
これは$y(\bm{x},\bm{w})$が$\bm{w}$に非線形に依存するため、ガウス分布にはならないのでラプラス近似を用いる。
まず、事後分布の(局所)最大値を見つけるため、事後分布の対数
\begin{eqnarray}
\ln p(\bm{w}|\mathcal{D}) = -\frac{\alpha}{2}\bm{w}^{T}\bm{w} - \frac{\beta}{2}\sum_{n=1}^{N} \{ y(\bm{x}_{n},\bm{w}) - t_{n} \}^2 + 定数
\end{eqnarray}
を反復的数値最適化法で最大化する。
モード$\bm{w}_{\mathrm{MAP}}$を見つけたら、
\begin{eqnarray}
\bm{A} = -\nabla\nabla \ln p(\bm{w}|\mathcal{D},\alpha,\beta) = \alpha \bm{I} + \beta \bm{H}
\end{eqnarray}
を用いて$p(\bm{w}|\mathcal{D})$の近似式
\begin{eqnarray}
q(\bm{w}|\mathcal{D}) = \mathcal{N}(\bm{w}|\bm{w}_{\mathrm{MAP}},\bm{A}^{-1})
\end{eqnarray}
を得る。
同様に、新たな$\bm{x}$に対する$t$の予測分布
\begin{eqnarray}
p(t|\bm{x},\mathcal{D}) = \int p(t|\bm{x},\bm{w})q(\bm{w}|\mathcal{D}) d\bm{w}
\end{eqnarray}
が得られるが、やはり解析的には積分を実行できない。
そこで、元のニューラルネットワークを
\begin{eqnarray}
y(\bm{x},\bm{w}) &\sim& y(\bm{x}, \bm{w}_{\mathrm{MAP}}) + \bm{g}^{T}(\bm{w}-\bm{w}_{\mathrm{MAP}}) \notag \\
\bm{g} &=& \nabla_{\bm{w}} y(\bm{x},\bm{w})|_{\bm{w}=\bm{w}_{\mathrm{MAP}}}
\end{eqnarray}
と近似しすると
\begin{eqnarray}
p(t|\bm{x},\bm{w},\beta) = \mathcal{N}(t|y(\bm{x},\bm{w}_{\mathrm{MAP}}) + \bm{g}^{T}(\bm{w}-\bm{w}_{\mathrm{MAP}}), \beta^{-1})
\end{eqnarray}
となるため、積分を実行することが可能になり、予測分布は
\begin{eqnarray}
p(t|\bm{x},\mathcal{D},\alpha,\beta) &=& \mathcal{N}(t|y(\bm{x},\bm{w}_{\mathrm{MAP}}),\sigma^{2}(\bm{x})) \notag \\
\sigma^{2}(\bm{x}) &=& \beta^{-1} + \bm{g}^{T}\bm{A}^{-1}\bm{g}
\end{eqnarray}
となる。

\subsection{超パラメータ最適化}
省略

\subsection{クラス分類のためのベイズニューラルネットワーク}
省略

\chapter{カーネル法}
\textcolor{blue}{
カーネル法、カーネル関数の定義が曖昧であるが、訓練データ$\mathcal{D}=\{ (\bm{x}_{n},t_{n}) \}$が与えられたとき
新たな入力$\bm{x}$に対する出力の予測$y(\bm{x})$が$k(\bm{x},\bm{x}') = k(\bm{x}',\bm{x})$なる関数を用いて、
\begin{eqnarray}
y(\bm{x}) = \sum_{n}k(\bm{x},\bm{x}_{n}) f_{n}(\mathcal{D})
\end{eqnarray}
と与えらえる時、$k(\bm{x},\bm{x}')$をカーネル関数、この手法をカーネル法というように思う。}

\section{双対表現}
線形回帰モデルで、パラメータ$\bm{w}$が正則化された二乗和誤差関数
\begin{eqnarray}
J(\bm{w}) = \frac{1}{2}\sum_{n=1}^{N}\{ \bm{w}^{T}\bm{\phi}(\bm{x}_{n})-t_{n} \}^2 + \frac{\lambda}{2}\bm{w}^{T}\bm{w}
\end{eqnarray}
を最小化することで与えられるモデルを考える。
過程は省略すると
\begin{eqnarray}
y(\bm{x}) = \bm{w}^{T}\bm{\phi}(\bm{x}) = \bm{k}(\bm{x})^{T}(\bm{K}+\lambda\bm{T}_{N})^{-1}\bm{t}
\end{eqnarray}
を得る。ここに$\bm{w}$は正則化された二乗和誤差関数を最小化する$\bm{w}$であり、
\begin{eqnarray}
\bm{K}_{nm} = \bm{\phi}(\bm{x}_{n})^{T}\bm{\phi}(\bm{x}_{m}) = k(\bm{x}_{n},\bm{x}_{m})
\end{eqnarray}
である。

\section{カーネル関数の構成}
省略

\section{RBFネットワーク}
関数が、ある点からの距離のみに依存しているとき、それを動径基底関数(radial basis function)という。
例えば、入力変数にノイズが含まれる場合の回帰問題では、二乗和誤差関数が、ノイズの確率分布$\nu(\bm{\xi})$を用いて
\begin{eqnarray}
E = \frac{1}{2}\sum_{n=1}^{N} \{ y(\bm{x}_{n}+\bm{\xi})-t_{n}\}^2\nu(\bm{\xi})d\bm{\xi}
\end{eqnarray}
で与えられる。変分法を用いて関数$y(\bm{x})$を求めると
\begin{eqnarray}
y(\bm{x}) &=& \sum_{n=1}^{N}t_{n}h(\bm{x}-\bm{x}_{n}) \notag \\
h(\bm{x}-\bm{x}_{n}) &=& \frac{\nu(\bm{x}-\bm{x}_{n})}{\sum_{n=1}^{N}\nu(\bm{x}-\bm{x}_{n}) }
\end{eqnarray}
となる。
\textcolor{blue}{
\begin{eqnarray}
E = \frac{1}{2}\sum_{n=1}^{N} \{ y(\bm{x})-t_{n}\}^2\nu(\bm{x}-\bm{x}_{n})d\bm{x}
\end{eqnarray}
として変分法を用いれば
\begin{eqnarray}
y(\bm{x}) = \frac{\sum_{n=1}^{N}t_{n}\nu(\bm{x}-\bm{x}_{n})}{\sum_{n=1}^{N}\nu(\bm{x}-\bm{x}_{n}) }
\end{eqnarray}
となることは容易にわかるが、$h(\bm{x}-\bm{x}_{n})$は$\bm{x}-\bm{x}_{n}$の関数には見えないので、ここの書き方には疑問が残る。
}
これはNadaraya-Watsonモデルとして知られている。

\subsection{Nadaraya-Watsonモデル}
訓練集合を$\{\bm{x}_{n},t_{n}\}$として、同時分布$p(\bm{x},t)$を推定するためにParzen推定法
\begin{eqnarray}
p(\bm{x},t) = \frac{1}{N} \sum_{n=1}^{N}f(\bm{x}-\bm{x}_{n},t-t_{n})
\end{eqnarray}
を用いることを考える。すると回帰関数は
\begin{eqnarray}
y(\bm{x}) &=& \mathbb{E}[t|\bm{x}] = \int_{-\infty}^{\infty}tp(t|\bm{x})dt \notag \\
&=& \frac{\int tp(\bm{x},t)dt}{\int p(\bm{x},t)dt} \notag \\
&=& \frac{\int tf(\bm{x}-\bm{x}_{n},t-t_{n})dt}{\sum_{n}f(\bm{x}-\bm{x}_{m},t-t_{m})dt}
\end{eqnarray}
で与えられる。
簡単のため
\begin{eqnarray}
\int_{-\infty}^{\infty}f(\bm{x},t)tdt = 0
\end{eqnarray}
と仮定すると、
\begin{eqnarray}
g(\bm{x}) = \int_{-\infty}^{\infty} f(\bm{x},t)dt
\end{eqnarray}
を用いて、
\begin{eqnarray}
y(\bm{x}) &=& \frac{\sum_{n}g(\bm{x}-\bm{x}_{n})t_{n}}{\sum_{m}g(\bm{x}-\bm{x}_{m})} \notag \\
&=& \sum_{n}k(\bm{x},\bm{x}_{n})t_{n}
\end{eqnarray}
となる。ここでカーネル関数は
\begin{eqnarray}
k(\bm{x},\bm{x}_{n}) = \frac{g(\bm{x}-\bm{x}_{n})}{\sum_{m}g(\bm{x}-\bm{x}_{m})}
\end{eqnarray}
で与えられる。
\textcolor{blue}{
このカーネルも引数の置換に対する対称性を持っていないがこれでよいのだろうか。
}

\section{ガウス過程}
\subsection{線形回帰再訪}
入力$\bm{x}$に対して出力が
\begin{eqnarray}
y(\bm{x}) = \bm{w}^{T}\bm{\phi}(\bm{x})
\end{eqnarray}
と与えられるモデルを考え、$\bm{w}$の事前分布を
\begin{eqnarray}
p(\bm{w}) = \mathcal{N}(\bm{w}|\bm{0},\alpha^{-1}\bm{I})
\end{eqnarray}
とする。
データ点の集合$\bm{x}_{1},\cdots,\bm{x}_{N}$に対する関数の値の集合$y(\bm{x}_{1}),\cdots,y(\bm{x}_{N})$をベクトル$\bm{y}$と表現すると
\begin{eqnarray}
\bm{y} = \bm{\Phi}\bm{w}
\end{eqnarray}
となる。ここで$\Phi_{nk}=\phi_{k}(\bm{x}_{n})$である。この平均と共分散は
\begin{eqnarray}
\mathbb{E}[\bm{y}] &=& \bm{\Phi}\mathbb{E}[\bm{w}] = \bm{0} \notag \\
\mathrm{cov}[\bm{y}] &=& \mathbb{E}[\bm{y}\bm{y}^{T}] = \bm{\Phi}\mathbb{E}[\bm{w}\bm{w}^{T}]\bm{\Phi}^{T} = \frac{1}{\alpha}\bm{\Phi}\bm{\Phi}^{T} = \bm{K}
\end{eqnarray}
となる。ただし$\bm{K}$は
\begin{eqnarray}
K_{nm} = k(\bm{x}_{n},\bm{x}_{m}) = \frac{1}{\alpha}\bm{\phi}(\bm{x}_{n})^{T}\bm{\phi}(\bm{x}_{m})
\end{eqnarray}
なるカーネルである。

\subsection{ガウス過程による回帰}
観測される目標変数が、前節の$y_{n}$にガウス分布に従うノイズが混ざったもので与えられるモデルを考える。
すなわち
\begin{eqnarray}
t_{n} = y_{n} + \epsilon_{n}
\end{eqnarray}
とし、
\begin{eqnarray}
p(t_{n}|y_{n}) = \mathcal{N}(t_{n}|y_{n},\beta^{-1})
\end{eqnarray}
であるとする。
ノイズは各データに対して独立であるため、$\bm{y}=(y_{1},\cdots,y_{N})^{T}$が与えられた時の目標値$\bm{t} = (t_{1},\cdots,t_{N})^{T}$の同時分布は
\begin{eqnarray}
p(\bm{t}|\bm{y}) = \mathcal{N}(\bm{t}|\bm{y},\beta^{-1}\bm{I}_{N})
\end{eqnarray}
となる。また前節より、周辺分布$p(\bm{y})$については
\begin{eqnarray}
p(\bm{y}) = \mathcal{N}(\bm{y}|\bm{0},\bm{K})
\end{eqnarray}
である。したがって周辺分布$p(\bm{t})$は
\begin{eqnarray}
p(\bm{t}) &=& \int p(\bm{t}|\bm{y})p(\bm{y})d\bm{y} = \mathcal{N}(\bm{t}|\bm{0},\bm{C}) \notag \\
C(\bm{x}_{n},\bm{x}_{m}) &=& k(\bm{x}_{n},\bm{x}_{m}) + \beta^{-1}\delta_{nm}
\end{eqnarray}
となる。

ガウス過程回帰に用いるカーネル関数としては
\begin{eqnarray}
k(\bm{x}_{n},\bm{x}_{m}) = \theta_{0} \exp \left \{ -\frac{\theta_{1}}{2} || \bm{x}_{n}-\bm{x}_{m} ||^2 \right \} + \theta_{2} + \theta_{3}\bm{x}_{n}^{T}\bm{x}_{m}
\end{eqnarray}
の形のものがよく用いられる。
\textcolor{blue}{
これは本文(6.54)の形式にはならないが。。。
}

次に、入力$\bm{x}_{1},\cdots,\bm{x}_{N}$と対応する$t_{1},\cdots,t_{N}$が与えられている場合の、入力$\bm{x}_{N+1}$に対する出力$t_{N+1}$を考える。
これは
\begin{eqnarray}
p(\bm{t}_{N+1}) = \mathcal{N}(\bm{t}_{N+1}|\bm{0},\bm{C}_{N+1})
\end{eqnarray}
を周辺化することで得られる。ここで、$\bm{t}_{N+1}$はベクトル$(t_{1},\cdots,t_{N},t_{N+1})^{T}$を表す。
\begin{eqnarray}
\bm{C}_{N+1} =
\begin{pmatrix}
\bm{C}_{N} & \bm{k} \\
\bm{k}^{T} & c
\end{pmatrix}
\end{eqnarray}
とあらわすことにすると
\begin{eqnarray}
p(t_{N+1}|\bm{t}) = \mathcal{N}(t_{N+1}|\bm{k}^{T}\bm{C}_{N}^{-1}\bm{t}, c-\bm{k}^{T}\bm{C}_{N}^{-1}\bm{k})
\end{eqnarray}
を得る。

\subsection{超パラメータの学習}
データ集合が与えられた場合の、超パラメータ$\bm{\theta}$の最尤推定の手法を考える。
尤度関数の対数は
\begin{eqnarray}
\ln p(\bm{t}|\bm{\theta}) = -\frac{1}{2} \ln |\bm{C}_{N}| - \frac{1}{2}\bm{t}^{T}\bm{C}_{N}^{-1}\bm{t} - \frac{N}{2} \ln (2\pi)
\end{eqnarray}
であり、その微分は
\begin{eqnarray}
\frac{\partial}{\partial \theta_{i}} \ln p(\bm{t}|\bm{\theta}) = -\frac{1}{2} \mathrm{Tr} \left( \bm{C}_{N}^{-1} \frac{\partial \bm{C}_{N}}{\partial \theta_{i}} \right)
  1. \frac{1}{2}\bm{t}^{T}\bm{C}_{N}^{-1} \frac{\partial \bm{C}_{N}}{\partial \theta_{i}} \bm{C}_{N}^{-1}\bm{t}
\end{eqnarray}
で与えられる。

\subsection{関連度自動決定}
省略

\subsection{ガウス過程による分類}
入力の訓練集合を$\bm{x}_{1},\cdots,\bm{x}_{N}$とし、観測値を$\bm{t}_{N} = (t_{1},\cdots,t_{N})^{T}$とするが、ここでは目標変数が$t\in \{0,1 \}$である2クラス分類問題を考える。そのために関数$a(\bm{x})$を前節までのガウス過程とし、$y=\sigma(a)$によって$y\in(0,1)$なる確率過程を得ることにする。
すなわち、$a$に対する$t$の分布は、ベルヌーイ分布
\begin{eqnarray}
p(t|a) = \sigma(a)^{t}(1-\sigma(a))^{1-t}
\end{eqnarray}
で与えられ、$a$については
\begin{eqnarray}
p(\bm{a}_{N+1}) = \mathcal{N}(\bm{a}_{N+1}|\bm{0},\bm{C}_{N+1})
\end{eqnarray}
が成り立つものとする。
共分散行列がこのモデルを特徴づける元になっていて、それは
\begin{eqnarray}
C(\bm{x}_{n},\bm{x}_{m}) = k(\bm{x}_{n},\bm{x}_{m}) + \nu\delta_{nm}
\end{eqnarray}
と、任意のカーネルと、正定値性を保証する対角項で構成される。
知りたい量は$N$個のデータが与えられたときの$N+1$個目のデータの予測であり、
\begin{eqnarray}
p(t_{N+1}=1 | \bm{t}_{N} ) = \int p(t_{N+1}=1|a_{N+1}) p(a_{N+1}|\bm{t}_{N}) da_{N+1}
\end{eqnarray}
である。ここで、ベルヌーイ分布を考えているため、
\begin{eqnarray}
p(t_{N+1}=1|a_{N+1}) = \sigma(a_{N+1})
\end{eqnarray}
であり、
\begin{eqnarray}
p(a_{N+1}|\bm{t}_{N}) &=& \int p(a_{N+1}|\bm{a}_{N})p(\bm{a}_{N}|\bm{t}_{N}) d\bm{a}_{N} \notag \\
p(a_{N+1}|\bm{a}_{N}) &=& \mathcal{N}(a_{N+1}|\bm{k}^{T}\bm{C}_{N}^{-1}\bm{a}_{N}, c-\bm{k}^{T}\bm{C}_{N}^{-1}\bm{k})
\end{eqnarray}
が成り立つ。

\subsection{ラプラス近似}
前節の積分の中で、$p(\bm{a}_{N}|\bm{t}_{N})$は解析的に求めることができないので、ラプラス近似を用いることにする。
$p(\bm{a}_{N}|\bm{t}_{N}) \propto p(\bm{a}_{N}) + p(\bm{t}_{N}|\bm{a}_{N})$であることと、
データについての項は(データ点が互いに独立であるとして)
\begin{eqnarray}
p(\bm{t}_{N}|\bm{a}_{N}) = \prod_{n=1}^{N}\sigma(a_{n})^{t_{n}}(1-\sigma(a_{n}))^{1-t_{n}} = \prod_{n=1}^{N}e^{a_{n}t_{n}}\sigma(-a_{n})
\end{eqnarray}
と表されることから、
\textcolor{blue}{(これは確率過程で$a_{N}$は$a_{N-1}$に依存しているので、互いに独立という仮定は違和感がある。
おそらく本文にわざわざ「データ点が互いに独立であるとして」と括弧つきでかかれているのはそのため。)
}
モードとヘッセ行列を求めるべき関数$\Psi(\bm{a}_{N})$は正規化項を無視すると
\begin{eqnarray}
\Psi(\bm{a}_{N}) &=& \ln p(\bm{a}_{N}) + \ln p(\bm{t}_{N}|\bm{a}_{N}) \notag \\
&=& -\frac{1}{2}\bm{a}_{N}^{T}\bm{C}_{N}^{-1}\bm{a}_{N} - \frac{N}{2}\ln (2\pi) - \frac{1}{2}\ln|\bm{C}_{N}| + \bm{t}_{N}^{T}\bm{a}_{N}
  • \sum_{n=1}^{N}\ln(1+e^{a_{n}}) \notag \\
\end{eqnarray}
となる。
勾配と二階微分は
\begin{eqnarray}
\nabla \Psi(\bm{a}_{N}) &=& \bm{t}_{N} -\bm{\sigma}_{N} - \bm{C}_{N}^{-1}\bm{a}_{N} \notag \\
\nabla \nabla \Psi(\bm{a}_{N}) &=& -\bm{W}_{N} - \bm{C}_{N}^{-1}
\end{eqnarray}
で与えられる。ここで、$\bm{\sigma}_{N}$は$\sigma{a_{n}}$を持つベクトルであり、$\bm{W_{N}}$は$\sigma(a_{n})(1-\sigma(a_{n}))$を要素にもつ対角行列である。
ニュートン法でモードを求めることにすると、更新式は
\begin{eqnarray}
\bm{a}_{N}^{new} &=& \bm{a}_{N}^{old} - \left( \nabla \nabla \Psi(\bm{a}_{N}) \right)^{-1} \nabla \Psi(\bm{a}_{N}) \notag \\
&=& \bm{a}_{N}^{old} + (\bm{W}_{N} + \bm{C}_{N}^{-1})^{-1}(\bm{t}_{N} -\bm{\sigma}_{N} - \bm{C}_{N}^{-1}\bm{a}_{N}) \notag \\
&=& \bm{C}_{N}(\bm{I}+\bm{W}_{N}\bm{C}_{N})^{-1}(\bm{t}_{N} -\bm{\sigma}_{N} - \bm{C}_{N}^{-1}\bm{a}_{N})
\end{eqnarray}
となる。
\textcolor{blue}{本文のヘッセ行列は符号が逆では?上巻206の方が正しいはず。}
これにより$p(\bm{a}_{N}|\bm{t}_{N})$の近似として
\begin{eqnarray}
q(\bm{a}_{N}|\bm{t}_{N}) = \mathcal{N}(\bm{a}_{N}|\bm{a}_{N}^{*},(\bm{W}_{N}+\bm{C}_{N})^{-1})
\end{eqnarray}
を得る。ここで、$\bm{a}_{N}^{*}$は$\Phi(\bm{a}_{N})$の最小値を与える点である。
これを用いると$p(a_{N+1}|\bm{t}_{N})$の積分を評価することができて、
\begin{eqnarray}
p(a_{N+1}|\bm{t}_{N}) \approx \mathcal{N}(a_{N+1}| \bm{k}^{T}(\bm{t}-\bm{\sigma}_{N}), c - \bm{k}^{T}(\bm{W}_{N}^{-1}+\bm{C}_{N})^{-1}\bm{k})
\end{eqnarray}
を得る。

次に共分散関数のパラメータ$\bm{\theta}$を決定することを考える。
そこで、尤度関数$p(\bm{t}_{N}|\bm{\theta})$を最大化することを考える。
\begin{eqnarray}
p(\bm{t}_{N}|\bm{\theta}) = \int p(\bm{t}_{N}|\bm{a}_{N}) p(\bm{a}_{N}|\bm{\theta})d\bm{a}_{N}
\end{eqnarray}
この被積分関数の対数は$\Psi(\bm{a}_{N})$そのものであって、本文(4.135)を用いると、
\begin{eqnarray}
\ln p(\bm{t}_{N}|\bm{\theta}) \approx \Psi(\bm{a}_{N}^{*}) - \frac{1}{2}\ln|\bm{W}_{N}+\bm{C}_{N}^{-1}| + \frac{N}{2}\ln(2\pi)
\end{eqnarray}
と近似することができる。
これは、行列$\bm{C}_{N}$が$\bm{\theta}$に依存することによる部分と、$\bm{a}^{*}_{N}$を通して依存する部分とがある。
$\bm{\theta}$に明示的に依存する寄与($\bm{C}_{N}$による部分)の微分は
\begin{eqnarray}
\frac{\partial \ln p(\bm{t}_{N}|\bm{\theta})}{\partial \theta_{j}} &=& \frac{1}{2}\bm{a}_{N}^{*T}\bm{C}_{N}^{-1}\frac{\partial \bm{C}_{N}}{\partial \theta_{j}}\bm{C}_{N}^{-1}\bm{a}_{N}^{-1} \notag \\
&-& \frac{1}{2}\mathrm{Tr}\left[ (\bm{I}+\bm{C}_{N}\bm{W}_{N})^{-1}\bm{W}_{N}\frac{\partial \bm{C}_{N}}{\partial \theta_{j}} \right]
\end{eqnarray}
となる。
\textcolor{blue}{
この式は
\begin{eqnarray}
\frac{\partial}{\partial \theta_{j}}\ln |\bm{W}_{N}+\bm{C}_{N}^{-1}| &=& \mathrm{Tr} \left( (\bm{W}_{N}+\bm{C}_{N}^{-1})^{-1} \frac{\partial\bm{C}_{N}^{-1}}{\partial \theta_{j}} \right) \notag \\
&=& \mathrm{Tr} \left( - (\bm{W}_{N}+\bm{C}_{N}^{-1})^{-1}\bm{C}_{N}^{-1} \frac{\partial\bm{C}_{N}}{\partial \theta_{j}} \bm{C}_{N}^{-1} \right) \notag \\
&=& \mathrm{Tr} \left( - \bm{C}_{N}^{-1} (\bm{C}_{N}\bm{W}_{N}+\bm{I})^{-1} \frac{\partial\bm{C}_{N}}{\partial \theta_{j}} \right) \notag \\
\frac{\partial}{\partial \theta_{j}}\ln |\bm{C}_{N}| &=& \mathrm{Tr} \left( \bm{C}_{N}^{-1}\frac{\partial\bm{C}_{N}}{\partial \theta_{j}} \right) \notag
\end{eqnarray}
および
\begin{eqnarray}
\left[ I-(\bm{C}_{N}\bm{W}_{N}+I)^{-1} \right] (\bm{C}_{N}\bm{W}_{N}+\bm{I}) &=& \bm{C}_{N}\bm{W}_{N} \notag \\
I-(\bm{C}_{N}\bm{W}_{N}+I)^{-1} &=& \bm{C}_{N}\bm{W}_{N} (\bm{C}_{N}\bm{W}_{N}+\bm{I})^{-1} \notag \\
\end{eqnarray}
から導けそうな気がするが、最後$\bm{W}_{N}$が$(\bm{I}+\bm{C}_{N}\bm{W}_{N})^{-1}$の右に来るのは・・・?
}
また、$\bm{a}_{N}^{*}$を通した寄与であるが、そもそもの定義から$\Psi(\bm{a}_{N})$の勾配は$\bm{a}_{N}^{*}$で$0$になるので、考えるべきは
\begin{eqnarray}
&&-\frac{1}{2}\sum_{n=1}^{N}\frac{\partial}{\partial a_{n}^{*}}\ln |\bm{W}_{N}+\bm{C}_{N}|^{-1} \frac{\partial a_{n}^{*}}{\partial \theta_{j}} \notag \\
&=& -\frac{1}{2}\sum_{n=1}^{N} [(\bm{I}+\bm{C}_{N}\bm{W}_{N})^{-1}\bm{C}_{N}]_{nn}\sigma_{n}^{*}(1-\sigma_{n}^{*})(1-2\sigma_{n}^{*}) \frac{\partial a_{n}^{*}}{\partial \theta_{j}}
\end{eqnarray}
である。ここで、$\sigma_{n}^{*}=\sigma(a_{n}^{*})$である。
最後に、本文(6.84)を$\theta_{j}$について微分すると、
\begin{eqnarray}
\frac{\partial \bm{a}_{N}^{*}}{\partial \theta_{j}} &=& \frac{\partial \bm{C}_{N}}{\partial \theta_{j}}(\bm{t}_{N}-\bm{\sigma}_{N}) - \bm{C}_{N}\bm{W}_{N}\frac{\partial \bm{a}_{N}^{*}}{\partial \theta_{j}} \notag \\
\frac{\partial \bm{a}_{N}^{*}}{\partial \theta_{j}} &=& (\bm{I}+\bm{W}_{N}\bm{C}_{N})^{-1} \frac{\bm{C}_{N}}{\partial \theta_{j}} (\bm{t}_{N}-\bm{\sigma}_{N})
\end{eqnarray}

\subsection{ニューラルネットワークとの関係}
省略

\chapter{疎な解を持つカーネルマシン}

\section{最大マージン分類器}
まず、
\begin{eqnarray}
y(\bm{x}) = \bm{w}^{T}\bm{\phi}(\bm{x}) + b
\end{eqnarray}
を用いる2値分類問題を考える。
訓練データは、$N$個の入力ベクトル$\bm{x}_{1},\cdots,\bm{x}_{N}$と、対応する目標値$t_{1},\cdots,t_{N}(t_{n} \in \{-1,1\})$であり、未知のデータ点$\bm{x}$は$y(\bm{x})$の符号に応じて分類されるとする。
また当面の間、訓練データは特徴空間で線形分離可能とする。すなわち、少なくともある一組のパラメータ$\bm{w}$と$b$が存在して、全ての$n$に対して$t_{n}y(\bm{x}_{n})>0$が成り立つとする。

分類境界から点$\bm{x}_{n}$までの距離は
\begin{eqnarray}
\frac{t_{n}y(\bm{x}_{n})}{||\bm{w}||} = \frac{t_{n}(\bm{w}^{T}\bm{\phi}(\bm{x}_{n})+b)}{||\bm{w}||}
\end{eqnarray}
で与えられる。
\textcolor{blue}{
分類境界からの距離が上のように求まるのは
\begin{eqnarray}
y = \bm{w}^{T}\bm{x} + b
\end{eqnarray}
の場合に限るように思う。
}
最大マージン分類器は、訓練データと分類境界の最短距離を最大化するものとして定義され
\begin{eqnarray}
\max_{\bm{w},b} \left \{ \frac{1}{||\bm{w}||} \min_{n} [t_{n}(\bm{w}^{T}\bm{\phi}(\bm{x}_{n})+b)] \right \}
\end{eqnarray}
を解くことで得られる。
\textcolor{blue}{
本文にあるarg maxはmaxを与える変数値という意味。
}
パラメータ$\bm{w},b$を適当に定数倍することによって、境界に最も近い点について
\begin{eqnarray}
t_{n}(\bm{w}^{T}\bm{\phi}(\bm{x}_{n}) + b ) = 1
\end{eqnarray}
を成立させることができ、そのスケールの下では全てのデータについて
\begin{eqnarray}
t_{n}(\bm{w}^{T}\bm{\phi}(\bm{x}_{n}) + b ) \geq 1
\end{eqnarray}
が成り立つ。このようにスケーリングした識別関数は正規形と言われる。
この式は$\bm{w},b$に課された制約と考えることができ、等式が成り立つ点が存在する場合この制約は有効な制約であると言い、そうでない場合無効な制約という。
今の問題設定では一般に、$t_{n}$正負両側に等号を満たす点が現れるようなパラメータの選び方が存在する。

結局、マージンの最大化は有効な制約のもとで、$||\bm{w}||^{-1}$を最大化、すなわち$||\bm{w}||^2$を最小化することに他ならない。
これは付録Eの不等式の元での最小化より、未定乗数$a_{n}$を用い、
\begin{eqnarray}
L(\bm{w},b,a) = \frac{1}{2}||\bm{w}||^2 - \sum_{n=1}^{N}a_{n}\{t_{n}(\bm{w}^{T}\bm{\phi}(\bm{x}_{n})+b)-1\}
\end{eqnarray}
の停留点を
\begin{eqnarray}
a_{n} &\geq& 0 \notag \\
t_{n}y(\bm{x}_{n})-1 &\geq& 0 \notag \\
a_{n}\{ t_{n}y(\bm{x}_{n})-1\} &=& 0
\end{eqnarray}
の条件下で求める問題に帰着する。
$\bm{w}$と$b$についての微分から
\begin{eqnarray}
\bm{w} &=& \sum_{n=1}^{N}a_{n}t_{n}\bm{\phi}(\bm{x}_{n}) \notag \\
0 &=& \sum_{n=1}^{N}a_{n}t_{n}
\end{eqnarray}
を得る。
これより、$\bm{w},b$を消去すると
\begin{eqnarray}
\tilde{L}(\bm{a}) = \sum_{n=1}^{N}a_{n} - \frac{1}{2}\sum_{n=1}^{N}\sum_{m=1}^{N}a_{n}a_{m}t_{n}t_{m}k(\bm{x}_{n},\bm{x}_{m})
\end{eqnarray}
を得る。ここで$k(\bm{x},\bm{x}')=\bm{\phi}(\bm{x})^{T}\bm{\phi}(\bm{x}')$である。
\textcolor{blue}{
本文にはこれを$\bm{a}$に対して最大化すると書いてあるが、最小化ではないだろうか。仮に$\bm{a}_{1},\bm{a}_{2}$が共に停留点になっていて、
$L(\bm{a}_{1})<L(\bm{a}_{2})$であるなら、解として$\bm{a}_{1}$を採用した方が対応する$||\bm{w}||^2$の値は小さくなるはず。
}
また、$a_{n}$を用いて$y(\bm{x})$は
\begin{eqnarray}
y(\bm{x}) = \sum_{n=1}^{N}a_{n}t_{n}k(\bm{x},\bm{x}_{n}) + b
\end{eqnarray}
と書くことができる。既に条件に挙げられているが、全てのデータ点について、$a_{n}=0$あるいは$t_{n}y(\bm{x}_{n})=1$が成り立つのであって、
後者が成り立つデータ点をサポートベクトルと呼ぶ。
$\bm{a}$を求めたら、上の式よりサポートベクトル$\bm{x}_{n}$に$t_{n}$をかけることで
\begin{eqnarray}
t_{n}\left( \sum_{m\in\mathcal{S}}a_{m}t_{m}k(\bm{x}_{n},\bm{x}_{m}) + b \right) = 1
\end{eqnarray}
となる。ここで$\mathcal{S}$はサポートベクトルの集合を表す。さらに$t_{n}$を両辺にかけて、(計算の誤差を少なくするために)全てのサポートベクトルに関する平均を取ることで
\begin{eqnarray}
b = \frac{1}{N_{\mathcal{S}}} \left(t_{n}-\sum_{m\in\mathcal{S}}a_{m}t_{m}k(\bm{x}_{n},\bm{x}_{m}) \right)
\end{eqnarray}
を得る。

\textcolor{blue}{
条件が複数あるラグランジュ未定乗数法(複数に限らないかもしれない)は、本文付録のように幾何学的に考えるよりも、
$g_{1}(\bm{x})=g_{2}(\bm{x})=0$を満たしていて、極大(小)であるなら微小なベクトル$\bm{\epsilon}$に関して
\begin{eqnarray}
\nabla g_{1}(\bm{x})\bm{\epsilon}=0 \ \mathrm{and} \ \nabla g_{2}(\bm{x})\bm{\epsilon}=0 \Rightarrow \nabla f(\bm{x})\bm{\epsilon}=0
\end{eqnarray}
がなりたち、よって
\begin{eqnarray}
\nabla f(\bm{x}) = \lambda_{1}\nabla g_{1}(\bm{x}) + \lambda_{2}\nabla g_{2}(\bm{x})
\end{eqnarray}
が成り立つと考えた方がわかりやすいのではないだろうか。
}

\subsection{重なりのあるクラス分布}
次に、訓練データが完全には線形分離できない場合を考える。すなわち、今までは全てのデータに対して
\begin{eqnarray}
t_{n}y(\bm{x}_{n}) \geq 1
\end{eqnarray}
とできる関数が存在するとしてきたが、そもそも存在しない場合を考える。
その場合は正の変数(スラック変数)$\xi_{n} \geq 0$を導入し、
\begin{eqnarray}
t_{n}y(\bm{x}_{n}) \geq 1 - \xi_{n}
\end{eqnarray}
の条件下で
\begin{eqnarray}
C\sum_{n=1}^{N}\xi_{n} + \frac{1}{2}||\bm{w}||^{2}
\end{eqnarray}
を最小にすることを考える。
ここで$C$は制御パラメータである。
この最小化問題のラグランジュ関数は
\begin{eqnarray}
L(\bm{w},b,\xi,\bm{a},\mu) = \frac{1}{2}||\bm{w}||^{2} + C\sum_{n=1}^{N}\xi_{n} - \sum_{n=1}^{N}a_{n}\{ t_{n}y(\bm{x}_{n})-1+\xi_{n}\} - \sum_{n=1}^{N}\mu_{n}\xi_{n}
\notag \\
\end{eqnarray}
となり、条件は
\begin{eqnarray}
a_{n} &\geq& 0 \notag \\
t_{n}y(\bm{x}_{n}) - 1 + \xi_{n} &\geq& 0 \notag \\
a_{n}( t_{n}y(\bm{x}_{n}) - 1 + \xi_{n} ) &=& 0 \notag \\
\mu_{n} &\geq& 0 \notag \\
\xi_{n} &\geq& 0 \notag \\
\mu_{n}\xi_{n} &=& 0
\end{eqnarray}
である。各変数について微分を行うと
\begin{eqnarray}
\frac{\partial L}{\partial \bm{w}} &=& 0 \Rightarrow \bm{w} = \sum_{n=1}^{N}a_{n}t_{n}\bm{\phi}(\bm{x}_{n}) \notag \\
\frac{\partial L}{\partial b} &=& 0 \Rightarrow \sum_{n=1}^{N}a_{n}t_{n} = 0 \notag \\
\frac{\partial L}{\partial \xi_{n}} &=& 0 \Rightarrow a_{n} = C-\mu_{n}
\end{eqnarray}
となり、結果をラグランジュ関数に代入すると双対系のラグランジュ関数
\begin{eqnarray}
\tilde{L}(\bm{a}) = \sum_{n=1}^{N}a_{n} - \frac{1}{2}\sum_{n=1}^{N}\sum_{m=1}^{N}a_{n}a_{m}t_{n}t_{m}k(\bm{x}_{n},\bm{x}_{m})
\end{eqnarray}
を得る。条件は
\begin{eqnarray}
0 \leq a_{n} \leq C \notag \\
\sum_{n=1}^{N}a_{n}t_{n} = 0
\end{eqnarray}
であり、この条件でラグランジュ関数を最小化
\textcolor{blue}{
(ここも本文に最大化とあるが最小化だと思う。)
}
する問題に帰着する。

ここでも$a_{n}>0$となる点をサポートベクトルと呼ぶことにする。
これらについては
\begin{eqnarray}
t_{n}y(\bm{x}_{n}) = 1-\xi_{n}
\end{eqnarray}
が成り立つ。
$0<a_{n}<C$なるサポートベクトルについては$\xi_{n}=0$となるので、$t_{n}y(\bm{x}_{n}) = 1$すなわち
\begin{eqnarray}
t_{n}\left(\sum_{m\in \mathcal{S}} a_{m}t_{m}k(\bm{x}_{n},\bm{x}_{m}) + b \right) = 1
\end{eqnarray}
が成り立つ。よって$b$は(数値計算の誤差をなくすため)上の式を満たす全ての点での平均を取り
\begin{eqnarray}
b = \frac{1}{N_{\mathcal{M}}}\sum_{n\in \mathcal{M}} \left( t_{n}-\sum_{m\in \mathcal{S}}a_{m}t_{m}k(\bm{x}_{n},\bm{x}_{m}) \right)
\end{eqnarray}
となる。ここで$\mathcal{M}$は$0<a_{n}<C$を満たす点の集合である。

\subsection{ロジスティック回帰との関係}
省略

\subsection{多クラスSVM}
省略

\subsection{回帰のためのSVM}
ここでは解の疎性を保ちながらSVMを回帰問題に適用する方法を考える。
単純な問題では誤差関数
\begin{eqnarray}
\frac{1}{2}\sum_{n=1}^{N}\{ y_{n}-t_{n} \}^{2} + \frac{\lambda}{2}||\bm{w}||^{2}
\end{eqnarray}
を最小化する。
疎な解を得るためには
\begin{eqnarray}
E_{\epsilon}(y(\bm{x})-t) =
\begin{cases}
0 & |y(\bm{x}-t| < \epsilon \\
|y(\bm{x}-t| - \epsilon & それ以外
\end{cases}
\end{eqnarray}
を用いた誤差関数
\begin{eqnarray}
C\sum_{n=1}^{N}E_{\epsilon}(y(\bm{x}_{n})-t_{n}) + \frac{1}{2}||\bm{w}||^{2}
\end{eqnarray}
を考えることにする。
この誤差関数を実現するために一つのデータ点に対して、二つの非負のスラック変数
\begin{eqnarray}
t_{n} \leq y(\bm{x}_{n}) + \epsilon + \xi_{n} \notag \\
t_{n} \geq y(\bm{x}_{n}) - \epsilon - \hat{\xi}_{n}
\end{eqnarray}
を用い、誤差関数
\begin{eqnarray}
C\sum_{n=1}^{N}(\xi_{n}+\hat{\xi}_{n}) + \frac{1}{2}||\bm{w}||^{2}
\end{eqnarray}
を考える。これはラグランジュ乗数$a_{n}\geq 0, \hat{a}_{n}\geq 0, \mu_{n} \geq 0, \hat{\mu}_{n} \geq 0$
を用いて
\begin{eqnarray}
L &=& C \sum_{n=1}^{N}(\xi_{n}+\hat{\xi}_{n}) + \frac{1}{2}||\bm{w}||^{2} - \sum_{n=1}^{N}(\mu_{n}\xi_{n} + \hat{\mu}_{n}\hat{\xi}_{n}) \notag \\
&-& \sum_{n=1}^{N}a_{n}(\epsilon + \xi_{n} + y_{n} - t_{n}) -\sum_{n=1}^{N}\hat{a}_{n}(\epsilon + \hat{\xi}_{n} - y_{n} + t_{n})
\end{eqnarray}
を最小化することに帰着する。
各変数について微分すると
\begin{eqnarray}
\frac{\partial L}{\partial \bm{w}} &=& 0 \Rightarrow \bm{w} = \sum_{n=1}^{N}(a_{n}-\hat{a}_{n})\bm{\phi}(\bm{x}_{n}) \notag \\
\frac{\partial L}{\partial b} &=& 0 \Rightarrow \sum_{n=1}^{N}(a_{n}-\hat{a}_{n}) = 0 \notag \\
\frac{\partial L}{\partial \xi_{n}} &=& 0 \Rightarrow a_{n}+\mu_{n} = C \notag \\
\frac{\partial L}{\partial \hat{\xi}_{n}} &=& 0 \Rightarrow \hat{a}_{n} + \hat{\mu}_{n} = C
\end{eqnarray}
となって、ラグランジュ関数を変形すると
\begin{eqnarray}
\tilde{L}(\bm{a},\hat{\bm{a}}) =
&-&\frac{1}{2}\sum_{n=1}^{N}\sum_{m=1}^{N}(a_{n}-\hat{a}_{n})(a_{m}-\hat{a}_{m})k(\bm{x}_{n},\bm{x}_{m}) \notag \\
&-&\sum_{n=1}^{N}(a_{n}+\hat{a}_{n}) + \sum_{n=1}^{N}(a_{n}-\hat{a}_{n})t_{n}
\end{eqnarray}
を得る。
$a_{n}$と$\hat{a}_{n}$は不等式条件のラグランジュ乗数であり非負であり、$\mu_{n}$と$\hat{\mu}_{n}$も同様であるため、上の式より
\begin{eqnarray}
0 &\leq& a_{n} \leq C \notag \\
0 &\leq& \hat{a}_{n} \leq C
\end{eqnarray}
が成り立つ。
その他の条件もまとめると
\begin{eqnarray}
a_{n}(\epsilon + \xi_{n}+y_{n}-t_{n}) &=& 0 \notag \\
\hat{a}_{n}(\epsilon + \hat{\xi}_{n} - y_{n} + t_{n}) &=& 0 \notag \\
(C-a_{n})\xi_{n} &=& 0 \notag \\
(C-\hat{a}_{n})\hat{\xi_{n}} &=& 0
\end{eqnarray}
また、$0<a_{n}<C$が成り立つデータ点については$\xi_{n}=0$となるため、$\epsilon + y_{n} - t_{n}=0$が成り立ち、したがって
\begin{eqnarray}
b &=& t_{n} - \epsilon - \bm{w}^{T}\bm{\phi}(\bm{x}_{n}) \notag \\
&=& t_{n} - \epsilon - \sum_{m=1}^{N}(a_{m}-\hat{a}_{m})k(\bm{x}_{n},\bm{x}_{m})
\end{eqnarray}
を得る。実際には、こうして得られた$b$の値を平均すると信頼性が高い値が得られる。

\subsection{計算論的学習理論}
省略

\section{関連ベクトルマシン}
\subsection{回帰問題に対するRVM}
ここでは、入力ベクトル$\bm{x}$に対する目標変数$t$の条件付き確率分布を
\begin{eqnarray}
p(t|\bm{x},\bm{w},\beta) &=& \mathcal{N}(t|y(\bm{x}),\beta^{-1}) \notag \\
y(\bm{x}) &=& \sum_{i=1}^{M}w_{i}\phi_{i}(\bm{x}) = \bm{w}^{T}\bm{\phi}(\bm{x}) \notag \\
y(\bm{x}) &=& \sum_{n=1}^{N}w_{n}k(\bm{x},\bm{x}_{n}) + b
\end{eqnarray}
とするモデルを考える。

入力ベクトルの全体を行列$\bm{X}$により表し、対応する出力をまとめて$\bm{t}$とあらわすと、尤度関数は
\begin{eqnarray}
p(\bm{t}|\bm{X},\bm{w},\beta) = \prod_{n=1}^{N}p(t_{n}|\bm{x}_{n},\bm{w},\beta)
\end{eqnarray}
で与えられる。
パラメータベクトル$\bm{w}$の事前分布としては、各$w_{i}$ごとに異なる超パラメータ$\alpha_{i}$を持つ
\begin{eqnarray}
p(\bm{w}|\bm{\alpha}) = \prod_{i=1}^{M}\mathcal{N}(w_{i}|0,\alpha_{i}^{-1})
\end{eqnarray}
を用いる。すると事後確率は
\begin{eqnarray}
p(\bm{w}|\bm{t},\bm{X},\bm{\alpha},\beta) &=& \mathcal{N}(\bm{w}|\bm{m},\bm{\Sigma}) \notag \\
\bm{m} &=& \beta \bm{\Sigma}\bm{\Phi}^{T}\bm{t} \notag \\
\bm{\Sigma} &=& \left(\bm{A}+\beta \bm{\Phi}^{T}\bm{\Phi} \right)^{-1}
\end{eqnarray}
となる。ここで
$\Phi_{ni} = \phi_{i}(\bm{x}_{n})$であり、$\bm{A}=\mathrm{diag}(\alpha_{i})$である。
$\bm{\alpha},\beta$の関数としての尤度は$\bm{w}$について積分を行い、
\begin{eqnarray}
p(\bm{t}|\bm{X},\bm{\alpha},\beta) &=& \int p(\bm{t}|\bm{X},\bm{w},\beta)p(\bm{w}|\bm{\alpha})d\bm{w} \notag \\
\ln p(\bm{t}|\bm{X},\bm{\alpha},\beta) &=& \ln \mathcal{N}(\bm{t}|\bm{0},\bm{C}) \notag \\
&=& -\frac{1}{2}\{ N\ln (2\pi) + \ln |\bm{C}| + \bm{t}^{T}\bm{C}^{-1}\bm{t} \}
\end{eqnarray}
を得る。ただし
\begin{eqnarray}
\bm{C} = \beta^{-1}\bm{I} + \bm{\Phi}\bm{A}^{-1}\bm{\Phi}^{T}
\end{eqnarray}
である。
\textcolor{blue}{
(7.87)から(7.89)は正直よくわからない。
}
尤度を最大化する超パラメータ$\bm{\alpha}^{*},\beta^{*}$が求まると、新しい入力$\bm{x}$に対する$t$の予測として
\begin{eqnarray}
p(t|\bm{x},\bm{X},\bm{t},\bm{\alpha}^{*},\beta^{*}) &=& \int p(t|\bm{x},\bm{w},\beta^{*})d\bm{w} \notag \\
&=& \mathcal{N}(t|\bm{m}^{T}\bm{\phi}(\bm{x}),\sigma^{2}(\bm{x})) \notag \\
\sigma^{2}(\bm{x}) &=& (\beta^{*})^{-1} + \bm{\phi}(\bm{x})^{T}\bm{\Sigma}\bm{\phi}(\bm{x})
\end{eqnarray}
を得る。

\subsection{疎性の解析}
ここでは本文(7.85)中の$\alpha_{i}$を陽に書き下した上で、$\alpha_{i}$についての停留点を求めることを考える。
行列$\bm{C}$の$\alpha_{i}$に依存する項を全て取り出すと
\begin{eqnarray}
\bm{C} &=& \beta^{-1}\bm{I} + \sum_{j\neq i}\alpha_{j}^{-1}\bm{\varphi}_{j}\bm{\varphi}_{j}^{T} + \alpha_{i}\bm{\varphi}_{i}\bm{\varphi}_{i}^{T} \notag \\
&=& \bm{C}_{-i} + \alpha_{i}^{-1}\bm{\varphi}_{i}\bm{\varphi}_{i}^{T}
\end{eqnarray}
となる。ここで、$\bm{\varphi}_{i} = (\phi_{i}(\bm{x}_{1}),\cdots,\phi_{i}(\bm{x}_{N}))^{T}$である。
この行列式と逆行列については
\begin{eqnarray}
|\bm{C}| &=& |\bm{C}_{-1}|(a+\alpha_{i}^{-1}\bm{\varphi}_{i}^{T}\bm{C}_{-i}^{-1}\bm{\varphi}_{i}) \notag \\
\bm{C}^{-1} &=& \bm{C}_{-i}^{-1} - \frac{\bm{C}_{-i}^{-1}\bm{\varphi}_{i}\bm{\varphi}_{i}^{T}\bm{C}_{-i}^{-1}}{\alpha_{i}+\bm{\varphi}_{i}^{T}\bm{C}_{-i}^{-1}\bm{\varphi}_{i}}
\end{eqnarray}
が成り立ち、本文(7.85)の対数周辺尤度は
\begin{eqnarray}
L(\bm{\alpha}) &=& L(\bm{\alpha}_{-i}) + \lambda(\alpha_{i}) \notag \\
\lambda(\alpha_{i}) &=& \frac{1}{2} \left[ \ln \alpha_{i} - \ln (\alpha+s_{i}) + \frac{q_{i}^{2}}{\alpha_{i}+s_{i}} \right] \notag \\
s_{i} &=& \bm{\varphi}_{i}^{T}\bm{C}_{-i}^{-1}\bm{\varphi}_{i} \notag \\
q_{i} &=& \bm{\varphi}_{i}^{T}\bm{C}_{-i}^{-1}\bm{t} \notag
\end{eqnarray}
となる。停留点は
\begin{eqnarray}
\frac{d\lambda(\alpha_{i})}{d\alpha_{i}} = \frac{\alpha_{i}^{-1}s_{i}^{2}-(q_{i}^{2}-s_{i})}{2(\alpha_{i}+s_{i})^2}
\end{eqnarray}
から求めることができて、$\alpha_{i}\geq 0$より、$q_{i}^{2}<s_{i}$の場合$\alpha_{i}\rightarrow \infty$が解となり、これは$w_{i}$の分散が$0$になることを意味するので、対応する$w_{i}$が$0$に固定される。
一方$q_{i}^{2}>s_{i}$の場合は
\begin{eqnarray}
\alpha_{i} = \frac{s_{i}^2}{q_{i}^2-s_{i}}
\end{eqnarray}
となる。

\subsection{分類問題に対するRVM}
省略

\chapter{グラフィカルモデル}

\section{ベイジアンネットワーク}
\subsection{例:多項式フィッティング}
省略
\subsection{生成モデル}
省略
\subsection{離散変数}
省略
\subsection{線形ガウスモデル}
省略

\section{条件付き独立性}
3変数a,b,cが存在し
\begin{eqnarray}
p(a,b|c) = p(a|c)p(b|c)
\end{eqnarray}
が成立するとき、$a$と$b$は$c$が与えられた下で条件付き独立であるといい、
\begin{eqnarray}
a\Perp b|c
\end{eqnarray}
と表す。

\subsection{3つのグラフの例}
ここではノードを3つだけ持つ3種類のグラフを考える。
\begin{eqnarray}
p(a,b,c) = p(a)p(c|a)p(b|c)
\end{eqnarray}
のように分解できるとき、ノード$c$は$a,b$を結ぶ経路に対してtail-to-tailであるという。また
\begin{eqnarray}
p(a,b,c) = p(a)p(b|a)p(c|b)
\end{eqnarray}
と分解できるとき、ノード$c$は$a,b$を結ぶ経路に対してhead-to-tailであるという。
最後に
\begin{eqnarray}
p(a,b,c) = p(a)p(b)p(c|a,b)
\end{eqnarray}
となるとき、ノード$c$は$a,b$を結ぶ経路に関してhead-to-headであるという。
tail-to-tailおよびhead-to-headが成り立つ場合
\begin{eqnarray}
a \Perp b|c
\end{eqnarray}
が成り立つ。

ノード$x$からノード$y$への矢印に従う経路が存在するとき、ノード$y$はノード$x$の子孫であるという。

\subsection{有向分離(D分離)}
有向非循環グラフが与えられたとき、任意の重複しないノード集合$A,B,C$に対して$A\Perp B|C$が成り立つかどうかを考える。
まず、ノード$a,b$を結ぶ経路については二つの条件
\begin{itemize}
\item ノード$c\in C$が存在し、経路がそこでhead-to-tailあるいはtail-to-tail
\item ノード$d\notin C$が存在し、経路がそこでhead-to-headかつ、$d$の子孫はいずれも$C$に含まれない
\end{itemize}
のうち片方が成立すれば$a\Perp b|C$が成り立つ。
任意の$a\in A,\ b \in B$に対して、$a\Perp b|C$が成り立つとき$A\Perp B|C$が成り立つ。
\textcolor{blue}{
91ページの後半の議論は不明な箇所が多い。
本来条件付き独立性はグラフを定めたら即座に決まるもので、ノードが観測されているかどうかにはよらないはず。
}

\section{マルコフ確率場}

\subsection{条件付き独立性}
省略
\subsection{分解特性}
省略
\subsection{例:画像のノイズ除去}
省略
\subsection{有向グラフとの関係}
省略

\section{グラフィカルモデルにおける推論}
\subsection{連鎖における推論}
同時分布が
\begin{eqnarray}
p(\bm{x}) = \frac{1}{Z}\psi_{1,2}(x_{1},x_{2})\psi_{2,3}(x_{2},x_{3})\cdots \psi_{N-1,N}(x_{N-1},x_{N})
\end{eqnarray}
で与えられる場合を考え、連鎖の途中のノード$x_{n}$の周辺分布$p(x_{n})$について考える。
これは
\begin{eqnarray}
p(x_{n}) &=& \sum_{x_{1}}\cdots \sum_{x_{n-1}} \sum_{x_{n+1}} \cdots \sum_{x_{N}}p(\bm{x}) \notag \\
&=& \frac{1}{Z} \left[\sum_{x_{n-1}} \psi_{n-1,n}(x_{n-1},x_{n})\cdots \left[ \sum_{x_{2}}\psi_{2,3}(x_{2},x_{3}) \left[ \sum_{x_{1}}\psi_{1,2}(x_{1},x_{2}) \right] \right]\cdots \right] \notag \\
&&\left[\sum_{x_{n+1}} \psi_{n,n+1}(x_{n},x_{n+1})\cdots \left[ \sum_{x_{N}}\psi_{N-1,N}(x_{N-1},x_{N}) \right]\cdots \right] \notag \\
&\equiv& \frac{1}{Z}\mu_{\alpha}(x_{n}) \mu_{\beta}(x_{n})
\end{eqnarray}
となる。
これは
\begin{eqnarray}
\mu_{\alpha}(x_{2}) = \sum_{x_{1}}\psi_{1,2}(x_{1},x_{2})
\end{eqnarray}
から始まり
\begin{eqnarray}
\mu_{\alpha}(x_{n}) = \sum_{x_{n-1}}\psi_{n-1,n}(x_{n-1},x_{n})\mu_{\alpha}(x_{n-1})
\end{eqnarray}
と再帰的に計算される。
\textcolor{blue}{
$\mu_{\alpha}$は引数によって関数形が変わってしまう点に注意。あまりよい書き方ではないと思う。
}
$\mu_{\beta}$の方も同様に計算される。

\subsection{木}
無向グラフおよび、次節で紹介される因子グラフにおいて、木とは任意のノードの組の間に唯一の経路が存在するものをいう。

\subsection{因子グラフ}
$\bm{x}$上の確率分布が
\begin{eqnarray}
p(\bm{x}) = \prod_{s}f_{s}(\bm{x}_{s})
\end{eqnarray}
で与えられるときに、各$x_{i}$を表すノードと、$f_{s}$を表すノードで構成されるグラフを因子グラフという。
$x_{i}$が$f_{s}$の引数に含まれる場合に2つのノードがリンクされる。

\subsection{積和アルゴリズム}
木構造の因子グラフで表されたモデルにおいて、ある特定の変数ノード$x$上の周辺分布$p(x)$を求める問題を考える。
そこで
\begin{eqnarray}
p(\bm{x}) = \prod_{s\in \mathrm{ne}(x)} F_{s}(x,X_{s})
\end{eqnarray}
とする。ここで$\mathrm{ne}(x)$は$x$に隣接する因子ノードの集合を表し
\begin{eqnarray}
F_{s}(x,X_{s}) = f_{s}(x,x_{1},\cdots,x_{M})G_{1}(x_{1},X_{s1}) \cdots G_{M}(x_{M},X_{sM})
\end{eqnarray}
である。
\textcolor{blue}{
($F_{s}$が一意的に定義できるのはこの因子グラフが木構造上で定義されているからであるはず。)
}
これを代入して、積の中に入れられる和を中に入れると、
\begin{eqnarray}
p(x) &=& \prod_{s\in\mathrm{ne}(x)} \left[ \sum_{X_{s}}F_{s}(x,X_{s}) \right] \notag \\
&=& \prod_{s\in\mathrm{ne}(x)} \mu_{f_{s}\rightarrow x}(x)
\end{eqnarray}
を得る。ここで
\begin{eqnarray}
\mu_{f_{s}\rightarrow x}(x) \equiv \sum_{X_{s}}F_{s}(x,X_{s})
\end{eqnarray}
を定義した。さらに$\mu$について計算を進めると
\begin{eqnarray}
\mu_{f_{s}\rightarrow x}(x) &=& \sum_{x_{1}}\cdots \sum_{x_{M}}f_{s}(x,x_{1},\cdots,x_{M}) \prod_{x_{m}\in \mathrm{ne}(f_{s})\backslash x}
\left[ \sum_{X_{sm}}G_{m}(x_{m},X_{sm}) \right] \notag \\
&=& \sum_{x_{1}}\cdots \sum_{x_{M}}f_{s}(x,x_{1},\cdots,x_{M}) \prod_{x_{m}\in \mathrm{ne}(f_{s})\backslash x} \mu_{x_{m}\rightarrow f_{s}}(x_{m})
\end{eqnarray}
となる。ただし、
\begin{eqnarray}
\mu_{x_{m}\rightarrow f_{s}}(x_{m}) \equiv \sum_{X_{sm}}G_{m}(x_{m},X_{sm})
\end{eqnarray}
である。また
\begin{eqnarray}
G_{m}(x_{m},X_{sm}) = \prod_{f_{l}\in \mathrm{ne}(x_{m})\backslash f_{s}} F_{l}(x_{m},X_{lm})
\end{eqnarray}
であるから、再び和を積の中に入れて
\begin{eqnarray}
\mu_{x_{m}\rightarrow f_{s}}(x_{m}) &=& \prod_{f_{l}\in\mathrm{ne}(x_{m})\backslash f_{s}} \left[ \sum_{X_{lm}} F_{l}(x_{m},X_{lm}) \right] \notag \\
&=& \prod_{f_{l}\in\mathrm{ne}(x_{m})\backslash f_{s}} \mu_{f_{l}\rightarrow x_{m}}(x_{m})
\end{eqnarray}
を得る。
これで$\mu_{f_{s}\rightarrow x}(x)$に関する再帰的な表式が完成する。
\textcolor{blue}{
式だけ並べるとわかりにくいので、$F$と$G$が何に対応しているかを図示している図8.46-48を合わせて見るべき。
}

\subsection{max-sumアルゴリズム}
ここではある確率分布の同時分布を最大にするベクトル$\bm{x}^{\mathrm{max}}$を求める問題を考える。すなわち
\begin{eqnarray}
p(\bm{x}^{\mathrm{max}}) = \max_{\bm{x}} p(\bm{x})
\end{eqnarray}
を求める問題を考える。

ノードの連鎖の例について考えると
\begin{eqnarray}
\max_{\bm{x}}p(\bm{x}) &=& \frac{1}{Z}\max{x_{1}}\cdots\max_{x_{N}}[ \psi_{1,2}(x_{1},x_{2}) \cdots \psi_{N-1,N}(x_{N-1},x_{N}) ] \notag \\
&=& \frac{1}{Z} \max_{x_{1}} \left[ \max_{x_{2}} \left[ \psi_{1,2}(x_{1},x_{2}) \left[ \cdots \max_{x_{N}} \psi_{N-1,N}(x_{N-1},x_{N}) \right] \cdots \right] \right] \notag \\
\end{eqnarray}
を得る。

これは前節の時と同じやり方で、任意の木構造の因子グラフに一般化することができる。
\textcolor{blue}{すなわち
\begin{eqnarray}
\max_{\bm{x}}p(\bm{x}) &=& \max_{x} \prod_{f_{s}\in \mathrm{ne}(x)} \left[ \max_{X_{s}}F_{s}(x,X_{s}) \right] \notag \\
&=& \prod_{f_{s}\in \mathrm{ne}(x)} \mu_{f_{s}\rightarrow x}(x) \notag \\
\mu_{f_{s}\rightarrow x}(x) &\equiv& \max_{X_{s}}F_{s}(x,X_{s}) \notag \\
&=& \max_{x_{1}\cdots x_{M}} f_{s}(x,x_{1},\cdots,x_{M}) \prod_{x_{m}\in \mathrm{ne}(f_{s})\backslash x}
\left[ \max_{X_{sm}}G_{m}(x_{m},X_{sm}) \right] \notag \\
&=& \max_{x_{1}\cdots x_{M}} f_{s}(x,x_{1},\cdots,x_{M}) \prod_{x_{m}\in \mathrm{ne}(f_{s})\backslash x}
\prod_{f_{l}\in\mathrm{ne}(x_{m})\backslash f_{s}} \mu_{f_{l}\rightarrow x_{m}}(x_{m})
\end{eqnarray}
とまとまる。(8.4.4の内容もこのように$G$を消去してまとめるとわかりやすいかもしれない。)
8.98の手順によって得られる変数値の集合が全体として必ずしも最大点に対応しないとあるが、今一つ状況が想像しにくい。
結局、各変数がどの値で最大状態を与えるかを記録していくというふつうの結果に落ち着いているが。
}
\subsection{一般のグラフにおける厳密推論}
省略

\subsection{ループあり確率伝播}
省略

\chapter{混合モデルとEM}

\section{K-meansクラスタリング}
ここではまずはじめに、多次元空間のデータ点集合$\{ \bm{x}_{1}, \cdots, \bm{x}_{N} \}$を$K$個のクラスターに分割する問題を考える。
ただし$K$は既知とする。
ここでは、この問題を2値指示変数$r_{nk}\in\{0,1\} (k=1,\cdots,K)$および、各クラスタのプロトタイプベクトル$\bm{\mu}_{k}(k=1,\cdots,K)$からなる目的関数
\begin{eqnarray}
J = \sum_{n=1}^{N}\sum_{k=1}^{K}r_{nk}||\bm{x}_{n}-\bm{\mu}_{k}||^2
\end{eqnarray}
を最小化する問題として、定式化する。ただし$r_{nk}$は$n$を固定した時に$1$になる$k$がただ一つ存在するものとする。
これは$r_{nk}$の最適化と$\bm{\mu}_{k}$の最適化を交互に行うことで収束するアルゴリズムができる。
すなわち$\bm{\mu}_{k}$を固定して
\begin{eqnarray}
r_{nk} =
\begin{cases}
1 & k = \mathrm{arg\ min}_{j}||\bm{x}_{n}-\bm{\mu}_{j}||^2 の時 \\
0 & それ以外
\end{cases}
\end{eqnarray}
とするステップと$r_{nk}$を固定して、
\begin{eqnarray}
\frac{\partial J}{\partial \bm{\mu}_{k}} = 2\sum_{n=1}^{N}r_{nk}(\bm{x}_{n}-\bm{\mu}_{k}) &=& 0 \notag \\
\bm{\mu_{k}} &=& \frac{\sum_{n}r_{nk}\bm{x}_{n}}{\sum_{n}r_{nk}}
\end{eqnarray}
とするステップを交互に繰り返す。これが$K$-meansアルゴリズムである。

\subsection{画像分割と画像圧縮}
省略

\section{混合ガウス分布}
混合ガウス分布は
\begin{eqnarray}
0 \leq \pi_{k} \leq 1 \notag \\
\sum_{k=1}^{K}\pi_{k} = 1
\end{eqnarray}
を満たす$\{\pi_{k}\}$を用いて
\begin{eqnarray}
p(\bm{x}) = \sum_{k=1}^{K}\pi_{k}\mathcal{N}(\bm{x}|\bm{\mu}_{k},\bm{\Sigma}_{k})
\end{eqnarray}
と書くことができる。
これはまた、1-of-K符号化法で符号化されたK次元の2値確率変数$\bm{z}$を考え、$\bm{z}$の値が与えられたときの$\bm{x}$の条件付き分布をガウス分布で与えることによっても定式化可能である。
すなわち、
\begin{eqnarray}
p(z_{k}=1) &=& \pi_{k} \notag \\
p(\bm{x}|z_{k}=1) &=& \mathcal{N}(\bm{x}|\bm{\mu}_{k},\bm{\Sigma}_{k})
\end{eqnarray}
とすれば、
\begin{eqnarray}
p(\bm{x}) = \sum_{\bm{z}}p(\bm{z})p(\bm{x}|\bm{z}) = \sum_{k=1}^{K}\mathcal{N}(\bm{x}|\bm{\mu}_{k},\bm{\Sigma}_{k})
\end{eqnarray}
を得る。これにより、同時分布$p(\bm{x},\bm{z})$を使った議論が可能になる。
$\bm{x}$が与えられたときの$\bm{z}$の条件付き確率は
\begin{eqnarray}
\gamma(z_{k}) \equiv p(z_{k}=1|\bm{x}) &=& \frac{p(z_{k}=1)p(\bm{x}|z_{k}=1)}{\sum_{j=1}^{K}p(z_{j}=1)p(\bm{x}|z_{j}=1)} \notag \\
&=& \frac{\pi_{k}\mathcal{N}(\bm{x}|\bm{\mu}_{k},\bm{\Sigma}_{k})}{\sum_{j=1}^{K}\pi_{j}\mathcal{N}(\bm{x}|\bm{\mu}_{j},\bm{\Sigma}_{j})}
\end{eqnarray}
で与えられる。

\subsection{最尤推定}
データ集合$\{\bm{x}_{1},\cdots,\bm{x}_{N}\}$が与えられたときの、対数尤度関数は
\begin{eqnarray}
\ln p(\bm{X}|\bm{\pi},\bm{\mu},\bm{\Sigma}) = \sum_{n=1}^{N}\ln\left \{ \sum_{k=1}^{K}\pi_{k}\mathcal{N} (\bm{x}|\bm{\mu}_{k}, \bm{\Sigma}_{k}) \right\}
\end{eqnarray}
で与えられるが、これは最尤推定を行うには不向きである。
なぜなら、$\bm{\mu}_{j}=\bm{x}_{n}$を仮定したとき、このデータ点は尤度関数に対して
\begin{eqnarray}
\mathcal{N}(\bm{x}_{n}|\bm{x}_{n},\sigma_{j}^2I) = \frac{1}{(2\pi)^{D/2}} \frac{1}{\sigma_{j}^{D}}
\end{eqnarray}
の寄与を与えるが、これは$\sigma_{j}\rightarrow 0$の極限で発散してしまう。

\subsection{混合ガウス分布のEMアルゴリズム}
尤度関数を平均$\bm{\mu}_{k}$に関して微分を$0$とおくと
\begin{eqnarray}
0 &=& \sum_{n=1}^{N}\gamma(z_{nk})\bm{\Sigma}_{k}^{-1}(\bm{x}_{n}-\bm{\mu}_{k}) \notag \\
\gamma(z_{nk}) &=& \frac{\pi_{k}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{k},\bm{\Sigma}_{k})}{\sum_{j=1}^{K}\pi_{j}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{j},\bm{\Sigma}_{j})}
\end{eqnarray}
を得る。$\bm{\Sigma}_{k}$をかけて整理すると
\begin{eqnarray}
\bm{\mu}_{k} &=& \frac{1}{N_{k}} \sum_{n=1}^{N}\gamma(z_{nk}) \bm{x}_{n} \notag \\
N_{k} &=& \sum_{n=1}^{N}\gamma(z_{nk})
\end{eqnarray}
を得る。また、$\bm{\Sigma}_{k}$に関する微分を$0$とおくと
\begin{eqnarray}
\bm{\Sigma}_{k} = \frac{1}{N_{k}}\sum_{n=1}^{N}\gamma(z_{nk})(\bm{x}_{n}-\bm{\mu}_{k})(\bm{x}_{n}-\bm{\mu}_{k})^{T}
\end{eqnarray}
となる。また混合係数$\pi_{k}$についてはラグランジュ未定乗数法を用い、
\begin{eqnarray}
\ln p(\bm{X}|\bm{\pi},\bm{\mu},\bm{\Sigma}) + \lambda \left( \sum_{k=1}^{K}\pi_{k}-1\right)
\end{eqnarray}
を微分することで
\begin{eqnarray}
0 = \sum_{n=1}^{N} \frac{\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{k},\bm{\Sigma}_{k})}{\sum_{j=1}^{K}\pi_{j}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{j},\bm{\Sigma}_{j})} + \lambda
\end{eqnarray}
を得る。これより
\begin{eqnarray}
\pi_{k} = \frac{N_{k}}{N}
\end{eqnarray}
を得る。これらを踏まえて、混合ガウス分布のためのEMアルゴリズムは以下のようになる。
\begin{enumerate}
\item 平均$\bm{\mu}_{k}$、分散$\bm{M}_{k}$および混合係数$\pi_{k}$の初期値を決める
\item Eステップ:現在のパラメータ値を用いて、負担率
\begin{eqnarray}
\gamma(z_{nk}) &=& \frac{\pi_{k}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{k},\bm{\Sigma}_{k})}{\sum_{j=1}^{K}\pi_{j}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{j},\bm{\Sigma}_{j})}
\end{eqnarray}
を計算する。
\item Mステップ:現在の負担率を用いてパラメータを以下のように更新する。
\begin{eqnarray}
\bm{\mu}_{k}^{\mathrm{new}} &=& \frac{1}{N_{k}} \sum_{n=1}^{N}\gamma(z_{nk}) \bm{x}_{n} \notag \\
\bm{\Sigma}_{k}^{\mathrm{new}} &=& \frac{1}{N_{k}}\sum_{n=1}^{N}\gamma(z_{nk})(\bm{x}_{n}-\bm{\mu}_{k}^{\mathrm{new}})(\bm{x}_{n}-\bm{\mu}_{k}^{\mathrm{new}})^{T} \notag \\
\pi_{k}^{\mathrm{new}} &=& \frac{N_{k}}{N} \notag \\
N_{k} &=& \sum_{n=1}^{N}\gamma(z_{nk})
\end{eqnarray}
\item 対数尤度
\begin{eqnarray}
\ln p(\bm{X}|\bm{\pi},\bm{\mu},\bm{\Sigma}) = \sum_{n=1}^{N}\ln\left \{ \sum_{k=1}^{K}\pi_{k}\mathcal{N} (\bm{x}|\bm{\mu}_{k}, \bm{\Sigma}_{k}) \right\}
\end{eqnarray}
を計算し収束性を確認し、基準を満たしていない場合2に戻る。
\end{enumerate}
\textcolor{blue}{
この方法で、9.2.1節で指摘された発散が起きない理由はなんだろう?
}

\section{EMアルゴリズムのもう一つの解釈}
全ての観測データの集合を$\bm{X}$で、潜在変数の集合を$\bm{Z}$で、モデルパラメータの組を$\bm{\theta}$で表すことにすると、対数尤度関数は
\begin{eqnarray}
\ln p(\bm{X}|\bm{\theta}) = \ln \left \{ \sum_{\bm{Z}}p(\bm{X},\bm{Z}|\bm{\theta}) \right \}
\end{eqnarray}
で与えられる。EMアルゴリズムでは$p(\bm{X},\bm{Z}|\bm{\theta})$の期待値に注目し、これを最大化する。
すなわちEMアルゴリズムは、観測変数$\bm{X}$と潜在変数$\bm{Z}$の同時分布$p(\bm{X},\bm{Z}|\bm{\theta})$が与えられている場合に
尤度関数$p(\bm{X}|\bm{\theta})$を$\bm{\theta}$について最大化するためのアルゴリズムである。具体的には
\begin{enumerate}
\item パラメータの初期値$\bm{\theta}^{\mathrm{old}}$を選ぶ
\item Eステップ:$p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}})$を計算する。
\item Mステップ:次式で与えられる$\bm{\theta}^{\mathrm{new}}$を計算する。
\begin{eqnarray}
\bm{\theta}^{\mathrm{new}} &=& \argmax_{\bm{\theta}} \mathcal{Q}(\bm{\theta}, \bm{\theta}^{\mathrm{old}}) \notag \\
\mathcal{Q}(\bm{\theta}, \bm{\theta}^{\mathrm{old}}) &=& \sum_{\bm{Z}} p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}}) \ln p(\bm{X},\bm{Z}|\bm{\theta})
\end{eqnarray}
\item 収束条件が満たされていればアルゴリズムを終了し、そうでなければ$\bm{\theta}^{\mathrm{old}} \leftarrow \bm{\theta}^{\mathrm{new}}$として2に戻る。
\end{enumerate}

\subsection{混合ガウス分布再訪}
省略

\subsection{K-meansとの関連}
省略

\subsection{混合ベルヌーイ分布}
省略

\subsection{ベイズ線形回帰に関するEMアルゴリズム}
省略

\section{一般のEMアルゴリズム}
全ての観測変数と潜在変数をそれぞれ$\bm{X},\bm{Z}$と集合的に表した確率モデルを考え、$\bm{\theta}$をパラメータの組として、同時分布を$p(\bm{X},\bm{Z}|\bm{\theta})$と書く。ここでの目的は尤度関数
\begin{eqnarray}
p(\bm{X}|\bm{\theta}) = \sum_{\bm{Z}}p(\bm{X},\bm{Z}|\bm{\theta})
\end{eqnarray}
を最大化することである。EMアルゴリズムを用いる際の重要な仮定は$p(\bm{X}|\bm{\theta})$に基づく尤度関数の最適化は困難であるが、$p(\bm{X},\bm{Z}|\bm{\theta})$に基づく尤度関数の最適化は容易であるとすることである。
まず潜在変数についての分布を$q(\bm{Z})$を導入し、
\begin{eqnarray}
\ln p(\bm{X}|\bm{\theta}) &=& \mathcal{L}(q,\theta) + \mathrm{KL}(q||p) \notag \\
\mathcal{L}(q,\bm{\theta}) &=& \sum_{\bm{Z}}q(\bm{Z}) \ln \left \{ \frac{p(\bm{X},\bm{Z}|\bm{\theta})}{q(\bm{Z})} \right \} \notag \\
\mathrm{KL}(q||p) &=& -\sum_{\bm{Z}}q(\bm{Z}) \ln \left \{ \frac{p(\bm{Z}|\bm{X},\bm{\theta})}{q(\bm{Z})} \right \}
\end{eqnarray}
と分解する。この分解は
\begin{eqnarray}
\ln p(\bm{X},\bm{Z}|\bm{\theta}) = \ln p(\bm{Z}|\bm{X},\bm{\theta}) + \ln p(\bm{X}|\bm{\theta})
\end{eqnarray}
に基づいている。$KL(q||p)$はKLダイバージェンスと呼ばれるもので、$KL(q||p)\geq 0$が成り立ち、等号成立は$q=p$の時に限る。
\textcolor{blue}{
このことを用いると、EMアルゴリズムが以下のようにして対数尤度関数を増加させていることがわかる。
\begin{eqnarray}
&&\ln p(\bm{X}|\bm{\theta}^{\mathrm{old}}) \notag \\
&=& \sum_{\bm{Z}}p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}}) \ln \left \{ \frac{p(\bm{X},\bm{Z}|\bm{\theta}^{\mathrm{old}})}{p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}})} \right \} \notag \\
&\leq& \sum_{\bm{Z}}p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}}) \ln \left \{ \frac{p(\bm{X},\bm{Z}|\bm{\theta}^{\mathrm{new}})}{p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}})} \right \} \notag \\
&\leq& \sum_{\bm{Z}}p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}}) \ln \left \{ \frac{p(\bm{X},\bm{Z}|\bm{\theta}^{\mathrm{new}})}{p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}})} \right \}
  • \sum_{\bm{Z}}p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}}) \ln \left \{ \frac{p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{new}})}{p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}})} \right \} \notag \\
&=& \ln p(\bm{X}|\bm{\theta}^{\mathrm{new}})
\end{eqnarray}
ここで、最初の等号で$q(\bm{Z})$の任意性と、KLダイバージェンスの等号成立条件を、2行目の不等式では$\bm{\theta}^{\mathrm{new}}$の定義を、3行目の不等式ではKLダイバージェンスの非負性を用いている。
}
最終更新:2015年10月30日 11:01