critter_eng @ ウィキ

メニュー

2015-10-30T11:04:52+09:00

**メニュー -[[トップページ]] -[[プラグイン紹介>プラグイン]] -[[メニュー]] -[[メニュー2]] -[[メニュー3]] ---- **リンク -[[@wiki>>http://atwiki.jp]] -[[@wikiご利用ガイド>>http://atwiki.jp/guide/]] // リンクを張るには "[" 2つで文字列を括ります。 // ">" の左側に文字、右側にURLを記述するとリンクになります //**更新履歴 //#recent(20) &link_editmenu(text=ここを編集) あいうえおさ

メニュー3

2015-10-30T11:03:48+09:00

\chapter{近似推論法} \section{変分推論} モデルパラメータ（および9章での潜在変数）を$\bm{Z}$とし、観測変数を$\bm{X}$と書く。確率モデルによって同時分布$p(\bm{X},\bm{Z})$が定められ、周辺分布の対数は任意の分布$q(\bm{Z})$を用いて \begin{eqnarray} \ln p(\bm{X}) &=& \mathcal{L}(q) + \mathrm{KL}(q||p) \notag \\ \mathcal{L}(q) &=& \int q(\bm{Z}) \ln \left \{ \frac{p(\bm{X},\bm{Z})}{q(\bm{Z})}\right \} d\bm{Z} \notag \\ \mathrm{KL}(q||p) &=& - \int q(\bm{Z}) \ln \left \{ \frac{p(\bm{Z}|\bm{X})}{q(\bm{Z})} \right \} d\bm{Z} \end{eqnarray} と分解することができる。 \subsection{分布の分解} ここでは$\bm{Z}$の要素をいくつかの排反なグループに分割し、$\bm{Z}_{i}\ (i=1,\cdots,M)$と書き \begin{eqnarray} q(\bm{Z}) = \prod_{i=1}^{M}q_{i}(\bm{Z}_{i}) \end{eqnarray} と分解できると仮定する。 $\mathcal{L}(q)$に対する一つの因子に注目するため、$q_{j}(\bm{Z}_{j})$に対する依存項を取り出してみると、$q_{j}(\bm{Z}_{j})$を$q_{j}$と書き \begin{eqnarray} \mathcal{L}(q) &=& \int \prod_{i}q_{i} \left \{ \ln p(\bm{X},\bm{Z}) - \sum_{i'}\ln q_{i'} \right \} d\bm{Z} \notag \\ &=& \int q_{j} \left \{ \int \ln p(\bm{X},\bm{Z}) \prod_{i\neq j}q_{i} d\bm{Z}_{i} \right \} d\bm{Z}_{j} - \int q_{j} \ln q_{j}d\bm{Z}_{j} - \sum_{i\neq j}\int q_{i} \ln q_{i} d\bm{Z}_{i} \notag \\ &=& \int q_{j} \ln \tilde{p}(\bm{X},\bm{Z}_{j})d\bm{Z}_{j} - \int q_{j} \ln q_{j} d\bm{Z}_{j} + \mathrm{const} \end{eqnarray} を得る。ここで \begin{eqnarray} \ln \tilde{p}(\bm{X},\bm{Z}_{j}) &=& \mathbb{E}_{i\neq j}[\ln p(\bm{X},\bm{Z})] + \mathrm{const} \notag \\ \mathbb{E}_{i\neq j}[\ln p(\bm{X},\bm{Z})] &=& \int \ln p(\bm{X},\bm{Z}) \prod_{i\neq j}q_{i} d\bm{Z}_{i} \end{eqnarray} である。 \textcolor{blue}{$\mathrm{const}$は$\tilde{p}(\bm{X},\bm{Z}_{j})$が確率分布として規格化されていることによる。} $\mathcal{L}(q)$を$q_{j}(\bm{Z}_{j})$について最大化することを考えると、これは$\mathcal{L}(q)$が$q_{j}(\bm{Z}_{j})$と$\tilde{p}(\bm{X},\bm{Z}_{j})$の間の負のKLダイバージェンスであることに注目すると、$q_{j}(\bm{Z}_{j}) = \tilde{p}(\bm{X},\bm{Z}_{j})$が得られることがわかる。よって最適解$q_{j}^{\star}(\bm{Z}_{j})$は一般に \begin{eqnarray} \ln q_{j}^{\star}(\bm{Z}_{j}) = \mathbb{E}_{i\neq j}[\ln p(\bm{X},\bm{Z})] + \mathrm{const} \end{eqnarray} を満たす。定数項は$q_{j}^{\star}(\bm{Z}_{j})$の正規化に起因する。すなわち \begin{eqnarray} q_{j}^{\star}(\bm{Z}_{j}) = \frac{\exp(\mathbb{E}_{i\neq j}[\ln p(\bm{X},\bm{Z})])}{\int \exp(\mathbb{E}_{i\neq j}[\ln p(\bm{X},\bm{Z})]) d\bm{Z}_{j}} \end{eqnarray} である。 \subsection{分解による近似のもつ性質} 省略 \textcolor{blue}{ 逆のKLダイバージェンス$KL(p||q)$を最小化する話があるが、どうしてそれを考えるのかいまひとつよくわからない。 $\ln p(\bm{X})$と関係のある量なのか？} \subsection{例：一変数ガウス分布} 省略 \subsection{モデル比較} 隠れ変数$\bm{Z}$だけでなく、変数$m$で表され、事前確率$p(m)$を持つ複数のモデルの候補を比較する場合を考える。この場合、$q(\bm{Z},m) = q(\bm{Z}|m)q(m)$を考える必要があり、 \begin{eqnarray} \ln p(\bm{X}) &=& \mathcal{L} - \sum_{m}\sum_{\bm{Z}}q(\bm{Z}|m)q(m) \ln \left \{ \frac{p(\bm{Z},m|\bm{X})}{q(\bm{Z}|m)q(m)} \right \} \notag \\ \mathcal{L} &=& \sum_{m}\sum_{\bm{Z}}q(\bm{Z}|m)q(m) \ln \left \{ \frac{p(\bm{Z},\bm{X},m)}{q(\bm{Z}|m)q(m)} \right \} \end{eqnarray} と分解する。$\mathcal{L}$を$q(m)$について最大化すると \begin{eqnarray} q(m) &\propto& p(m)\exp\{ \mathcal{L}_{m} \} \notag \\ \mathcal{L}_{m} &=& \sum_{\bm{Z}}q(\bm{Z}|m) \ln \left \{ \frac{p(\bm{Z},\bm{X}|m)}{q(\bm{Z}|m)} \right \} \end{eqnarray} を得る。 \textcolor{blue}{ これは \begin{eqnarray} f = \sum_{\bm{Z}}q(\bm{Z}|m) \ln \left \{ \frac{p(\bm{Z},\bm{X},m)}{q(\bm{Z}|m)q(m)} \right \} + \lambda \left[ \sum_{m}q(m)-1 \right] \end{eqnarray} として$q(m)$による微分を考えると \begin{eqnarray} \frac{\partial f}{\partial q(m)} &=& \sum_{\bm{Z}}q(\bm{Z}|m) \ln \left \{ \frac{p(\bm{Z},\bm{X},m)}{q(\bm{Z}|m)q(m)} \right \} -\sum_{\bm{Z}}q(\bm{Z}|m) + \lambda \notag \\ &=& \ln p(m) - \ln q(m) + \sum_{\bm{Z}} q(\bm{Z}|m) \ln \left \{ \frac{p(\bm{Z},\bm{X}|m)}{q(\bm{Z}|m)} \right \} - 1 + \lambda = 0 \notag \\ \end{eqnarray} となることからわかる。 } \section{例：変分混合ガウス分布} ここでは変分推論法を癌す混合モデルに適用することを考える。観測データの集合を$\bm{X}=\{\bm{x}_{1},\cdots,\bm{x}_{N}\}$とし、対応する潜在変数を$\bm{Z}=\{\bm{z}_{1},\cdots,\bm{z}_{N}\}$とする。ここで$\bm{z}_{n}$は$(k=1,\cdots,K)$の中に1が一つだけある二値ベクトルである。混合比$\bm{\pi}$が与えられたときの$\bm{Z}$の条件付き分布は \begin{eqnarray} p(\bm{Z}|\bm{\pi}) = \prod_{n=1}^{N}\prod_{k=1}^{K} \pi_{k}^{z_{nk}} \end{eqnarray} で与えられる。また、潜在変数と混合要素のパラメータが与えられたときの観測データベクトルの条件付き分布は \begin{eqnarray} p(\bm{X}|\bm{Z},\bm{\mu},\bm{\Lambda}) = \prod_{n=1}^{N}\prod_{k=1}^{K} \mathcal{N}(\bm{x}_{n}|\bm{\mu}_{k},\bm{\Lambda}_{k}^{-1})^{z_{nk}} \end{eqnarray} となる。次にパラメータ$\bm{\mu},\bm{\Lambda},\bm{\pi}$の事前分布を導入する。混合比$\bm{\pi}$にはディレクレ分布を、平均と精度にはガウス‐ウィシャート事前分布を用いると \begin{eqnarray} p(\bm{\pi}) &=& \mathrm{Dir}(\bm{\pi}|\bm{\alpha_{0}}) = C(\bm{\alpha}_{0})\prod_{k=1}^{K}\pi_{k}^{\alpha_{0}-1} \notag \\ p(\bm{\mu},\bm{\Lambda}) &=& p(\bm{\mu}|\bm{\Lambda})p(\bm{\Lambda}) \notag \\ &=& \prod_{k=1}^{K}\mathcal{N}(\bm{\mu_{k}}|\bm{m}_{0},(\beta_{0}\bm{\Lambda})^{-1}) \mathcal{W}(\bm{\Lambda}_{k}|\bm{W}_{0},\nu_{0}) \end{eqnarray} となる。通常$\bm{m}_{0}=\bm{0}$とおく。 \subsection{変分事後分布} 変分ベイズ法で扱うための、全ての確率変数の同時分布は \begin{eqnarray} p(\bm{X},\bm{Z},\bm{\pi},\bm{\mu},\bm{\Lambda}) = p(\bm{X}|\bm{Z},\bm{\mu},\bm{\Lambda}) p(\bm{Z}|\bm{\pi})p(\bm{\pi})p(\bm{\mu}|\bm{\Lambda})p(\bm{\Lambda}) \end{eqnarray} となる。ここで潜在変数とパラメータに分解した変分近似 \begin{eqnarray} q(\bm{Z},\bm{\pi},\bm{\mu},\bm{\Lambda}) = q(\bm{Z})q(\bm{\pi},\bm{\mu},\bm{\Lambda}) \end{eqnarray} を考える。本文(10.9)式を用いると \begin{eqnarray} \ln q^{*}(\bm{Z}) &=& \mathbb{E}_{\bm{\pi},\bm{\mu},\bm{\Lambda}}[\ln p(\bm{X},\bm{Z},\bm{\pi},\bm{\mu},\bm{\Lambda}) ] + \mathrm{const} \notag \\ &=& \mathbb{E}_{\bm{\pi}}[\ln p(\bm{Z}|\bm{\pi})] + \mathbb{E}_{\bm{\mu},\bm{\Lambda}}[ \ln p(\bm{X}|\bm{Z},\bm{\mu},\bm{\Lambda})] + \mathrm{const} \end{eqnarray} となり、具体的な関数形を代入すると \begin{eqnarray} \ln q^{*}(\bm{Z}) &=& \sum_{n=1}^{N}\sum_{k=1}^{K}z_{nk}\ln \rho_{nk} + \mathrm{const} \notag \\ \ln \rho_{nk} &=& \mathbb{E}[\ln \pi_{k}] + \frac{1}{2}\mathbb{E}[\ln |\bm{\Lambda}_{k}|] - \frac{D}{2}\ln(2\pi) \notag \\ &-& \frac{1}{2}\mathbb{E}_{\bm{\mu}_{k},\bm{\Lambda}_{k}}[(\bm{x}_{n}-\bm{\mu}_{k})^{T}\bm{\Lambda}_{k}(\bm{x}_{n}-\bm{\mu}_{k})] \end{eqnarray} となるため、指数をとって \begin{eqnarray} q^{*}(\bm{Z}) \propto \prod_{n=1}^{N}\prod_{k=1}^{K}\rho_{nk}^{z_{nk}} \end{eqnarray} となり、規格化を行うと \begin{eqnarray} q^{*}(\bm{Z}) &=& \prod_{n=1}^{N}\prod_{k=1}^{K}r_{nk}^{z_{nk}} \notag \\ r_{nk} &=& \frac{\rho_{nk}}{\sum_{j=1}^{K}\rho_{nj}} \end{eqnarray} となる。 \textcolor{blue}{ これは \begin{eqnarray} \sum_{\bm{Z}} \prod_{n=1}^{N}\prod_{k=1}^{K}\rho_{nk}^{z_{nk}} = \prod_{n=1}^{N} \left( \sum_{k=1}^{K}\rho_{nk} \right) \end{eqnarray} による。} これより$q^{*}(\bm{Z})$については \begin{eqnarray} \mathbb{E}[z_{nk}] = r_{nk} \end{eqnarray} が成り立つ。ここで今後のために \begin{eqnarray} N_{k} &=& \sum_{n=1}^{N}r_{nk} \notag \\ \bar{\bm{x}}_{k} &=& \frac{1}{N_{k}} \sum_{n=1}^{N}r_{nk}\bm{x}_{n} \notag \\ \bm{S}_{k} &=& \frac{1}{N_{k}} \sum_{n=1}^{N}r_{nk}(\bm{x}_{n}-\bar{\bm{x}}_{k})(\bm{x}_{n}-\bar{\bm{x}}_{k})^{T} \end{eqnarray} を定義する。次に$q(\bm{\pi},\bm{\mu},\bm{\Lambda})$について考える。本文(10.9)を用いると \begin{eqnarray} \ln q^{*}(\bm{\pi},\bm{\mu},\bm{\Lambda}) &=& \ln p(\bm{\pi}) + \sum_{k=1}^{K}\ln p(\bm{\mu}_{k},\bm{\Lambda}_{k}) + \mathbb{E}_{\bm{Z}}[\ln p(\bm{Z}|\bm{\pi})] \notag \\ &+& \sum_{k=1}^{K}\sum_{n=1}^{N}\mathbb{E}[z_{nk}]\ln \mathcal{N}(\bm{x}_{n}|\bm{\mu}_{k},\bm{\Lambda}_{k}^{-1}) + \mathrm{const} \end{eqnarray} を得る。これは \begin{eqnarray} q^{*}(\bm{\pi},\bm{\mu},\bm{\Lambda}) = q^{*}(\bm{\pi}) \prod_{k=1}^{K}q^{*}(\bm{\mu}_{k},\bm{\Lambda}_{k}) \end{eqnarray} と分解できることを意味する。変分事後分布の$\bm{\pi}$に依存する項を取り出すと \begin{eqnarray} \ln q^{*}(\bm{\pi}) = (\alpha_{0}-1)\sum_{k=1}^{K}\ln \pi_{k} + \sum_{k=1}^{K}\sum_{n=1}^{N}r_{nk}\ln\pi_{k} + \mathrm{const} \end{eqnarray} となり、指数をとることで \begin{eqnarray} q^{*}(\bm{\pi}) = \mathrm{Dir}(\bm{\pi}|\bm{\alpha}) \end{eqnarray} とディリクレ分布になる。ここで$\bm{\alpha}$の要素は \begin{eqnarray} \alpha_{k} = \alpha_{0} + N_{k} \end{eqnarray} である。最後に、$q^{*}(\bm{\mu}_{k},\bm{\Lambda}_{k})$について考えると、これは \begin{eqnarray} q^{*}(\bm{\mu}_{k},\bm{\Lambda}_{k}) = \mathcal{N}(\bm{\mu_{k}}|\bm{m}_{k},(\beta_{k}\bm{\Lambda}_{k})^{-1})\mathrm{W}(\bm{\Lambda}_{k}|\bm{W}_{k},\nu_{k}) \end{eqnarray} となる。ただし、 \begin{eqnarray} \beta_{k} &=& \beta_{0} + N_{k} \notag \\ \bm{m}_{k} &=& \frac{1}{\beta_{k}}(\beta_{0}\bm{m}_{0}+N_{k}\bar{\bm{x}}_{k}) \notag \\ \bm{W}_{k}^{-1} &=& \bm{W}_{0}^{-1} + N_{k}\bm{S}_{k} + \frac{\beta_{0}N_{k}}{\beta_{0}+N_{k}}(\bar{\bm{x}}_{k}-\bm{m}_{0})(\bar{\bm{x}}_{k}-\bm{m}_{0})^{T} \notag \\ \nu_{k} &=& \nu_{0} + N_{k} \end{eqnarray} である。これを用いると、$\mathbb{E}[z_{nk}]=r_{nk}$の計算に必要な量が計算できて \begin{eqnarray} \mathbb{E}_{\bm{\mu}_{k},\bm{\Lambda}_{k}}[(\bm{x}_{n}-\bm{\mu}_{k})^{T}\bm{\Lambda}_{k}(\bm{x}_{n}-\bm{\mu}_{k})] &=& D\beta_{k}^{-1} + \nu_{k}(\bm{x}_{n}-\bm{m}_{k})^{T}\bm{W}_{k}(\bm{x}_{n}-\bm{m}_{k}) \notag \\ \ln \tilde{\Lambda}_{k} \equiv \mathbb{E}[\ln |\bm{\Gamma}_{k}|] &=& \sum_{i=1}^{D}\psi\left(\frac{\nu_{k}+1-i}{2} \right) + D\ln 2 + \ln|\bm{W}_{k}| \notag \\ \ln \tilde{\pi}_{k} \equiv \mathbb{E}[\ln \pi_{k}] &=& \psi(\alpha_{k}) - \psi\left(\sum_{k}\alpha_{k}\right) \end{eqnarray} を得る。実際にはこれらを交互に繰り返すことになる。 \subsection{変分下界} 省略 \subsection{予測分布} 混合ガウスモデルの新しい観測値$\hat{\bm{x}}$の予測分布を考える。この観測値には、対応する潜在変数$\hat{\bm{z}}$が存在し、 \begin{eqnarray} p(\hat{\bm{x}}|\bm{X}) = \sum_{\hat{\bm{z}}}\int\int\int p(\hat{\bm{x}}|\hat{\bm{z}},\bm{\mu},\bm{\Lambda}) p(\hat{\bm{z}}|\bm{\pi}) p(\bm{\pi},\bm{\mu},\bm{\Lambda}|\bm{X})d\bm{\pi}d\bm{\mu}d\bm{\Lambda} \end{eqnarray} で与えられ、モデルの具体形を用いると \begin{eqnarray} p(\hat{\bm{x}}|\bm{X}) = \sum_{k=1}^{K}\int\int\int \pi_{k}\mathcal{N}(\hat{\bm{x}}|\bm{\mu}_{k},\bm{\Lambda}^{-1})p(\bm{\pi},\bm{\mu},\bm{\Lambda}|\bm{X})d\bm{\pi}d\bm{\mu}d\bm{\Lambda} \end{eqnarray} となる。事後分布$p(\bm{\pi},\bm{\mu},\bm{\Lambda}|\bm{X})$を変分近似$q(\bm{\pi})q(\bm{\mu},\bm{\Lambda})$で置き換えると \begin{eqnarray} p(\hat{\bm{x}}|\bm{X}) &\sim& \sum_{k=1}^{K}\int\int\int \pi_{k} \mathcal{N}(\hat{\bm{x}}|\bm{\mu}_{k},\bm{\Lambda}^{-1}) q(\bm{\pi})q(\bm{\mu}_{k},\bm{\Lambda}_{k}) d\bm{\pi}d\bm{\mu}_{k}d\bm{\Lambda}_{k} \notag \\ &\sim& \frac{1}{\hat{\alpha}}\sum_{k=1}^{K}\alpha_{k}\mathrm{St}(\hat{\bm{x}}|\bm{m}_{k},\bm{L}_{k},\nu_{k}+1-D) \end{eqnarray} と混合スチューデント$t$分布となる。ここで \begin{eqnarray} \bm{L}_{k} = \frac{(\nu_{k}+1-D)\beta_{k}}{1+\beta_{k}}\bm{W}_{k} \end{eqnarray} である。 \subsection{混合要素数の決定} 省略 \subsection{導出された分解} 省略 \section{変分線形回帰} 省略 \section{指数型分布族} 省略 \section{局所変分推論法} $f(x)=\exp(-x)$は$x$について凸関数であり、$x=\xi$での接線は \begin{eqnarray} y(x) = f(\xi) + f'(\xi)(x-\xi) \end{eqnarray} である。今の場合 \begin{eqnarray} y(x) = \exp(-\xi) - \exp(-\xi)(x-\xi) \end{eqnarray} の形となっている。$\eta = -\exp(-\xi)$と定義すると \begin{eqnarray} y(x,\eta) = \eta x - \eta + \eta \ln (-\eta) \end{eqnarray} となる。これらは異なる$\eta$が異なる接線に対応していて、$f(x)\geq y(x,\eta)$となっているため \begin{eqnarray} f(x) = \max_{\eta}\{ \eta x - \eta + \eta \ln (-\eta) \} \end{eqnarray} が成り立つ。このような法則はより一般に凸相対性として成り立つ。すなわち下に凸な関数の接線の方程式を$y=\eta x -g(\eta)$と書くと、 \begin{eqnarray} g(\eta) = \max_{x}\{ \eta x -f(x)\} \end{eqnarray} を得る。また、ある$x$での$y$座標は、その点が接点となるときに最大化されるから、 \begin{eqnarray} f(x) = \max_{\eta}\{\eta x -g(\eta)\} \end{eqnarray} が成り立つ。以下省略 \section{変分ロジスティック回帰} \subsection{変分事後分布} ここでは、変分法の枠組みでロジスティック回帰モデルを考える。データ$\bm{t}$が与えられた場合の尤度関数は \begin{eqnarray} p(\bm{t}) = \int p(\bm{t}|\bm{w})p(\bm{w}) d\bm{w} = \int \left[ \prod_{n=1}^{N}p(t_{n}|\bm{w}) \right] p(\bm{w})d\bm{w} \end{eqnarray} となる。ここで \begin{eqnarray} p(\bm{t}|\bm{w}) &=& \sigma(a)^{t}\{ 1-\sigma(a) \}^{1-t} \notag \\ &=& \left( \frac{1}{1+e^{-a}} \right) \left( 1 - \frac{1}{1+e^{-a}} \right)^{1-t} \notag \\ &=& e^{at}\frac{e^{-a}}{1+e^{-a}} = e^{at}\sigma(-a) \end{eqnarray} であり、$a=\bm{w}^{T}\bm{\phi}$である。シグモイド関数の一般的な性質 \begin{eqnarray} \sigma(z) &\geq& \sigma(\xi) \exp \{ (z-\xi)/2 - \lambda(\xi)(z^{2}-xi^{2}) \} \notag \\ \lambda(\xi) &=& \frac{1}{2\xi} \left[ \sigma(\xi) - \frac{1}{2} \right] \end{eqnarray} を用いると \begin{eqnarray} p(t|\bm{w}) = e^{at}\sigma(-a) \geq e^{at}\sigma(\xi)\exp\{-(a+\xi)/2 - \lambda(\xi)(a^{2}-\xi^{2}) \} \end{eqnarray} となる。したがって、同時分布についての下界 \begin{eqnarray} p(\bm{t},\bm{w}) = p(\bm{t}|\bm{w})p(\bm{w}) \geq h(\bm{w},\bm{xi})p(\bm{w}) \end{eqnarray} を得る。ただし、$\bm{\xi}$は変分パラメータの集合$\{\xi_{n}\}$を意味し \begin{eqnarray} h(\bm{w},\bm{\xi}) = \prod_{n=1}^{N}\sigma(\xi_{n})\exp\{\bm{w}^{T}\bm{\phi}_{n}t_{n}-(\bm{w}^{T}\bm{\phi}_{n}+\xi_{n})/2 - \lambda(\xi_{n})(|\bm{w}^{T}\bm{\phi}_{n}|^2- \xi_{n}^{2}) \} \notag \\ \end{eqnarray} である。対数を考えると \begin{eqnarray} \ln\{ p(\bm{t}|\bm{w})p(\bm{w}) \} \geq \ln p(\bm{w}) + \sum_{n=1}^{N} \{ \ln \sigma(\xi_{n}) + \bm{w}^{T}\bm{\phi}_{n}t_{n} \notag \\ -(\bm{w}^{T}\bm{\phi}_{n}+\xi_{n})/2 - \lambda(\xi_{n})(|\bm{w}^{T}\bm{\phi}_{n}|^2- \xi_{n}^{2}) \} \end{eqnarray} となり、事前分布$p(\bm{w})$の値を考えると$\bm{w}$の関数として \begin{eqnarray} &-&\frac{1}{2}(\bm{w}-\bm{m}_{0})^{T}\bm{S}_{0}^{-1}(\bm{w}-\bm{m}_{0}) \notag \\ &+&\sum_{n=1}^{N} \left\{ \bm{w}^{T}\bm{\phi}_{n}(t_{n}-1/2) - \lambda(\xi_{n})\bm{w}^{T}(\bm{\phi}_{n}\bm{\phi}_{n}^{T})\bm{w} \right\} + \mathrm{const} \end{eqnarray} となる。これは$\bm{w}$の二次関数であり、変分近似は \begin{eqnarray} q(\bm{w}) &=& \mathcal{N}(\bm{w}|\bm{m}_{N},\bm{S}_{N}) \notag \\ \bm{m}_{N} &=& \bm{S}_{N} \left( \bm{S}_{0}^{-1}\bm{m}_{0} + \sum_{n=1}^{N}(t_{n}-1/2)\bm{\phi}_{n} \right) \notag \\ \bm{S}_{N}^{-1} &=& \bm{S}_{0}^{-1} + 2\sum_{n=1}^{N}\lambda(\xi_{n})\bm{\phi}_{n}\bm{\phi}_{n}^{T} \end{eqnarray} となる。 \textcolor{blue}{ 本文に、「正規化して変分事後分布$q(\bm{w})$にしてしまうと、もう下界ではなくなってしまう」とあるが、その観点からしてこの節の取り扱いは大丈夫なのだろうか」 } \section{変分パラメータの最適化} ここでは変分パラメータ$\{\xi_{n}\}$の決め方について考える。周辺尤度については \begin{eqnarray} \ln p(\bm{t}) = \ln \int p(\bm{t}|\bm{w})p(\bm{w}) \geq \ln \int h(\bm{w},\bm{\xi})p(\bm{w}) d\bm{w} = \mathcal{L}(\bm{\xi}) \end{eqnarray} が成り立つ。最初にこれをEMアルゴリズムを用いて最大化することを考える。その場合、$\bm{\xi}^{\mathrm{old}}$に対して、 \begin{eqnarray} Q(\bm{\xi},\bm{\xi}^{\mathrm{old}}) = \mathrm{E}[\ln\{h(\bm{w},\bm{\xi})p(\bm{w})\}] \end{eqnarray} を最大化することを考える。これは \begin{eqnarray} Q(\bm{\xi},\bm{\xi}^{\mathrm{old}}) = \sum_{n=1}^{N} \left\{ \ln\sigma(\xi_{n})-\xi_{n}/2-\lambda(\xi_{n})(\bm{\phi}_{n}^{T}\mathbb{E}[\bm{w}\bm{w}^{T}]\bm{\phi}_{n} - \xi_{n}^{2}) \right\} + \mathrm{const} \end{eqnarray} で与えられる。ここでconst項は$\bm{\xi}$に依存しない項を表す。これを$\xi_{n}$について微分しそれを$0$とおくと \begin{eqnarray} 0 = \lambda'(\xi_{n})(\bm{\phi}^{T}\mathbb{E}[\bm{w}\bm{w}^{T}]\bm{\phi}_{n}-\xi_{n}^{2}) \end{eqnarray} を得る。$\lambda(\xi)$が単調関数であることから$\lambda'(\xi)\neq 0$であり、 \begin{eqnarray} (\xi_{n}^{\mathrm{new}})^2 = \bm{\phi}^{T}\mathbb{E}[\bm{w}\bm{w}^{T}]\bm{\phi}_{n} = \bm{\phi}^{T}(\bm{S}_{N} + \bm{m}_{N}\bm{m}_{N}^{T})\bm{\phi}_{n} \end{eqnarray} を得る。一方で$L(\bm{\xi})$を直接計算することも可能で \begin{eqnarray} L(\bm{\xi}) &=& \frac{1}{2} \ln \frac{|\bm{S}_{N}|}{|\bm{S}_{0}|} + \frac{1}{2}\bm{m}_{N}^{T}\bm{S}_{N}^{-1}\bm{m}_{N} - \frac{1}{2}\bm{m}_{0}^{T}\bm{S}_{0}^{-1}\bm{m}_{0} \notag \\ &+& \sum_{n=1}^{N} \left\{ \ln\sigma(\xi_{n}) - \frac{1}{2}\xi_{n} + \lambda(\xi_{n})\xi_{n}^{2}\right\} \end{eqnarray} を得る。 \subsection{超パラメータの推論} パラメータ$\bm{w}$の事前分布を \begin{eqnarray} p(\bm{w}|\alpha) = \mathcal{N}(\bm{w}|\bm{0},\alpha^{-1}\bm{I}) \end{eqnarray} し、$\alpha$に対する共役超事前分布を \begin{eqnarray} p(\alpha) = \mathrm{Gam}(\alpha|a_{0},b_{0}) \end{eqnarray} とする。このモデルの周辺尤度は \begin{eqnarray} p(\bm{t}) &=& \int\int p(\bm{w},\alpha,\bm{t})d\bm{w}d\alpha \notag \\ p(\bm{w},\alpha,\bm{t}) &=& p(\bm{t}|\bm{w})p(\bm{w}|\alpha)p(\alpha) \end{eqnarray} で与えられる。変分分布$q(\bm{w},\alpha)$を導入すると \begin{eqnarray} \ln p(\bm{t}) &=& \mathcal{L}(q) + \mathrm{KL}(q||p) \notag \\ \mathrm{L}(q) &=& \int\int q(\bm{w},\alpha) \ln \left\{ \frac{p(\bm{w},\alpha,\bm{t})}{q(\bm{w},\alpha)} \right\} d\bm{w}d\alpha \notag \\ \mathrm{KL}(q||p) &=& - \int\int q(\bm{w},\alpha) \ln \left\{ \frac{p(\bm{w},\alpha|\bm{t})}{q(\bm{w},\alpha)} \right\} d\bm{w}d\alpha \end{eqnarray} となる。本文(10.152)より \begin{eqnarray} \ln p(\bm{t}) &\geq& \mathcal{L}(q) \geq \tilde{\mathcal{L}}(q,\bm{\xi}) \notag \\ &=& q(\bm{w},\alpha) \ln \left\{ \frac{h(\bm{w},\bm{\xi})p(\bm{w}|\alpha)p(\alpha)}{q(\bm{w},\alpha)} \right\} d\bm{w}d\alpha \end{eqnarray} が成り立つ。変分分布が \begin{eqnarray} q(\bm{w},\alpha) = q(\bm{w})q(\alpha) \end{eqnarray} と分解できる場合を考える。本文(10.9)を用いると最適な$q(\bm{w})$は \begin{eqnarray} \ln q(\bm{w}) &=& \mathbb{E}_{\alpha} [\ln \{h(\bm{w},\bm{\xi})p(\bm{w}|\alpha)p(\alpha)\}] + \mathrm{const} \notag \\ &=& \ln h(\bm{w},\bm{\xi}) + \mathbb{E}_{\alpha}[\ln p(\bm{w}|\alpha)] + \mathrm{const} \end{eqnarray} となる。具体的な値を代入すると \begin{eqnarray} \ln q(\bm{w}) = - \frac{\mathbb{E}[\alpha]}{2}\bm{w}^{T}\bm{w} + \sum_{n=1}^{N}\left\{(t_{n}-1/2)\bm{w}^{T}\bm{\phi}_{n} - \lambda(\xi_{n})\bm{w}^{T}\bm{\phi}_{n}\bm{\phi}_{n}^{T}\bm{w} \right\} + \mathrm{const} \end{eqnarray} となるため \begin{eqnarray} q(\bm{w}) &=& \mathcal{N}(\bm{w}|\bm{\mu}_{N},\bm{\Sigma}_{N}) \notag \\ \bm{\Sigma}_{N}^{-1}\bm{\mu}_{N} &=& \sum_{n=1}^{N}(t_{n}-1/2)\bm{\phi}_{n} \notag \\ \bm{\Sigma}_{N}^{-1} &=& \mathbb{E}[\alpha]\bm{I} + 2\sum_{n=1}^{N}\lambda(\xi_{n})\bm{\phi}_{n}\bm{\phi}_{n}^{T} \end{eqnarray} を得る。同様に$q(\alpha)$についても \begin{eqnarray} \ln q(\alpha) &=& \mathbb{E}_{\bm{w}}[\ln p(\bm{w}|\alpha)] + \ln p(\alpha) + \mathrm{const} \notag \\ &=& \frac{M}{2}\ln\alpha - \frac{\alpha}{2}\mathbb{E}[\bm{w}^{T}\bm{w}] + (a_{0}-1)\ln\alpha - b_{0}\alpha + \mathrm{const} \end{eqnarray} となるため \begin{eqnarray} q(\alpha) &=& \mathrm{Gam}(\alpha|a_{N},b_{N}) \notag \\ a_{N} &=& a_{0} + \frac{M}{2} \notag \\ b_{N} &=& b_{0} + \frac{1}{2}\mathbb{E}_{\bm{w}}[\bm{w}^{T}\bm{w}] \end{eqnarray} を得る。最後に$\xi_{n}$について考えると、$\tilde{\mathcal{L}}(q,\bm{\xi}) $を最大化することで行うが、$\bm{\xi}$に依存しない項を除き$\alpha$について積分すると \begin{eqnarray} \tilde{\mathcal{L}}(q,\bm{\xi}) = \int q(\bm{w}) \ln h(\bm{w},\bm{\xi})d\bm{w} + \mathrm{const} \end{eqnarray} となるため、前節の結果を使うことができて \begin{eqnarray} (\xi_{n}^{\mathrm{new}})^{2} = \bm{\phi}_{n}^{T}(\bm{\Sigma}_{N}+\bm{\mu}_{N}\bm{\mu}_{N}^{T})\bm{\phi}_{n} \end{eqnarray} となる。これにより、三つの量$q(\bm{w}),q(\alpha),\bm{\xi}$を再推定する方程式が得られたことになる。この時に必要となるモーメントは \begin{eqnarray} \mathbb{E}[\alpha] &=& \frac{a_{N}}{b_{N}} \notag \\ \mathbb{E}[\bm{w}\bm{w}^{T}] &=& \bm{\Sigma}_{N} + \bm{\mu}_{N}\bm{\mu}_{N}^{T} \end{eqnarray} で与えられる。 \section{EP法} まず$p(\bm{z})$を固定された確率分布としたとき、$KL(p||q)$を$q(\bm{z})$について最小化する問題を考える。 $q(\bm{z})$を指数型分布族とすると \begin{eqnarray} q(\bm{z}) = h(\bm{z})g(\bm{\eta})\exp\{ \bm{\eta}^{T}\bm{u}(\bm{z}) \} \end{eqnarray} と書くことができる。このとき$\bm{\eta}$の関数としてのKLダイバージェンスは \begin{eqnarray} KL(p||q) = -\ln g(\bm{\eta}) - \bm{\eta}^{T}\mathbb{E}_{p(\bm{z})}[\bm{u}(\bm{z})] + \mathrm{const} \end{eqnarray} となる。 $\bm{\eta}$についての最小化は上の式の勾配を$0$とおいて \begin{eqnarray} -\nabla \ln g(\bm{\eta}) = \mathbb{E}_{p(\bm{z})}[\bm{u}(\bm{z})] \end{eqnarray} によって得られる。本文(2.226)の結果から左辺を変形すると \begin{eqnarray} \mathbb{E}_{q(\bm{z})}[\bm{u}(\bm{z})] = \mathbb{E}_{p(\bm{z})}[\bm{u}(\bm{z})] \end{eqnarray} となる。例えば$q(\bm{z})$がガウス分布$\mathcal{N}(\bm{z}|\bm{\mu},\bm{\Sigma})$の場合、平均$\bm{\mu}$と分散$\bm{\Sigma}$を分布$p(\bm{z})$と一致させることでKLダイバージェンスを最小化することができる。この結果を用いて近似推論のアルゴリズムの導出を考える。多くの確率モデルにおいて、データとパラメータの同時分布は \begin{eqnarray} p(\mathcal{D},\bm{\theta}) = \prod_{i}f_{i}(\theta) \end{eqnarray} と因子の積の形でかける。 \textcolor{blue}{ ($f_{i}(\mathcal{D},\theta)$と書いた方が誤解が少ないように思えるが。) } この場合、事後分布は \begin{eqnarray} p(\bm{\theta}|\mathcal{D}) = \frac{1}{p(\mathcal{D})} \prod_{i}f_{i}(\bm{\theta}) \end{eqnarray} であり、モデルエビデンスは \begin{eqnarray} p(\mathcal{D}) = \int \prod_{i}f_{i}(\bm{\theta})d\bm{\theta} \end{eqnarray} となる。 EP法では、このモデルに対して \begin{eqnarray} q(\bm{\theta}) = \frac{1}{Z}\prod_{i}\tilde{f}_{i}(\bm{\theta}) \end{eqnarray} をにより近似することを考える。そして収束するまで以下を繰り返す。 \begin{enumerate} \item 改良したい因子$\tilde{f}_{j}(\bm{\theta})$を選ぶ \item \begin{eqnarray} q^{\backslash j}(\bm{\theta}) &=& \frac{q(\bm{\theta})}{\tilde{f}_{j}(\bm{\theta})} \notag \\ Z_{j} &=& \int q^{\backslash j}(\bm{\theta}) f_{j}(\bm{\theta}) d\bm{\theta} \end{eqnarray} とし、$q^{\mathrm{new}}(\bm{\theta})$を \begin{eqnarray} \mathrm{KL}\left( \frac{f_{j}(\bm{\theta})q^{\backslash j}(\bm{\theta})}{Z_{j}} \middle|\middle| q^{\mathrm{new}}(\theta) \right) \end{eqnarray} 最小化するように定義。 \textcolor{blue}{（本文にはこれが容易に計算できる操作だと仮定するとあるが$f_{j}(\bm{\theta})$がわからないのでなぜこのように仮定できるかがいまひとつ不明）} \item 新しい因子を \begin{eqnarray} \tilde{f}_{j}(\bm{\theta}) = Z_{j}\frac{q^{\mathrm{new}}(\bm{\theta})}{ q^{\backslash j}(\bm{\theta}) } \end{eqnarray} と定義する。 \end{enumerate} \subsection{例：雑音データ問題} 省略 \subsection{グラフィカルモデルとEP法} 省略 \chapter{サンプリング法} 確率分布$p(\bm{z})$に対して、関数$f(\bm{z})$の期待値は \begin{eqnarray} \mathbb{E}[f] = \int f(\bm{z})p(\bm{z})d\bm{z} \end{eqnarray} で与えられるが、分布$p(\bm{z})$から独立に抽出されたサンプルの集合$\bm{z}^{(l)}(l=1,\cdots,L)$を用いた有限和で \begin{eqnarray} \hat{f} = \frac{1}{L}\sum_{l=1}^{L}f(\bm{z}^{(l)}) \end{eqnarray} と近似することができる。このときその期待値と分散については \begin{eqnarray} \hat{f} &=& \frac{1}{L}\sum_{l=1}^{L}f(\bm{z}^{(l)}) \notag \\ \mathrm{var}[\hat{f}] &=& \frac{1}{L}\mathrm{E} \left[ (f-\mathbb{E}[f])^2 \right] \end{eqnarray} が成り立つ。 \section{基本的なサンプリングアルゴリズム} \subsection{標準的な分布} ここでは区間$(0,1)$で一様に分布する変数$z$を$y=f(z)$と変換した場合の$y$の分布を考える。 $y$の分布は \begin{eqnarray} p(y) = p(z) \left| \frac{dz}{dy} \right| \end{eqnarray} に従う。このとき、$y$と$z$の関係は \begin{eqnarray} z = h(y) \equiv \int^{y}_{-\infty} p(\hat{y})d\hat{y} \end{eqnarray} となる。このことから確率分布$p(y)$に従う変数$y$を得たい場合は$y=h^{-1}(z)$とすればよいことがわかる。 \subsection{棄却サンプリング} 標準的でない分布$p(\bm{z})$に従うサンプルを得たいが、直接$p(\bm{z})$からサンプリングすることが困難な場合を考える。また与えられた$\bm{z}$の値について$p(\bm{z})$の値を求めることが正規化定数$Z$を除いて容易だとする。すなわち \begin{eqnarray} p(z) = \frac{1}{Z_{p}}\tilde{p}(z) \end{eqnarray} において$\tilde{p}(z)$はすぐに求められるが$Z_{p}$がわからないとする。棄却サンプリング法とは以下の手順でサンプリングを行うことをいう。 \begin{enumerate} \item 簡単なサンプリング分布$q(z)$を準備する \item 定数$k$を決めて全ての$z$に対して$kq(z) \geq \tilde{p}(z)$が成り立つようにその値を定める。 \item 乱数$z_{0}$を分布$q(z)$から生成する。 \item 乱数$u_{0}$を区間$[0,kq(z_{0})]$上の一様分布から生成する。 \item $u_{0}\leq\tilde{p}(z_{0})$ならばサンプルを保持し、そうでなければ棄却する。 \end{enumerate} これによって、$p(z)$に従うサンプルが生成される。 \subsection{適応的棄却サンプリング} 省略 \subsection{重点サンプリング} ここでは与えられた任意の$\bm{z}$の値について$p(\bm{z})$は計算できると仮定する。極めて単純な戦略の１つは$\bm{z}$空間を均一なグリッドで離散化し、積分を \begin{eqnarray} \mathrm{E}[f] \approx \frac{1}{L}\sum_{l=1}^{L}p(\bm{z}^{(l)})f(\bm{z}^{(l)}) \end{eqnarray} で計算することであるが、これは和を取る項の数が$\bm{z}$の次元に対して指数的に大きくなる。重点サンプリングではサンプリングが容易な提案分布$q(\bm{z})$を用いて \begin{eqnarray} \mathbb{E}[f] &=& \int f(\bm{z})p(\bm{z})d\bm{z} \notag \\ &=& \int f(\bm{z})\frac{p(\bm{z})}{q(\bm{z})}q(\bm{z})d\bm{z} \notag \\ &\approx& \frac{1}{L} \sum_{l=1}^{L}\frac{p(\bm{z}^{(l)})}{q(\bm{z}^{(l)})}f(\bm{z}^{(l)}) \end{eqnarray} と計算する。また、$p(\bm{z})=\tilde{p(\bm{z})}Z_{p}$のように分布が正規化定数を除いてしか評価できない場合を考える。さらに、用いたい重点サンプリングの分布も$q(\bm{z})=\tilde{q(\bm{z})}Z_{q}$のように正規化定数を除いてしか評価できないものを用いたいとする。この場合は \begin{eqnarray} \mathbb{E}[f] &=& \int f(\bm{z})p(\bm{z})d\bm{z} \notag \\ &=& \frac{Z_{q}}{Z_{p}} \int f(\bm{z})\frac{\tilde{p}(\bm{z})}{q(\bm{z})}\tilde{q}(\bm{z})d\bm{z} \notag \\ &\approx& \frac{Z_{q}}{Z_{p}} \frac{1}{L} \sum_{l=1}^{L} \tilde{r}_{l}f(\bm{z}^{(l)}) \end{eqnarray} となる。 \textcolor{blue}{ この議論はどの分布に基づいてサンプルを生成することを想定しているのかよくわからない。 } \subsection{SIR} 省略 \subsection{サンプリングとEMアルゴリズム} EMアルゴリズムにおいて、Mステップで$\bm{\theta}$に関して最適化される関数は完全データの対数尤度の期待値 \begin{eqnarray} Q(\bm{\theta},\bm{\theta}^{\mathrm{old}} = \int p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}} \ln p(\bm{Z},\bm{X}|\bm{\theta}) d\bm{Z} \end{eqnarray} で与えられるが、これを事後分布の現在の推定$p(\bm{Z}|\bm{X},\bm{\theta}^{old}$から抽出されたサンプル$\{\bm{Z}^{(l)}\}$を用いて \begin{eqnarray} Q(\bm{\theta},\bm{\theta}^{\mathrm{old}}) \approx \frac{1}{L}\sum_{l=1}^{L}\ln p(\bm{Z}^{(l)},\bm{X}|\bm{\theta}) \end{eqnarray} のように近似するアルゴリズムをモンテカルロEMアルゴリズムという。また、$p(\bm{Z}|\bm{X})$からサンプリングを行いたいが直接はできず、$p(\bm{\theta}|\bm{Z},\bm{X})$からサンプリングすることが比較的容易な場合に以下のアルゴリズムをIPアルゴリズムという。 \begin{itemize} \item まず$p(\bm{\theta})$に対する現在の推定に基づいてサンプル$\bm{\theta}^{(l)}$を抽出し、それを用いて$p(\bm{Z}|\bm{\theta}^{(l)},\bm{X})$からサンプル$\bm{Z}^{(l)}$を抽出する。(Iステップ) \item $\bm{\theta}$の事後分布に対する推定を \begin{eqnarray} p(\bm{\theta}|\bm{X}) \approx \frac{1}{L}\sum_{l=1}^{L}p(\bm{\theta}|\bm{Z}^{(l)},\bm{X}) \end{eqnarray} によって計算し更新する。(Pステップ) \end{itemize} \section{マルコフ連鎖モンテカルロ} 確率$p(\bm{z}) = \tilde{p}(\bm{z})/Z_{p}$に従うサンプリングを行う以下のアルゴリズムをMetropolis法とよぶ \begin{enumerate} \item $\bm{z}^{(0)}$を適当に選ぶ \item $\bm{z}^{(\tau)}$が与えられた場合、提案分布$q(\bm{z}^{*}|\bm{z}^{(\tau)})$に基づいて$\bm{z}^{(\tau+1)}$の候補を提案。このとき$q(\bm{z}_{A}|\bm{z}_{B}) = q(\bm{z}_{B}|\bm{z}_{A})$であるとする。 \item 確率 \begin{eqnarray} A(\bm{z}^{*},\bm{z}^{(\tau)}) = \min \left(1, \frac{\tilde{p}(\bm{z}^{*})}{\tilde{p}(\bm{z}^{(\tau)})} \right) \end{eqnarray} で$\bm{z}^{*}$を$\bm{z}^{(\tau+1)}$として受理し、棄却された場合は$\bm{z}^{(\tau+1)} = \bm{z}^{(\tau)}$とする。 \end{enumerate} \subsection{マルコフ連鎖} ここではマルコフ連鎖の一般的性質を考える。１次マルコフ連鎖とは確率変数の系列であって \begin{eqnarray} p(\bm{z}^{(m+1)}|\bm{z}^{(1)},\cdots,\bm{z}^{(m)}) = p(\bm{z}^{(m+1)}|\bm{z}^{(m)}) \end{eqnarray} が成立するものとして定義される。よって、初期変数の確率分布$p(\bm{z}^{(0)})$と、遷移確率$T_{m}(\bm{z}^{(m)},\bm{z}^{(m+1)})\equiv p(\bm{z}^{(m+1)}|p(\bm{z}^{(m)})$を与えることでマルコフ連鎖を指定することができる。全ての$m$について遷移確率が同じマルコフ連鎖は、均一マルコフ連鎖と呼ばれる。また、特定の変数の周辺確率は、ひとつ前の周辺確率を用いて \begin{eqnarray} p(\bm{z}^{(m+1)}) = \sum_{\bm{z}^{(m)}} p(\bm{z}^{(m+1)}|\bm{z}^{(m)}) p(\bm{z}^{(m)}) \end{eqnarray} と表すことができる。よって均一なマルコフ連鎖において \begin{eqnarray} p^{*}(\bm{z}) = \sum_{\bm{z}'}T(\bm{z}',\bm{z})p^{*}(\bm{z}') \end{eqnarray} が成り立つ場合、分布$p^{*}(\bm{z})$は不変である。なお、与えられたマルコフ連鎖が２つ以上の不変分布を持ち得る可能性がある。分布$p^{*}(\bm{z})$と遷移確率に関する \begin{eqnarray} p^{*}(\bm{z})T(\bm{z},\bm{z}') = p^{*}(\bm{z}')T(\bm{z}',\bm{z}) \end{eqnarray} で表される等式を、詳細つり合い条件というが、これを満たす場合$p^{*}(\bm{z})$は不変分布になる。なぜなら \begin{eqnarray} \sum_{\bm{z}'}p^{*}(\bm{z}')T(\bm{z}',\bm{z}) = \sum_{\bm{z}'}p^{*}(\bm{z})T(\bm{z},\bm{z}') = p^{*}(\bm{z})\sum_{\bm{z}'}p(\bm{z}'|\bm{z}) = p^{*}(\bm{z}) \end{eqnarray} となるからである。 \subsection{Metropolis-Hastingsアルゴリズム} 確率$p(\bm{z}) = \tilde{p}(\bm{z})/Z_{p}$に従うサンプリングを行う以下のアルゴリズムを法とよぶ \begin{enumerate} \item $\bm{z}^{(0)}$を適当に選ぶ \item $\bm{z}^{(\tau)}$が与えられた場合、提案分布$q(\bm{z}^{*}|\bm{z}^{(\tau)})$に基づいて$\bm{z}^{(\tau+1)}$の候補を提案。 \item 確率 \begin{eqnarray} A(\bm{z}^{*},\bm{z}^{(\tau)}) = \min \left(1, \frac{\tilde{p}(\bm{z}^{*})q(\bm{z}^{(\tau)}|\bm{z}^{*})}{\tilde{p}(\bm{z}^{(\tau)})q(\bm{z}^{*}|\bm{z}^{\tau})} \right) \end{eqnarray} で$\bm{z}^{*}$を$\bm{z}^{(\tau+1)}$として受理し、棄却された場合は$\bm{z}^{(\tau+1)} = \bm{z}^{(\tau)}$とする。 \end{enumerate} 提案分布が対称な場合はMetropolis法と同一である。遷移確率は \begin{eqnarray} T(\bm{z},\bm{z}') = q(\bm{z}'|\bm{z})A(\bm{z}',\bm{z}) \end{eqnarray} であり、 \begin{eqnarray} p(\bm{z})q(\bm{z}'|\bm{z})A(\bm{z}'|\bm{z}) &=& \min( p(\bm{z})q(\bm{z}'|\bm{z}) , p(\bm{z}')q(\bm{z}|\bm{z}') ) \notag \\ &=& \min( p(\bm{z}')q(\bm{z}|\bm{z}'), p(\bm{z})q(\bm{z}'|\bm{z}) ) \notag \\ &=& p(\bm{z}')q(\bm{z}|\bm{z}')A(\bm{z},\bm{z}') \end{eqnarray} となるため、詳細つり合いの条件を満たす。したがってMetropolis-Hastingsアルゴリズムで行うサンプリングは、分布$p(\bm{z})$に従う。 \section{ギブスサンプリング} サンプリングしたい確率分布$p(\bm{z})=p(z_{1},\cdots,z_{M})$に対して、以下のアルゴリズムで行うサンプリングをギブスサンプリングという \begin{enumerate} \item $\bm{z}^{(0)}$を適当に選ぶ。 \item $\tau = 1,\cdots,T$に対して以下を行う。 \begin{itemize} \item $z_{1}^{(\tau+1)}$ を$p(z_{1}|z_{2}^{(\tau)},\cdots,z_{M}^{(\tau)})$に従ってサンプルする。 \item[ ] $\vdots$ \item $z_{j}^{(\tau+1)}$ を$p(z_{j}|z_{1}^{(\tau+1)},\cdots,z_{j-1}^{(\tau+1)},\cdots,z_{j+1}^{(\tau)},\cdots,z_{M}^{(\tau)})$に従ってサンプルする。 \item[ ] $\vdots$ \item $z_{M}^{(\tau+1)}$ を$p(z_{M}|z_{1}^{(\tau+1)},\cdots,z_{M-1}^{(\tau+1)})$に従ってサンプルする。 \end{itemize} \end{enumerate} これは実は提案確率を$q(\bm{z}^{*}|\bm{z}) = p(z_{k}^{*}|\bm{z}_{\backslash k})$とするMetropolis-Hastingsサンプリングになっている。ここで$\bm{z}_{\backslash k}$は$\bm{z}$から$z_{k}$を取り除いたものである。確率による棄却判定が行われないのは \begin{eqnarray} \frac{p(\bm{z^{*}})q(\bm{z}|\bm{z}^{*})}{p(\bm{z})q(\bm{z}^{*}|\bm{z})} = \frac{p(z_{k}^{*}|\bm{z}_{\backslash k}^{*}) p(\bm{z}_{\backslash k}^{*})p(z_{k}|\bm{z}_{\backslash k}^{*}) }{ p(z_{k}|\bm{z}_{\backslash k}) p(\bm{z}_{\backslash k}^{*})p(z_{k}^{*}|\bm{z}_{\backslash k}) } = 1 \end{eqnarray} より$A(\bm{z}^{*},\bm{z})=1$となるためである。ここで$\bm{z}_{\backslash k}^{*} = \bm{z}_{\backslash k}$を用いた。 \section{スライスサンプリング} 正規化されていない分布$\tilde{p}(\bm{z})$に従ってサンプリングを行う方法として、付加的な変数$u$を用いた分布 \begin{eqnarray} \hat{p}(z,u) = \begin{cases} 1/Z_{p} & 0 \leq u \leq \tilde{p}(z)のとき \\ 0 & それ以外 \end{cases} \end{eqnarray} からサンプリングを行う方法がある。これは$0 \leq u \leq \tilde{p}(z)$を満たす領域で定義された一様分布であり、このサンプリングを実現するのがスライスサンプリングである。具体的には$z$の値が決められたときに範囲$0\leq u \leq \tilde{p}(z)$の領域から一様に$u$をサンプリングし、次に$u$を固定し$\{z:\tilde{p}(z)>u\}$で定義される領域から$z$を一様にサンプリングすることを繰り返す。 \textcolor{blue}{ 本文に明示的に書かれていないが、これはギブスサンプリングの特別な場合に他ならない。 } \section{ハイブリッドモンテカルロアルゴリズム} 省略 \subsection{力学系} 省略 \subsection{ハイブリッドモンテカルロアルゴリズム} 省略 \section{分配関数の推定} 省略 \chapter{連続潜在変数} \section{主成分分析} \subsection{分散最大化による定式化} ここでは$D$次元の観測値のデータ集合$\{\bm{x}_{n}\}$を$MM)$を$\bm{S}$の小さい固有値に対応する固有ベクトルに選べばよく、 \begin{eqnarray} J = \sum_{i=M+1}^{D}\lambda_{i} \end{eqnarray} となる。 \subsection{主成分分析の応用} 主成分分析はデータベクトル$\bm{x}_{n}$に対する圧縮方法として利用することができる。これは \begin{eqnarray} \bar{\bm{x}} = \sum_{i=1}^{D}(\bar{\bm{x}}^{T}\bm{u}_{i})\bm{u}_{i} \end{eqnarray} より \begin{eqnarray} \tilde{\bm{x}}_{n} &=& \sum_{i=1}^{M} (\bm{x}_{n}^{T}\bm{u}_{i})\bm{u}_{i} + \sum_{i=M+1}^{D} (\bar{\bm{x}}_{n}^{T}\bm{u}_{i})\bm{u}_{i} \notag \\ &=& \bar{\bm{x}} + \sum_{i=1}^{M} (\bm{x}_{n}^{T}\bm{u}_{i} - \bar{\bm{x}}_{n}^{T}\bm{u}_{i})\bm{u}_{i} \end{eqnarray} となるため、$D$次元ベクトルを$M$次元ベクトルで置き換えたことになるためである。また主成分分析はデータの前処理にも応用できる。例えば、データ集合に対して標準化された共分散行列は \begin{eqnarray} \rho_{ij} = \frac{1}{N}\sum_{n=1}^{N}\frac{(x_{ni}-\bar{x}_{i})}{\rho_{i}} \frac{(x_{nj}-\bar{x}_{j})}{\rho_{j}} \end{eqnarray} であらわすことができるが、$\bm{S}\bm{U} = \bm{U}\bm{L}$を満たす固有ベクトルの行列$\bm{U}$および、対角成分が固有値の行列$\bm{L}$を用いて、 \begin{eqnarray} \bm{y}_{n} = \bm{L}^{-1/2}\bm{U}^{T}(\bm{x}_{n}-\bar{\bm{x}}) \end{eqnarray} を定義すると、 \begin{eqnarray} \frac{1}{N}\sum_{n=1}^{N}\bm{y}_{n} \bm{y}_{n}^{T} = \bm{I} \end{eqnarray} となるため、平均が$0$で標準化された共分散行列が単位行列となる。 \subsection{高次元データに対する主成分分析} ここでは、データ点の数がベクトル空間の次元$D$よりも小さい場合を考える。まず、$\bm{X}$を$n$番目の行が$(\bm{x}_{n}-\bar{\bm{x}})^{T}$である$N\times D$次元の行列とする。すると$\bm{S} = N^{-1}\bm{X}^{T}\bm{X}$と書くことができて、固有ベクトルの方程式は \begin{eqnarray} \frac{1}{N}\bm{X}^{T}\bm{X}\bm{u}_{i} = \lambda_{i}\bm{u}_{i} \end{eqnarray} となる。これは、$D$次元の固有値方程式であって、$D$次元空間の$N$点の集合は高々$N-1$次元の部分空間を定義するので、$D-N+1$個の固有値は$0$になる。 $0$でない固有値は上の指揮に$\bm{X}$をかけて、 \begin{eqnarray} \frac{1}{N}\bm{X}\bm{X}^{T}(\bm{X}\bm{u}_{i}) = \lambda (\bm{X}\bm{u}_{i}) \end{eqnarray} とすることで$N$次元の固有値方程式の解として得ることができる。 \section{確率的主成分分析} ここでは主成分分析が、ある確率的潜在変数モデルの最尤解として表現されることを示す。まず、主部分空間に対応する$M$次元の潜在変数$\bm{z}$を明示的に導入し、ガウス事前分布$p(\bm{z})$に従うものとする。また、観測変数$\bm{x}$については、潜在変数を条件とするガウス分布$p(\bm{x}|\bm{z})$に従うものとする。具体的には \begin{eqnarray} p(\bm{z}) &=& \mathcal{N}(\bm{z}|\bm{0},\bm{I}) \notag \\ p(\bm{x}|\bm{z}) &=& \mathcal{N}(\bm{x}|\bm{W}\bm{z} + \bm{\mu}, \sigma^{2}\bm{I}) \end{eqnarray} とする。これより、周辺分布は \begin{eqnarray} p(\bm{x}) &=& \int p(\bm{x}|\bm{z})p(\bm{z})d\bm{z} = \mathcal{N}(\bm{x}|\bm{\mu},\bm{C}) \notag \\ \bm{C} &=& \bm{W}\bm{W}^{T} + \sigma^{2}\bm{I} \end{eqnarray} となる。予測分布$p(\bm{x})$はパラメータ$\bm{\mu},\bm{W},\sigma^{2}$によって規定されるが、$\bm{W}$については、$\bm{W}\bm{W}^{T}$だけが周辺分布に影響を与えるため、任意の直交行列$\bm{R}$に対して、$\tilde{\bm{W}} = \bm{W}\bm{R}$は同じ周辺分布を与える。事後分布については \begin{eqnarray} p(\bm{z}|\bm{x}) &=& \mathcal{N}(\bm{z}|\bm{M}^{-1}\bm{W}^{T}(\bm{x}-\bm{\mu}),\sigma^{2}\bm{M}^{-1}) \notag \\ \bm{M} &=& \bm{W}^{T}\bm{W} + \sigma^{2}\bm{I} \end{eqnarray} を得る。 \subsection{最尤法による主成分分析} データ点の集合$\bm{X}=\{\bm{x}_{n}\}$が与えられた下で、対数尤度関数は \begin{eqnarray} \ln p(\bm{X}|\bm{\mu},\bm{W},\sigma^{2}) &=& \sum_{n=1}^{N}\ln p(\bm{x}_{n}|\bm{W},\bm{\mu},\sigma^{2}) \notag \\ &=& -\frac{ND}{2}\ln(2\pi) - \frac{N}{2}\ln|\bm{C}| - \frac{1}{2}\sum_{n=1}^{N}(\bm{x}_{n}-\bm{\mu})^{T}\bm{C}^{-1}(\bm{x}_{n}-\bm{\mu}) \notag \\ \end{eqnarray} で与えられ、$\bm{\mu}$については \begin{eqnarray} \bm{\mu}_{\mathrm{ML}} = \frac{1}{N}\sum_{n=1}^{N}\bm{x}_{n} \end{eqnarray} で与えられる。また$\bm{W}$については、対数尤度関数の全ての停留点は \begin{eqnarray} \bm{W}_{\mathrm{ML}} = \bm{U}_{M}(\bm{L}_{M}-\sigma^{2}\bm{I})^{1/2}\bm{R} \end{eqnarray} で与えられる。ここで$\bm{U}_{M}$は$D\times M$行列で、その列ベクトルはデータ共分散行列$\bm{S}$の固有ベクトルのサイズ$M$の任意の部分集合であり、 $M$次元行列$\bm{L}_{M}$は対角成分に固有ベクトルに対応する固有値を持つ対角行列である。また、尤度関数の最大値は、$M$個の固有ベクトルを固有値の大きい$M$個に選んだ場合に得られることが知られている。この場合、$\bm{W}$の列ベクトルは、主成分分析の主部分空間を成す。そして$\sigma^{2}$の最尤解は \begin{eqnarray} \sigma_{\mathrm{ML}}^{2} = \frac{1}{D-M}\sum_{i=M+1}^{D}\lambda_{i} \end{eqnarray} で与えられる。すなわち、切り捨てられた次元に関連した分散の平均である。また、事後分布についての平均は \begin{eqnarray} \mathbb{E}[\bm{z}|\bm{x}] = \bm{M}^{-1}\bm{W}_{\mathrm{ML}}^{T}(\bm{x}-\bar{\bm{x}}) \end{eqnarray} で与えられる。$\sigma^{2}\rightarrow 0$の極限では \begin{eqnarray} \mathbb{E}[\bm{z}|\bm{x}] &\rightarrow& (\bm{W}_{\mathrm{ML}}^{T}\bm{W}_{\mathrm{ML}})^{-1}\bm{W}_{\mathrm{ML}}^{T}(\bm{x}-\bar{\bm{x}}) \notag \\ &=& \bm{L}_{M}\bm{U}_{M}^{T}(\bm{x}-\bar{\bm{x}}) \end{eqnarray} となって、本文(12.24)の結果と一致する。 \textcolor{blue}{ここに直交射影とあるが、いまひとつよくわからない。通常、直交射影は射影の値域と核が直交することをいう。ここで核とは、写像$\bm{A}$に対して、$\{\bm{x}|\bm{A}\bm{x}=\bm{0}\}$のことである。この場合、地域は$\mathbb{R}^{M}$内の部分空間で、核は$\mathbb{R}^{D}$内の部分空間のため、どのように直交を定義するのだろうか。 } \subsection{EMアルゴリズムによる主成分分析} ここではEMアルゴリズムによってパラメータを求める方法を考える。すでに厳密な最尤パラメータは得られているが、高次元空間においては、サンプル共分散行列を扱うよりも計算量的に有利という場合もある。 EMアルゴリズムに必要な完全データの対数尤度関数は \begin{eqnarray} \ln p(\bm{X},\bm{Z}|\bm{\mu},\bm{W},\sigma^{2}) = \sum_{n=1}^{N}\{ \ln p(\bm{x}_{n}|\bm{z}_{n}) + \ln p(\bm{z}_{n}) \} \end{eqnarray} で与えられる。そして、その潜在変数の事後分布の期待値は \begin{eqnarray} \mathcal{Q}(\bm{\theta},\bm{\theta}^{\mathrm{old}}) &=& \mathbb{E}[\ln p(\bm{X},\bm{Z}|\bm{\mu},\bm{W},\sigma^{2}) ] \notag \\ &=& -\sum_{n=1}^{N}\left\{ \frac{D}{2}\ln(2\pi \sigma^{2}) + \frac{1}{2}\mathrm{Tr}(\mathbb{E}[\bm{z}_{n}\bm{z}_{n}^{T}]) \right. \notag \\ &+& \frac{1}{2\sigma^{2}}||\bm{x}_{n}-\bm{\mu}||^{2} - \frac{1}{\sigma^{2}}\mathbb{E}[\bm{z}]^{T}\bm{W}^{T}(\bm{x}_{n}-\bm{\mu}) \notag \\ &+& \left. \frac{1}{2\sigma^{2}}\mathrm{Tr}(\mathbb{E}[\bm{z}_{n}\bm{z}_{n}^{T}]\bm{W}^{T}\bm{W}) + \frac{M}{2}\ln(2\pi) \right\} \end{eqnarray} となる。$\bm{\mu}$に対しては最尤解がサンプル平均になることをすでに知っているので、以降では置き換えることにする。古いパラメータに依存する潜在変数の期待値は \begin{eqnarray} \mathbb{E}[\bm{z}_{n}] &=& \bm{M}_{\mathrm{old}}^{-1}\bm{W}_{\mathrm{old}}^{T}(\bm{x}_{n}-\bar{\bm{x}}) \notag \\ \mathbb{E}[\bm{z}_{n}\bm{z}_{n}^{T}] &=& \sigma_{\mathrm{old}}^{2}\bm{M}_{\mathrm{old}}^{-1} + \mathbb{E}[\bm{z}_{n}]\mathbb{E}[\bm{z}_{n}]^{T} \end{eqnarray} である。これより$\mathcal{Q}$を最大化するように新しいパラメータを選ぶと \begin{eqnarray} \bm{W}_{\mathrm{new}} &=& \left[ \sum_{n=1}^{N}(\bm{x}_{n}-\bar{\bm{x}})\mathbb{E}[\bm{z}_{n}]^{T}\right] \left[ \sum_{n=1}^{N}\mathbb{E}[\bm{z}_{n}\bm{z}_{n}^{T}] \right]^{-1} \notag \\ \sigma^{\mathrm{new}} &=& \frac{1}{ND} \sum_{n=1}^{N} \left\{ ||\bm{x}_{n}-\bar{\bm{x}}||^{2} - 2\mathbb{E}[\bm{z}_{n}]^{T} \bm{W}_{\mathrm{new}}^{T}(\bm{x}_{n}-\bar{\bm{x}}) \right. \notag \\ &+& \left. \mathrm{Tr}(\mathbb{E}[\bm{z}_{n}\bm{z}_{n}^{T}]\bm{W}_{\mathrm{new}}^{T}\bm{W}_{\mathrm{new}}) \right\} \end{eqnarray} を得る。 \subsection{ベイズ的主成分分析} 省略 \subsection{因子分析} 因子分析のモデルは、潜在変数による線形ガウス分布で、分散が対角的ではあるが等方的でないものである。すなわち$D$次元対角行列$\bm{\Psi}$を用いて \begin{eqnarray} p(\bm{x}|\bm{z}) = \mathcal{N}(\bm{x}|\bm{W}\bm{z}+\bm{\mu},\bm{\Psi}) \end{eqnarray} と表されるものである。この場合周辺分布は \begin{eqnarray} p(\bm{x}) &=& \mathcal{N}(\bm{x}|\bm{\mu},\bm{C}) \notag \\ \bm{C} &=& \bm{W}\bm{W}^{T} + \bm{\Psi} \end{eqnarray} で与えられる。このモデルの最尤解は$\bm{\mu}$についてはサンプル平均$\bar{\bm{x}}$であるが、$\bm{W},\bm{\Psi}$については厳密に求めることはできず、EMアルゴリズムで解くことになる。 Eステップについては、 \begin{eqnarray} \mathbb{E}[\bm{z}_{n}] &=& \bm{G}_{\mathrm{old}}\bm{W}_{\mathrm{old}}^{T}\bm{\Psi}_{\mathrm{old}}^{-1}(\bm{x}_{n}-\bar{\bm{x}}) \notag \\ \mathbb{E}[\bm{z}_{n}\bm{z}_{n}^{T}] &=& \bm{G}_{\mathrm{old}} + \mathbb{E}[\bm{z}_{n}]\mathbb{E}[\bm{z}_{n}]^{T} \notag \\ \bm{G} &=& (\bm{I} + \bm{W}^{T}\bm{\Psi}^{-1}\bm{W})^{-1} \end{eqnarray} を得る。これにより、更新式として \begin{eqnarray} \bm{W}_{\mathrm{new}} &=& \left[ \sum_{n=1}^{N}(\bm{x}_{n}-\bar{\bm{x}})\mathbb{E}[\bm{z}_{n}]^{T}\right] \left[ \sum_{n=1}^{N}\mathbb{E}[\bm{z}_{n}\bm{z}_{n}^{T}] \right]^{-1} \notag \\ \bm{\Psi}_{\mathrm{new}} &=& \mathrm{diag}\left\{ \bm{S}-\bm{W}_{\mathrm{new}}\frac{1}{N}\sum_{n=1}^{N}\mathbb{E}[\bm{z}_{n}](\bm{x}_{n}-\bar{\bm{x}})^{T} \right\} \end{eqnarray} を得る。 \section{カーネル主成分分析} ここでは観測変数のデータ集合$\{\bm{x}_{n}\}$を考え、サンプル平均をあらかじめ引き去っているものとして$\sum_{n}\bm{x}_{n}=0$とする。そして、$M$次元の特徴空間への非線形変換$\bm{\phi}(\bm{x})$を考える。特徴空間での$M\times M$サンプル共分散行列は$\sum_{n}\bm{\phi}(\bm{x}_{n})=0$を仮定すると \begin{eqnarray} \bm{C} = \frac{1}{N}\sum_{n=1}^{N} \bm{\phi}(\bm{x}_{n}) \bm{\phi}(\bm{x}_{n})^{T} \end{eqnarray} であり、その固有ベクトル展開は$i=1,\cdots,M$に対して \begin{eqnarray} \bm{C}\bm{v}_{i} = \lambda_{i}\bm{v}_{i} \end{eqnarray} と定義される。これは$\bm{C}$の定義から \begin{eqnarray} \frac{1}{N}\sum_{n=1}^{N}\bm{\phi}(\bm{x}_{n})\{\bm{\phi}(\bm{x}_{n})^{T}\bm{v}_{i}\} = \lambda_{i}\bm{v}_{i} \end{eqnarray} で与えられる。上の式からベクトル$\bm{v}_{i}$は$\bm{\phi}(\bm{x}_{n})$の線形結合で与えられるので \begin{eqnarray} \bm{v}_{i} = \sum_{n=1}^{N}a_{in}\bm{\phi}(\bm{x}_{n}) \end{eqnarray} と書くことができる。 \textcolor{blue}{($\{\bm{\phi}(\bm{x}_{n})\}$がはる部分空間の次元が$N$未満の場合、$a_{in}$の値は一意的には決まらない。)} これを元の方程式に代入すると \begin{eqnarray} \frac{1}{N}\sum_{n=1}^{N}\bm{\phi}(\bm{x}_{n})\bm{\phi}(\bm{x}_{n})^{T}\sum_{m=1}^{N}a_{im}\bm{\phi}(\bm{x}_{m}) = \lambda_{i}\sum_{n=1}^{N}a_{in}\bm{\phi}(\bm{x}_{n}) \end{eqnarray} となり、両辺に$\bm{\phi}(\bm{x}_{l})^{T}$をかけて$\bm{\phi}(\bm{x}_{n})^{T}\bm{\phi}(\bm{x}_{n})=k(\bm{x}_{n},\bm{x}_{m})$と表現することによって \begin{eqnarray} \frac{1}{N}\sum_{n=1}^{N}k(\bm{x}_{l},\bm{x}_{n})\sum_{m=1}^{N}a_{im}k(\bm{x}_{n},\bm{x}_{m}) = \lambda_{i}\sum_{n=1}^{N}a_{in}k(\bm{x}_{l},\bm{x}_{n}) \end{eqnarray} を得る。これは行列記法では \begin{eqnarray} \bm{K}^{2}\bm{a}_{i} = \lambda_{i}N\bm{K}\bm{a}_{i} \end{eqnarray} と書くことができて、$0$でない固有値および固有ベクトルは \begin{eqnarray} \bm{K}\bm{a}_{i} = \lambda_{i}N\bm{a}_{i} \end{eqnarray} を解くことによって得られる。また規格化条件は \begin{eqnarray} 1 = \bm{v}_{i}^{T}\bm{v}_{i} = \sum_{n=1}^{N}\sum_{m=1}^{N}a_{in}a_{im}\bm{\phi}(\bm{x}_{n})^{T}\bm{\phi}(\bm{x}_{m}) = \bm{a}_{i}^{T}\bm{K}\bm{a}_{i} = \lambda_{i}N\bm{a}_{i}^{T}\bm{a}_{i} \end{eqnarray} で与えられる。固有値問題を解いた場合、点$\bm{x}$の固有ベクトル$i$の上への射影は \begin{eqnarray} y_{i}(\bm{x}) = \bm{\phi}(\bm{x})^{T}\bm{v}_{i} = \sum_{n=1}^{N}a_{in}\bm{\phi}(\bm{x})^{T}\bm{\phi}(\bm{x}) = \sum_{n=1}^{N}a_{in}k(\bm{x},\bm{x}_{n}) \end{eqnarray} で与えられ、カーネル関数だけを通して表される。ところで、一般には$\bm{\phi}(\bm{x}_{n})$の平均は$0$にならない。その場合、共分散行列は \begin{eqnarray} \tilde{\bm{\phi}}(\bm{x}_{n}) = \bm{\phi}(\bm{x}_{n}) - \frac{1}{N}\sum_{l=1}^{N}\bm{\phi}(\bm{x}_{l}) \end{eqnarray} を用いて \begin{eqnarray} \tilde{K}_{nm} &=& \tilde{\bm{\phi}}(\bm{x}_{n})^{T}\tilde{\bm{\phi}}(\bm{x}_{m}) \notag \\ &=& \bm(\bm{x}_{n})^{T}\bm{\phi}(\bm{x}_{m}) - \frac{1}{N}\sum_{l=1}^{N} \bm(\bm{x}_{n})^{T}\bm{\phi}(\bm{x}_{l}) \notag \\ &-& \frac{1}{N}\sum_{l=1}^{N} \bm(\bm{x}_{l})^{T}\bm{\phi}(\bm{x}_{m}) + \frac{1}{N^{2}}\sum_{j=1}^{N}\sum_{l=1}^{N} \bm(\bm{x}_{j})^{T}\bm{\phi}(\bm{x}_{l}) \notag \\ &=& k(\bm{x}_{n},\bm{x}_{m}) - \frac{1}{N}\sum_{l=1}^{N} k(\bm{x}_{l},\bm{x}_{m}) \notag \\ &-& \frac{1}{N} \sum_{l=1}^{N} k(\bm{x}_{n},\bm{x}_{l}) + \frac{1}{N^2}\sum_{j=1}^{N}\sum_{l=1}^{N}k(\bm{x}_{j},\bm{x}_{l}) \end{eqnarray} と表すことができる。これは行列表記だと \begin{eqnarray} \tilde{\bm{K}} = \bm{K} - \bm{I}_{N}\bm{K} - \bm{K}\bm{1}_{N} + \bm{1}_{N}\bm{K}\bm{1}_{N} \end{eqnarray} と書くことができる。ここで$\bm{1}_{N}$は全ての要素が$1/N$の行列である。 \section{非線形潜在変数モデル} \subsection{独立成分分析} 省略 \subsection{自己連想ニューラルネットワーク} 省略 \subsection{非線形多様体のモデル化} 省略 \chapter{系列データ} \section{マルコフモデル} 一般に観測系列の同時分布は、確率の積の規則を用いることで \begin{eqnarray} p(\bm{x}_{1},\cdots,\bm{x}_{N}) = p(\bm{x}_{1})\prod_{n=2}^{N}p(\bm{x}_{N}|\bm{x}_{1},\cdots,\bm{x}_{n-1}) \end{eqnarray} と書くことができるが、 \begin{eqnarray} p(\bm{x}_{1},\cdots,\bm{x}_{N}) = p(\bm{x}_{1})\prod_{n=2}^{N}p(\bm{x}_{n}|\bm{x}_{n-1}) \end{eqnarray} のように、$n$番目のデータが$n-1$番目のデータのみに依存するものを一次マルコフ連鎖という。この場合 \begin{eqnarray} p(\bm{x}_{n}|\bm{x}_{1},\cdots,\bm{x}_{n-1}) = p(\bm{x}_{n}|\bm{x}_{n-1}) \end{eqnarray} が成り立つ。同様にして二次マルコフ連鎖は \begin{eqnarray} p(\bm{x}_{1},\cdots,\bm{x}_{N}) = p(\bm{x}_{1})p(\bm{x}_{2}|\bm{x}_{1})\prod_{n=3}^{N}p(\bm{x}_{n}|\bm{x}_{n-1},\bm{x}_{n-2}) \end{eqnarray} で与えられるモデルである。また、各観測値$\bm{x}_{n}$に対し、対応する潜在変数$\bm{z}_{n}$を導入し、これがマルコフ連鎖を構成するとするモデルを状態空間モデルといい、その同時分布は \begin{eqnarray} p(\bm{x}_{1},\cdots,\bm{x}_{N},\bm{z}_{1},\cdots,\bm{z}_{N}) = p(\bm{z}_{1})\left[ \prod_{n=2}^{N}p(\bm{z}_{n}|\bm{z}_{n-1}) \right] \prod_{n=1}^{N}p(\bm{x}_{n}|\bm{z}_{n}) \end{eqnarray} で与えられる。これは$\bm{z}_{n}$が与えられたときに$\bm{z}_{n-1}$と$\bm{z}_{n+1}$が独立、 \begin{eqnarray} \bm{z}_{n+1} \Perp \bm{z}_{n-1} | \bm{z}_{n} \end{eqnarray} という性質を満たす。潜在変数が離散変数の場合隠れマルコフモデル、潜在変数と観測変数の両方がガウス分布に従うとき、線形動的システムという。 \section{隠れマルコフモデル} 隠れマルコフモデルでは$\bm{z}_{n}$は一対K符号化を用いると便利であり、その遷移確率は$A_{jk}\equiv p(z_{nk}=1|z_{n-1,j}=1)$によってあらわされる。すなわち \begin{eqnarray} p(\bm{z}_{n}|\bm{z}_{n-1},\bm{A}) = \prod_{k=1}^{K}\prod_{j=1}^{K}A_{jk}^{z_{n-1,j}z_{nk}} \end{eqnarray} が成り立つ。最初のノードは確率のベクトル$\bm{\pi}$で表される周辺分布 \begin{eqnarray} p(\bm{z}_{1}|\bm{\pi}) = \prod_{k=1}^{K}\pi_{k}^{z_{1k}} \end{eqnarray} を持つ。また、$\bm{z}_{n}$が与えられた場合の$\bm{x}_{n}$の分布を支配するパラメータを$\bm{\phi}$とする。具体的には \begin{eqnarray} p(\bm{x}_{n}|\bm{z}_{n},\bm{\phi}) = \prod_{k=1}^{K}p(\bm{x}_{n}|\bm{\phi}_{k})^{z_{nk}} \end{eqnarray} とあらわされる。均一なモデルとは$\bm{A}$および$\bm{\phi}$が$n$に依存しないモデルのことであり、 \begin{eqnarray} p(\bm{X},\bm{Z}|\bm{\theta}) = p(\bm{z}_{1}|\bm{\pi})\left[ \prod_{n=2}^{N}p(\bm{z}_{n}|\bm{z}_{n-1},\bm{A}) \right] \prod_{m=1}^{N}p(\bm{x}_{m}|\bm{z}_{m},\bm{\phi}) \end{eqnarray} と書くことができる。ここで$\bm{\theta}=\{ \bm{\pi},\bm{A},\bm{\phi} \}$はモデルを支配するパラメータである。また、$\bm{A}$の$k\leq j$となる$A_{jk}$の成分をゼロとして得られるモデルをleft-to-rightHMMという。 \subsection{HMMの最尤推定} データ集合$\bm{X}=\{\bm{x}_{1},\cdots,\bm{x}_{N}\}$が観測された場合のHMMのパラメータを最尤推定で決定することを考える。そのためにEM法を用いることにする。この場合 \begin{eqnarray} Q(\bm{\theta},\bm{\theta}^{old}) &=& \sum_{\bm{Z}}p(\bm{Z}|\bm{X},\bm{\theta}^{old})\ln p(\bm{X},\bm{Z}|\bm{\theta}) \notag \\ &=& \sum_{\bm{Z}}p(\bm{Z}|\bm{X},\bm{\theta}^{old})\left[ \ln p(\bm{z}_{1}|\bm{\pi}) + \sum_{n=2}^{N}\ln p(\bm{z}_{n}|\bm{z}_{n-1},\bm{A}) + \sum_{n=1}^{N}\ln p(\bm{x}_{n}|\bm{z}_{n},\bm{\phi}) \right] \notag \\ \end{eqnarray} となるが、 \begin{eqnarray} \gamma(\bm{z}_{n}) &=& p(\bm{z}_{n}|\bm{X},\bm{\theta}^{old}) \notag \\ \xi(\bm{z}_{n-1},\bm{z}_{n}) &=& p(\bm{z}_{n-1},\bm{z}_{n}|\bm{X},\bm{\theta}^{old}) \end{eqnarray} と表記し、さらに \begin{eqnarray} \gamma(z_{nk}) &=& p(z_{nk}=1|\bm{X},\bm{\theta}^{old}) \notag \\ \xi(z_{n-1,j},z_{nk}) &=& p(z_{n-1,j}=z_{nk}=1|\bm{X},\bm{\theta}^{old}) \end{eqnarray} と書くことにすると、 \begin{eqnarray} Q(\bm{\theta},\bm{\theta}^{old}) &=& \sum_{k=1}^{K}\gamma(z_{1k})\ln \pi_{k} + \sum_{n=2}^{N}\sum_{j=1}^{K}\sum_{k=1}^{K}\xi(z_{n-1,j},z_{nk})\ln A_{jk} \notag \\ &+& \sum_{n=1}^{N}\sum_{k=1}^{K}\gamma(z_{nk}) \ln p(\bm{x}_{n}|\bm{\phi}_{k}) \end{eqnarray} を得る。 Mステップでは$\gamma(\bm{z}_{n})$と$\xi(\bm{z}_{n-1},\bm{z}_{n})$を定数とみなし、パラメータ$\bm{\theta}=\{ \bm{\pi},\bm{A},\bm{\phi} \}$に関して$Q(\bm{\theta},\bm{\theta}^{old})$を最大化するが、これはラグランジュ未定乗数法を使って \begin{eqnarray} \pi_{k} &=& \frac{\gamma(z_{1k})}{\sum_{j=1}^{K}\gamma(z_{1j})} \notag \\ A_{jk} &=& \frac{\sum_{n=2}^{N}\xi(z_{n-1,j}z_{nk})}{\sum_{l=1}^{K}\sum_{n=2}^{N}\xi(z_{n-1,j}z_{nl})} \end{eqnarray} を得る。 \subsection{フォワードバックワードアルゴリズム} 次にEMアルゴリズムのＥステップに対応する$\gamma(z_{nk})$と$\xi(z_{n-1,j},z_{nk})$を求める方法について検討する。そのために、条件付き独立性を以下に書き下すと \begin{eqnarray} p(\bm{X}|\bm{z}_{n}) &=& p(\bm{x}_{1},\cdots,\bm{x}_{n}|\bm{z}_{n})p(\bm{x}_{n+1},\cdots,\bm{x}_{N}|\bm{z}_{n}) \notag \\ p(\bm{x}_{1},\cdots,\bm{x}_{n-1}|\bm{x}_{n},\bm{z}_{n}) &=& p(\bm{x}_{1},\cdots, \bm{x}_{n-1}|\bm{z}_{n}) \notag \\ p(\bm{x}_{1},\cdots,\bm{x}_{n-1}|\bm{z}_{n-1},\bm{z}_{n}) &=& p(\bm{x}_{1},\cdots,\bm{x}_{n-1}|\bm{z}_{n-1}) \notag \\ p(\bm{x}_{n+1},\cdots,\bm{x}_{N}|\bm{z}_{n}\bm{z}_{n+1}) &=& p(\bm{z}_{n+1},\cdots,\bm{x}_{N}|\bm{z}_{n+1}) \notag \\ p(\bm{x}_{n+2},\cdots,\bm{x}_{N}|\bm{z}_{n+1}\bm{x}_{n+1}) &=& p(\bm{z}_{n+2},\cdots,\bm{x}_{N}|\bm{z}_{n+1}) \notag \\ p(\bm{X}|\bm{z}_{n-1}\bm{x}_{n}) &=& p(\bm{x}_{1},\cdots,\bm{x}_{n-1}|\bm{z}_{n-1})p(\bm{x}_{n}|\bm{z}_{n})p(\bm{x}_{n+1},\cdots,\bm{x}_{N}|\bm{z}_{n}) \notag \\ p(\bm{x}_{N+1}|\bm{X},\bm{z}_{N+1} &=& p(\bm{x}_{N+1}|\bm{z}_{N+1}) \notag \\ p(\bm{z}_{N+1}|\bm{z}_{N},\bm{X}) &=& p(\bm{z}_{N+1}|\bm{z}_{N}) \end{eqnarray} となる。そして$\gamma(\bm{z}_{n})$については、ベイズの定理と条件付き独立性より \begin{eqnarray} \gamma(\bm{z}_{n}) &=& p(\bm{z}_{n}|\bm{X}) = \frac{p(\bm{X}|\bm{z}_{n})p(\bm{z}_{n})}{p(\bm{X})} \notag \\ &=& \frac{p(\bm{x}_{1},\cdots,\bm{x}_{n},\bm{z}_{n})p(\bm{x}_{n+1},\cdots,\bm{x}_{N})}{p(\bm{X})} = \frac{\alpha(\bm{z}_{n})\beta(\bm{z}_{n}) }{ p(\bm{X}) } \end{eqnarray} を得る。ただし \begin{eqnarray} \alpha(\bm{z}_{n}) \equiv p(\bm{x}_{1},\cdots,\bm{x}_{n},\bm{z}_{n}) \notag \\ \beta(\bm{z}_{n}) \equiv p(\bm{x}_{n+1},\cdots,\bm{x}_{N}|\bm{z}_{n}) \end{eqnarray} である。そして、$\alpha,\beta$は再帰的に求めることができて、 \begin{eqnarray} \alpha(\bm{z}_{n}) &=& p(\bm{x}_{1},\cdots,\bm{x}_{n},\bm{z}_{n}) \notag \\ &=& p(\bm{x}_{1},\cdots,\bm{x}_{n}|\bm{z}_{n})p(\bm{z}_{n}) \notag \\ &=& p(\bm{x}_{n}|\bm{z}_{n}) p(\bm{x}_{1},\cdots,\bm{x}_{n-1}|\bm{z}_{n})p(\bm{z}_{n}) \notag \\ &=& p(\bm{x}_{n}|\bm{z}_{n}) \sum_{\bm{z}_{n-1}} p(\bm{x}_{1},\cdots,\bm{x}_{n-1},\bm{z}_{n-1},\bm{z}_{n}) \notag \\ &=& p(\bm{x}_{n}|\bm{z}_{n}) \sum_{\bm{z}_{n-1}} p(\bm{x}_{1},\cdots,\bm{x}_{n-1},\bm{z}_{n}|\bm{z}_{n-1}) p(\bm{z}_{n-1}) \notag \\ &=& p(\bm{x}_{n}|\bm{z}_{n}) \sum_{\bm{z}_{n-1}} p(\bm{x}_{1},\cdots,\bm{x}_{n-1}|\bm{z}_{n-1})p(\bm{z}_{n}|\bm{z}_{n-1})p(\bm{z}_{n-1}) \notag \\ &=& p(\bm{x}_{n}|\bm{z}_{n}) \sum_{\bm{z}_{n-1}} p(\bm{x}_{1},\cdots,\bm{x}_{n-1},\bm{z}_{n-1})p(\bm{z}_{n}|\bm{z}_{n-1}) \notag \\ &=& p(\bm{x}_{n}|\bm{z}_{n}) \sum_{\bm{z}_{n-1}} \alpha(\bm{z}_{n-1})p(\bm{z}_{n}|\bm{z}_{n-1}) \end{eqnarray} この初期条件は \begin{eqnarray} \alpha(\bm{z}_{1}) = p(\bm{x}_{1},\bm{z}_{1}) = p(\bm{z}_{1})p(\bm{x}_{1}|\bm{z}_{1}) = \prod_{k=1}^{K}\{ \pi_{k}p(\bm{x}_{1}|\bm{\phi}_{k})\}^{z_{1k}} \end{eqnarray} で与えられる。同様に$\beta(\bm{z}_{n})$についても \begin{eqnarray} \beta(\bm{z}_{n}) &=& p(\bm{x}_{n+1},\cdots,\bm{x}_{N}|\bm{z}_{n}) \notag \\ &=& \sum_{\bm{z}_{n+1}}p(\bm{x}_{n+1},\cdots,\bm{x}_{N},\bm{z}_{n+1}|\bm{z}_{n}) \notag \\ &=& \sum_{\bm{z}_{n+1}}p(\bm{x}_{n+1},\cdots,\bm{x}_{N}|\bm{z}_{n},\bm{z}_{n+1})p(\bm{z}_{n+1}|\bm{z}_{n}) \notag \\ &=& \sum_{\bm{z}_{n+1}}p(\bm{x}_{n+1},\cdots,\bm{x}_{N}|\bm{z}_{n+1})p(\bm{z}_{n+1}|\bm{z}_{n}) \notag \\ &=& \sum_{\bm{z}_{n+1}}p(\bm{x}_{n+1},\cdots,\bm{x}_{N}|\bm{z}_{n+1})p(\bm{x}_{n+1}|\bm{z}_{n+1})p(\bm{z}_{n+1}|\bm{z}_{n}) \notag \\ &=& \sum_{\bm{z}_{n+1}}\beta(\bm{z}_{n+1})p(\bm{x}_{n+1}|\bm{z}_{n+1})p(\bm{z}_{n+1}|\bm{z}_{n}) \end{eqnarray} を得る。初期値については本文(13.33)において$n=N$とおき、$\alpha$の定義で置き換えると、 \begin{eqnarray} p(\bm{z}_{N}|\bm{X}) = \frac{p(\bm{X},\bm{z}_{N})\beta(\bm{z}_{N})}{p(\bm{X})} \end{eqnarray} となることから$\beta(\bm{z}_{N})=1$とすればよいことがわかる。また本文(13..33)の両辺において$\bm{z}_{n}$について和を取ると \begin{eqnarray} p(\bm{X}) &=& \sum_{\bm{z}_{n}} \alpha(\bm{z}_{n}) \beta(\bm{z}_{n}) \notag \\ &=& \sum_{\bm{z}_{N}}\alpha(\bm{z}_{N}) \end{eqnarray} を得る。次に$\xi(\bm{z}_{n-1},\bm{z}_{n})$については \begin{eqnarray} \xi(\bm{z}_{n-1},\bm{z}_{n}) &=& p(\bm{z}_{n-1},\bm{z}|\bm{X}) \notag \\ &=& \frac{p(\bm{X}|\bm{z}_{n-1},\bm{z}_{n})p(\bm{z}_{n-1},\bm{z}_{n})}{p(\bm{X})} \notag \\ &=& \frac{p(\bm{x},\cdots,\bm{x}_{n-1}|\bm{z}_{n-1})p(\bm{x}_{n}|\bm{z}_{n})p(\bm{x}_{n+1},\cdots,\bm{x}_{N}|\bm{z}_{n})p(\bm{z}_{n}|\bm{z}_{n-1})p(\bm{z}_{n-1}) }{p(\bm{X})} \notag \\ &=& \frac{\alpha(\bm{z}_{n-1}p(\bm{x}_{n}|\bm{z}_{n})p(\bm{z}_{n}|\bm{z}_{n-1})\beta(\bm{z}_{n})}{p(\bm{X})} \end{eqnarray} を得る。最後に予測分布については \begin{eqnarray} p(\bm{x}_{N+1}|\bm{X}) &=& \sum_{\bm{z}_{N+1}}p(\bm{x}_{N+1},\bm{z}_{N+1}|\bm{X}) \notag \\ &=& \sum_{\bm{z}_{N+1}}p(\bm{x}_{N+1}|\bm{z}_{N+1})p(\bm{z}_{N+1}|\bm{X}) \notag \\ &=& \sum_{\bm{z}_{N+1}}p(\bm{x}_{N+1}|\bm{z}_{N+1})\sum_{\bm{z}_{N}}p(\bm{z}_{N+1},\bm{z}_{N}|\bm{X}) \notag \\ &=& \sum_{\bm{z}_{N+1}}p(\bm{x}_{N+1}|\bm{z}_{N+1})\sum_{\bm{z}_{N}}p(\bm{z}_{N+1}|\bm{z}_{N})p(\bm{z}_{N}|\bm{X}) \notag \\ &=& \sum_{\bm{z}_{N+1}}p(\bm{x}_{N+1}|\bm{z}_{N+1})\sum_{\bm{z}_{N}}p(\bm{z}_{N+1}|\bm{z}_{N}) \frac{p(\bm{z}_{N},\bm{X})}{p(\bm{X})} \notag \\ &=& \frac{1}{p(\bm{X})} \sum_{\bm{z}_{N+1}}p(\bm{x}_{N+1}|\bm{z}_{N+1})\sum_{\bm{z}_{N}}p(\bm{z}_{N+1}|\bm{z}_{N}) \alpha(\bm{z}_{N}) \end{eqnarray} \subsection{HMMの積和アルゴリズム} 省略 \subsection{スケーリング係数} 実際にフォワードバックワードアルゴリズムを利用する場合、値が指数関数的に小さくなってしまう場合がある。そこで$\alpha(\bm{z}_{n})$の規格化された表式 \begin{eqnarray} \hat\alpha(\bm{z}_{n}) = p(\bm{z}_{n}|\bm{x}_{1},\cdots,\bm{x}_{n}) = \frac{\alpha(\bm{z}_{n})}{p(\bm{x}_{1},\cdots,\bm{x}_{n})} \end{eqnarray} を導入する。さらに \begin{eqnarray} c_{n} = p(\bm{x}_{n}|\bm{x}_{1},\cdots,\bm{x}_{n-1}) \end{eqnarray} を定義すると、乗法定理により \begin{eqnarray} p(\bm{x}_{1},\cdots,\bm{x}_{n}) = \prod_{m=1}^{n}c_{m} \end{eqnarray} を得る。これより \begin{eqnarray} \alpha(\bm{z}_{n}) = p(\bm{z}_{n}|\bm{x}_{1},\cdots,\bm{x}_{n})p(\bm{x}_{1},\cdots,\bm{x}_{n}) = \left( \prod_{m=1}^{n}c_{m} \right) \hat{\alpha}(\bm{z}_{n}) \end{eqnarray} が得られるため、$\alpha$の再帰式に代入することで \begin{eqnarray} c_{n}\hat{\alpha}(\bm{z}_{n}) = p(\bm{x}_{n}|\bm{z}_{n})\sum_{\bm{z}_{n-1}}\hat{\alpha}(\bm{z}_{n-1})p(\bm{z}_{n}|\bm{z}_{n-1}) \end{eqnarray} を得る。同様にして$\beta$についても \begin{eqnarray} \hat{\beta}(\bm{z}_{n}) = \frac{\beta(\bm{z}_{n})}{\prod_{m=n+1}^{N}c_{m}} = \frac{p(\bm{x}_{n+1},\cdots,\bm{x}_{N}|\bm{z}_{n})}{p(\bm{x}_{n+1},\cdots,\bm{x}_{N}|\bm{x}_{1},\cdots,\bm{x}_{n})} \end{eqnarray} と定義すると再帰式は \begin{eqnarray} c_{n+1}\hat{\beta}(\bm{z}_{n}) = \sum_{\bm{z}_{n+1}}\hat{\beta}(\bm{z}_{n+1})p(\bm{x}_{n+1}|\bm{z}_{n+1})p(\bm{z}_{n+1}|\bm{z}_{n}) \end{eqnarray} となり、尤度関数と周辺確率は \begin{eqnarray} p(\bm{X}) &=& \prod_{n=1}^{N}c_{n} \notag \\ \gamma(\bm{z}_{n}) &=& \hat{\alpha}(\bm{z}_{n})\hat{\beta}(\bm{z}_{n}) \notag \\ \xi(\bm{z}_{n-1},\bm{z}_{n}) &=& (c_{n})^{-1} \hat{\alpha}(\bm{z}_{n-1})p(\bm{x}_{n}|\bm{z}_{n})p(\bm{z}_{n}|\bm{z}_{n-1})\hat{\beta}(\bm{z}_{n}) \end{eqnarray} となる。 \subsection{Viterbiアルゴリズム} ここでは観測データ$\{\bm{x}_{1},\cdots,\bm{x}_{N}\}$が与えられた場合に、最も確からしい$\bm{z}_{n}$の系列を求めることを考える。 \textcolor{blue}{ そこで \begin{eqnarray} w(\bm{z}_{n}) = \max_{\bm{z}_{1},\cdots,\bm{z}_{n-1}} \ln p(\bm{x}_{1},\cdots,\bm{x}_{n},\bm{z}_{1},\cdots,\bm{z}_{n}) \end{eqnarray} と定義すると \begin{eqnarray} w(\bm{z}_{n+1}) &=& \max_{\bm{z}_{1},\cdots,\bm{z}_{n}} \ln p(\bm{x}_{1},\cdots,\bm{x}_{n+1},\bm{z}_{1},\cdots,\bm{z}_{n+1}) \notag \\ &=&\max_{\bm{z}_{1},\cdots,\bm{z}_{n}} \left[ \ln p(\bm{x}_{1},\cdots,\bm{x}_{n},\bm{z}_{1},\cdots,\bm{z}_{n}) + \ln p(\bm{z}_{n+1}|\bm{z}_{n}) + \ln p(\bm{x}_{n+1}|\bm{z}_{n+1}) \right] \notag \\ &=& \ln p(\bm{x}_{n+1}|\bm{z}_{n+1}) + \max_{\bm{z}_{n}} \{ \ln p(\bm{z}_{n+1}|\bm{z}_{n}) + w(\bm{z}_{n}) \} \end{eqnarray} を得る。また、 \begin{eqnarray} w(\bm{z}_{1}) = \ln p(\bm{z}_{1}) + \ln p(\bm{x}_{1}|\bm{z}_{1}) \end{eqnarray} であるため、$n=1$から順番に求めていけば最終的に求めたい量である \begin{eqnarray} \max_{\bm{z}_{n}}w(\bm{z}_{n}) = \max_{\bm{Z}}p(\bm{X},\bm{Z}) \end{eqnarray} を求めることが可能になる。 } \subsection{隠れマルコフモデルの拡張} 省略 \section{線形動的システム} この節では以下の確率分布を持つ線形動的システムを考えることにする。 \begin{eqnarray} p(\bm{z}_{n}|\bm{z}_{n-1}) &=& \mathcal{N}(\bm{z}_{n}|\bm{A}\bm{z}_{n-1},\bm{\Gamma}) \notag \\ p(\bm{x}_{n}|\bm{z}_{n}) &=& \mathcal{N}(\bm{x}_{n}|\bm{C}\bm{z}_{n},\bm{\Sigma}) \notag \\ p(\bm{z}_{1}) &=& \mathcal{N}(\bm{z}_{1}|\bm{\mu}_{0},\bm{P}_{0}) \end{eqnarray} したがってパラメータ集合は$\bm{\theta}=\{ \bm{A},\bm{\Gamma},\bm{C},\bm{\Sigma},\bm{\mu}_{0},\bm{P}_{0}\}$と表すことができる。 \subsection{LDSにおける推論} \textcolor{blue}{（LDSはLinear Dynamical Systemのこと。）} ここでは観測系列で条件付けられた潜在変数の周辺分布を求める問題を考える。HMMの時と同様に \begin{eqnarray} \hat\alpha(\bm{z}_{n}) = p(\bm{z}_{n}|\bm{x}_{1},\cdots,\bm{x}_{n}) \end{eqnarray} を定義しこれを \begin{eqnarray} \hat\alpha(\bm{z}_{n}) = \mathcal{N}(\bm{z}_{n}|\bm{\mu}_{n},\bm{V}_{n}) \end{eqnarray} とおくことにする。その再帰式はHMMの時と同じようにして \begin{eqnarray} c_{n}\hat{\alpha}(\bm{z}_{n}) = p(\bm{x}_{n}|\bm{z}_{n}) \int \hat{\alpha}(\bm{z}_{n-1})p(\bm{z}_{n}|\bm{z}_{n-1})d\bm{z}_{n-1} \end{eqnarray} となり、これを計算することで \begin{eqnarray} \bm{\mu}_{n} &=& \bm{A}\bm{\mu}_{n-1} + \bm{K}_{n}(\bm{x}_{n}-\bm{C}\bm{A}\bm{\mu}_{n-1}) \notag \\ \bm{V}_{n} &=& (\bm{I}-\bm{K}_{n}\bm{C})\bm{P}_{n-1} \notag \\ c_{n} &=& \mathcal{N}(\bm{x}_{n}|\bm{C}\bm{A}\bm{\mu}_{n-1},\bm{C}\bm{P}_{n-1}\bm{C}^{T}+\bm{\Sigma}) \end{eqnarray} を得る。ただし \begin{eqnarray} \bm{P}_{n-1} &=& \bm{A}\bm{V}_{n-1}\bm{A}^{T} + \bm{\Gamma} \notag \\ \bm{K}_{n} &=& \bm{P}_{n-1}\bm{C}^{T}(\bm{C}\bm{P}_{n-1}\bm{C}^{T}+\bm{\Sigma})^{-1} \end{eqnarray} である。初期条件については \begin{eqnarray} c_{1}\hat{\alpha}(\bm{z}_{1}) = p(\bm{z}_{1})p(\bm{x}_{1}|\bm{z}_{1}) \end{eqnarray} であることから \begin{eqnarray} \bm{\mu}_{1} &=& \bm{\mu}_{0} + \bm{K}_{1}(\bm{x}_{1}-\bm{C}\bm{\mu}_{0}) \notag \\ \bm{V}_{1} &=& (\bm{I}-\bm{K}_{1}\bm{C})\bm{P}_{0} \notag \\ c_{1} &=& \mathcal{N}(\bm{x}_{1}|\bm{C}\bm{\mu}_{0},\bm{C}\bm{P}_{n-1}\bm{C}^{T}+\bm{\Sigma}) \notag \\ \bm{K}_{1} &=& \bm{P}_{0}\bm{C}^{T}(\bm{C}\bm{P}_{0}\bm{C}^{T}+\bm{\Sigma})^{-1} \end{eqnarray} である。同様に \begin{eqnarray} \gamma(\bm{z}_{n}) = p(\bm{z}_{n}|\bm{X}) \end{eqnarray} を定義し、 \begin{eqnarray} \gamma(\bm{z}_{n}) = \hat{\alpha}(\bm{z}_{n})\hat{\beta}(\bm{z}_{n}) = \mathcal(\bm{z}_{n}|\hat{\bm{\mu}}_{n},\hat{\bm{V}}_{n}) \end{eqnarray} によって$\hat{\beta}(\bm{z}_{n})$および$\hat{\bm{\mu}}_{n},\hat{\bm{V}_{n}}$を定義すると再帰式は \begin{eqnarray} c_{n+1}\hat{\beta}(\bm{z}_{n}) = \int \hat{\beta}(\bm{z}_{n+1})p(\bm{x}_{n+1}|\bm{z}_{n+1})p(\bm{z}_{n+1}|\bm{z}_{n})d\bm{z}_{n+1} \end{eqnarray} となる。これを計算すると \begin{eqnarray} \hat{\bm{\mu}} &=& \bm{\mu}_{n} + \bm{J}_{n}(\hat{\bm{\mu}}_{n+1} - \bm{A}\bm{\mu}_{n}) \notag \\ \hat{\bm{V}}_{n} &=& \bm{V}_{n} + \bm{J}_{n}(\hat{V}_{n+1}- \bm{P}_{n}) \bm{J}_{n}^{T} \end{eqnarray} を得る。ここで \begin{eqnarray} \bm{J}_{n} = \bm{V}_{n}\bm{A}^{T}(\bm{P}_{n})^{-1} \end{eqnarray} である。また２つ組の事後周辺分布については \begin{eqnarray} \xi(\bm{z}_{n-1},\bm{z}_{n}) &=& (c_{n})^{-1}\hat{\alpha}(\bm{z}_{n-1})p(\bm{x}_{n}|\bm{z}_{n})p(\bm{z}_{n}|\bm{z}_{n-1})\hat{\beta}(\bm{z}_{n}) \notag \\ &=& \frac{ \mathcal{N}(\bm{z}_{n-1}|\bm{\mu}_{n-1},\bm{V}_{n-1}) \mathcal{N}(\bm{z}_{n}|\bm{A}\bm{z}_{n-1},\bm{\Gamma}) \mathcal{N}(\bm{x}_{n}|\bm{Cz}_{n},\bm{\Sigma})\mathcal{N}(\bm{z}_{n}|\hat{\bm{\mu}}_{n},\hat{\bm{V}}_{n}) }{c_{n}\hat{\alpha}(\bm{z}_{n})} \notag \\ \end{eqnarray} が成り立つ。これは平均が$[\hat{\bm{\mu}}_{n-1},\hat{\bm{\mu}}_{n}]^{T}$で与えられるガウス分布であり、さらに \begin{eqnarray} \mathrm{cov}[\bm{z}_{n-1},\bm{z}_{n}] = \bm{J}_{n-1}\hat{\bm{V}}_{n} \end{eqnarray} が成り立つ。 \subsection{LDSの学習} ここではEMアルゴリズムを用いてパラメータ$\bm{\theta}=\{\bm{A},\bm{\Gamma},\bm{C},\bm{\Sigma},\bm{\mu}_{0},\bm{P}_{0}\}$を推定することを考える。そのためには確率分布$p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}})$に基づいた潜在変数の期待値が必要であり、それらは今までの結果から \begin{eqnarray} \mathbb{E}[\bm{z}_{n}] &=& \hat{\bm{\mu}_{n}} \notag \\ \mathbb{E}[\bm{z}_{n}\bm{z}_{n-1}^{T}] &=& \hat{\bm{V}}_{n}\bm{J}_{n-1}^{T} + \hat{\bm{\mu}}_{n}\hat{\bm{\mu}}_{n-1}^{T} \notag \\ \mathbb{E}[\bm{z}_{n}\bm{z}_{n}^{T}] &=& \hat{\bm{V}}_{n} + \hat{\bm{\mu}}_{n}\hat{\bm{\mu}}_{n}^{T} \end{eqnarray} となる。また、完全データの対数尤度関数は \begin{eqnarray} \ln p(\bm{X},\bm{Z}|\bm{\theta}) &=& \ln p(\bm{z}_{1}|\bm{\mu}_{0},\bm{P}_{0}) + \sum_{n=2}^{N}\ln p(\bm{z}_{n}|\bm{z}_{n-1},\bm{A},\bm{\Gamma}) \notag \\ &+& \sum_{n=1}^{N}\ln p(\bm{x}_{n}|\bm{z}_{n},\bm{C},\bm{\Sigma}) \end{eqnarray} で与えられる。事後分布での期待値は \begin{eqnarray} Q(\bm{\theta},\bm{\theta}^{\mathrm{old}}) &=& \int \ln p(\bm{X},\bm{Z}|\bm{\theta}) p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}})d\bm{Z} \notag \\ &=& \mathbb{E}_{\bm{Z}|\bm{\theta}^{\mathrm{old}}} [\ln p(\bm{X},\bm{Z}|\bm{\theta}) ] \end{eqnarray} である。最初に$\bm{\mu}_{0}$と$\bm{P}_{0}$について考える。これらに依存しない項を定数項とすると \begin{eqnarray} Q(\bm{\theta},\bm{\theta}_{old}) &=& -\frac{1}{2}\ln |\bm{P}_{0}| - \mathbb{E}_{\bm{Z}|\bm{\theta}^{\mathrm{old}}} \left[ \frac{1}{2}(\bm{z}_{1}-\bm{\mu}_{0})^{T}\bm{P}_{0}^{-1}(\bm{z}_{1}-\bm{\mu}_{0}) \right] + \mathrm{const} \notag \\ \end{eqnarray} となる。これを最大化するには2.3.4節の結果から \begin{eqnarray} \bm{\mu}_{0}^{\mathrm{new}} &=& \mathbb{E}[\bm{z}_{1}] \notag \\ \bm{P}_{0}^{\mathrm{new}} &=& \mathbb{E}[\bm{z}_{1}\bm{z}_{1}^{T}] - \mathbb{E}[\bm{z}_{1}] \mathbb{E}[\bm{z}_{1}^{T}] \end{eqnarray} 同様に$\bm{A}$と$\bm{\Gamma}$については \begin{eqnarray} Q(\bm{\theta},\bm{\theta}_{old}) = -\frac{N-1}{2}\ln |\bm{\Gamma}| - \mathbb{E}_{\bm{Z}|\bm{\theta}^{\mathrm{old}}} \left[\frac{1}{2}\sum_{n=2}^{N}(\bm{z}_{n}-\bm{A}\bm{z}_{n-1})^{T}\bm{\Gamma}^{-1}(\bm{z}_{n}-\bm{A}\bm{z}_{n-1}) \right] + \mathrm{const} \notag \\ \end{eqnarray} であり、$\bm{A}$については \begin{eqnarray} \bm{A}^{\mathrm{new}} = \left( \sum_{n=2}^{N}\mathrm{E}[\bm{z}_{n}\bm{z}_{n-1}^{T}] \right) \left( \sum_{n=2}^{N}\mathrm{E}[\bm{z}_{n-1}\bm{z}_{n-1}^{T}] \right)^{-1} \end{eqnarray} となる。 \textcolor{blue}{ これは \begin{eqnarray} Q(\bm{\theta},\bm{\theta}_{old}) &=& -\mathbb{E}_{\bm{Z}|\bm{\theta}^{\mathrm{old}}} \left[\frac{1}{2}\sum_{n=2}^{N} [z(n)_{i}-z(n-1)_{h}A_{ih} ]\Gamma^{-1}_{ij}[ z(n)_{j}-A_{jk}z(n-1)_{k} ] \right] + \mathrm{const} \notag \\ \frac{\partial}{\partial A_{\alpha\beta}} Q(\bm{\theta},\bm{\theta}_{old}) &=& -\frac{1}{2}\mathbb{E}_{\bm{Z}|\bm{\theta}^{\mathrm{old}}} \left[ \sum_{n=2}^{N} z(n-1)_{\beta}\Gamma^{-1}_{\alpha j} [ z(n)_{j}-A_{jk}z(n-1)_{k} ] \right. \notag \\ &+& \left. [ z(n)_{i}-z(n-1)_{h}A_{ih} ]\Gamma^{-1}_{i\alpha} z(n-1)_{\beta} \right] \notag \\ &=& -\mathbb{E}_{\bm{Z}|\bm{\theta}^{\mathrm{old}}} \left[ \sum_{n=2}^{N} z(n-1)_{\beta}\Gamma^{-1}_{\alpha j} [z(n)_{j}-A_{jk}z(n-1)_{k}] \right] \notag \\ \frac{\partial}{\partial \bm{A}}Q(\bm{\theta},\bm{\theta}_{old}) &=& -\mathbb{E}_{\bm{Z}|\bm{\theta}^{\mathrm{old}}} \left[ \sum_{n=2}^{N}\bm{z}_{n-1}[\bm{\Gamma}^{-1}(\bm{z}_{n}-\bm{A}\bm{z}_{n-1})]^{T} \right] \notag \\ &=& -\mathbb{E}_{\bm{Z}|\bm{\theta}^{\mathrm{old}}} \left[ \sum_{n=2}^{N}\bm{z}_{n-1}(\bm{z}_{n}-\bm{A}\bm{z}_{n-1})^{T}(\bm{\Gamma}^{-1})^{T} \right] = 0 \end{eqnarray} より、 \begin{eqnarray} \mathbb{E}_{\bm{Z}|\bm{\theta}^{\mathrm{old}}} \left[ \sum_{n=2}^{N}(\bm{z}_{n}-\bm{A}\bm{z}_{n-1})\bm{z}_{n-1}^{T} \right] = 0 \end{eqnarray} が成り立つことから得られる。ここで成分表記するときはベクトルの足と区別するため$\bm{z}_{n}$を$z(n)$と書いた。 } また$\bm{\Gamma}$については \begin{eqnarray} \bm{\Gamma}^{\mathrm{new}} &=& \frac{1}{N-1} \sum_{n=2}^{N} \left\{ \mathbb{E} [\bm{z}_{n}\bm{z}_{n}^{T}] - \bm{A}^{\mathrm{new}}\mathbb{E}[\bm{z}_{n-1}\bm{z}_{n}^{T}] \right. \notag \\ &-& \left. \mathbb{E} [\bm{z}_{n}\bm{z}_{n-1}^{T}](\bm{A}^{\mathrm{new}})^{T} + \bm{A}^{\mathrm{new}}\mathbb{E}[\bm{z}_{n-1}\bm{z}_{n-1}^{T}](\bm{A}^{\mathrm{new}})^{T} \right\} \end{eqnarray} これは \textcolor{blue}{ \begin{eqnarray} \frac{\partial }{\partial \Gamma_{\alpha\beta}}\Gamma^{-1}_{ij} = - \Gamma^{-1}_{i\alpha}\Gamma^{-1}_{\beta j} \quad \frac{\partial }{\partial \Gamma_{\alpha\beta}} \ln |\bm{\Gamma}| = \Gamma^{-1}_{\beta\alpha} \end{eqnarray} を用いて \begin{eqnarray} \frac{\partial}{\partial \Gamma_{\alpha\beta}}Q(\bm{\theta},\bm{\theta}_{old}) &=& -\frac{N-1}{2} \Gamma^{-1}_{\beta\alpha} + \frac{1}{2} \mathbb{E}_{\bm{Z}|\bm{\theta}^{\mathrm{old}}} \left[ \sum_{n=2}^{N}[z(n)_{i}-z(n-1)_{h}A^{T}_{hi}]\Gamma^{-1}_{i\alpha}\Gamma^{-1}_{\beta j}[z(n)_{j}-A_{jk}z(n-1)_{k}] \right] \notag \\ \frac{\partial}{\partial \bm{\Gamma}}Q(\bm{\theta},\bm{\theta}_{old}) &=& -\frac{N-1}{2} \bm{\Gamma}^{-1} + \mathbb{E}_{\bm{Z}|\bm{\theta}^{\mathrm{old}}} \left[ \sum_{n=2}^{N} \bm{\Gamma}^{-1}(\bm{z}_{n}-\bm{A}\bm{z}_{n-1})(\bm{z}_{n}^{T}-\bm{z}_{n-1}^{T}\bm{A}^{T})\bm{\Gamma}^{-1}\right] = 0 \end{eqnarray} となり \begin{eqnarray} \bm{\Gamma} = \frac{1}{N-1} \mathbb{E}_{\bm{Z}|\bm{\theta}^{\mathrm{old}}} \left[ (\bm{z}_{n}-\bm{A}\bm{z}_{n-1})(\bm{z}_{n}^{T}-\bm{z}_{n-1}^{T}\bm{A}^{T}) \right] \end{eqnarray} となることから得られる。 } 最後に$\bm{C}$と$\bm{\Sigma}$については \begin{eqnarray} Q(\bm{\theta},\bm{\theta}_{old}) = -\frac{N}{2} \ln |\bm{\Sigma}| - \mathbb{E}_{\bm{Z}|\bm{\theta}^{\mathrm{old}}} \left[ \frac{1}{2}\sum_{n=2}^{N}(\bm{x}_{n}-\bm{C}\bm{z}_{n})^{T}\bm{\Sigma}^{-1}(\bm{x}_{n}-\bm{C}\bm{z}_{n}) \right] + \mathrm{const} \notag \\ \end{eqnarray} を微分して \begin{eqnarray} \bm{C}^{\mathrm{new}} &=& \left( \sum_{n=1}^{N}\bm{x}_{n}\mathrm{E}[\bm{z}_{n}^{T}] \right) \left( \sum_{n=1}^{N}\mathrm{E}[\bm{z}_{n}\bm{z}_{n}^{T}] \right)^{-1} \notag \\ \bm{\Sigma}^{\mathrm{new}} &=& \frac{1}{N}\sum_{n=1}^{N} \left\{ \mathbb{E} [\bm{x}_{n}\bm{x}_{n}^{T}] - \bm{C}^{\mathrm{new}}\mathbb{E}[\bm{z}_{n}]\bm{x}_{n}^{T} \right. \notag \\ &-& \left. \bm{x}_{n}\mathbb{E} [\bm{z}_{n}^{T}](\bm{C}^{\mathrm{new}})^{T} + \bm{C}^{\mathrm{new}}\mathbb{E}[\bm{z}_{n}\bm{z}_{n}^{T}](\bm{C}^{\mathrm{new}})^{T} \right\} \end{eqnarray} を得る。 \subsection{LDSの拡張} 省略 \subsection{粒子フィルタ} ここでは、ガウス分布でない出力密度を用いる動的システムでも利用可能な、サンプリング手法を用いた推論アルゴリズムを考える。観測値$\bm{X}_{n}$が与えられたときに、事後分布$p(\bm{z}_{n}|\bm{X}_{n})$から$L$個のサンプルを生成すると、 $\bm{z}_{n}$の関数の期待値は \begin{eqnarray} \mathbb{E}[f(\bm{z}_{n})] &=& \int f(\bm{z}_{n})p(\bm{z}_{n}|\bm{X}_{n})d\bm{z}_{n} \notag \\ &=& \int f(\bm{z}_{n})p(\bm{z}_{n}|\bm{x}_{n},\bm{X}_{n-1})d\bm{z}_{n} \notag \\ &=& \int f(\bm{z}_{n})\frac{p(\bm{x}_{n},\bm{z}_{n}|\bm{X}_{n-1})}{p(\bm{x}_{n}|\bm{X}_{n-1})} d\bm{z}_{n} \notag \\ &=& \frac{\int f(\bm{z}_{n})p(\bm{x}|\bm{z}_{n})p(\bm{z}_{n}|\bm{X}_{n-1})d\bm{z}_{n}}{ \int p(\bm{x}_{n}|\bm{z}_{n})p(\bm{z}_{n}|\bm{X}_{n-1})d\bm{z}_{n} } \notag \\ &\approx& \frac{\sum_{l=1}^{l}f(\bm{z}_{n}^{(l)})p(\bm{x}_{n}|\bm{z}_{n}^{(l)}) }{\sum_{l=1}^{l} p(\bm{x}_{n}|\bm{z}_{n}^{(l)}) } \notag \\ &=& \sum_{l=1}^{l}w_{n}^{(l)}f(\bm{z}_{n}^{(l)}) \end{eqnarray} となる。ここで \begin{eqnarray} w_{n}^{(l)} = \frac{p(\bm{x}_{n}|\bm{z}_{n}^{(l)})}{\sum_{m=1}^{L}p(\bm{x}_{n}|\bm{z}_{n}^{(m)})} \end{eqnarray} である。以下保留。 \chapter{モデルの結合} \section{ベイズモデル平均化} 混合ガウス分布の場合、周辺分布は \begin{eqnarray} p(\bm{x}) &=& \sum_{\bm{z}}p(\bm{x},\bm{z}) \notag \\ &=& \sum_{k=1}^{K}\pi_{k}\mathcal{N}(\bm{x}|\bm{\mu}_{k},\bm{\Sigma}_{k}) \end{eqnarray} と表され、データ集合$\bm{X}=\{\bm{x}_{1},\cdots,\bm{x}_{N}\}$の周辺確率は \begin{eqnarray} p(\bm{X}) = \prod_{n=1}^{N}p(\bm{x}_{n}) = \prod_{n=1}^{N}\left[ \sum_{\bm{z}_{n}}p(\bm{x}_{n},\bm{z}_{n}) \right] \end{eqnarray} で与えられ、観測されたデータ点$\bm{x}_{n}$ごとに対応する潜在変数$\bm{z}_{n}$が存在する。一方で、ベイズモデル平均化では$h=1,\cdots,H$で番号付けされたいくつかの異なるモデルが存在し、その事前確立$p(h)$が存在するとする。この場合周辺分布は \begin{eqnarray} p(\bm{X})=\sum_{k=1}^{H}p(\bm{X}|h)p(h) \end{eqnarray} で与えれられる。データ集合のサイズが大きくなれば、不確実性は減少し事後確率$p(h|\bm{X})$は漸近的に一つのモデルに集中する。 \section{コミッティ} あるデータ集合$\bm{X}=\{\bm{x}_{1},\cdots,\bm{x}_{N}\}$に対して、$M$個のブートストラップ集合（元の集合からランダムに$N$個のデータを選んだもの。元のデータ数が$N$なので、一つの集合に重複したデータが含まれたりもする。）を生成し、$M$個の予測モデル$y_{m}(\bm{x})$を訓練したとすると、コミッティの予測は \begin{eqnarray} y_{\mathrm{COM}}(\bm{x}) = \frac{1}{M}\sum_{m=1}y_{m}(\bm{x}) \end{eqnarray} で与えられる。予測しようとする本当の回帰関数が$h(\bm{x})$で与えられる場合、それぞれのモデルの誤差は \begin{eqnarray} y_{m}(\bm{x}) = h(\bm{x}) + \epsilon_{m}(\bm{x}) \end{eqnarray} で与えられる。すると平均二乗誤差は \begin{eqnarray} \mathbb{E}_{\bm{x}}\left[\{y_{m}(\bm{x})-h(\bm{x})\}^{2}\right] = \mathbb{E}_{\bm{x}}[\epsilon_{m}(\bm{x})^{2}] \end{eqnarray} で与えられ、各モデルの平均二乗誤差の平均は \begin{eqnarray} E_{\mathrm{AV}} = \frac{1}{M}\sum_{m=1}^{M} \mathbb{E}_{\bm{x}}[\epsilon_{m}(\bm{x})^{2}] \end{eqnarray} となる。一方で、コミッティについての誤差の期待値は \begin{eqnarray} E_{\mathrm{COM}} &=& \mathbb{E}_{\bm{x}} \left[ \left\{ \frac{1}{M}\sum_{m=1}^{M}y_{m}(\bm{x})-h(\bm{x}) \right\}^{2} \right] \notag \\ &=& \mathbb{E}_{\bm{x}} \left[ \left\{ \frac{1}{M}\sum_{m=1}^{M}\epsilon_{m}(\bm{x}) \right\}^{2} \right] \end{eqnarray} となる。もし、誤差の平均が$0$で無相関、すなわち \begin{eqnarray} \mathbb{E}_{\bm{x}}[\epsilon_{m}(\bm{x})] &=& 0 \notag \\ \mathbb{E}_{\bm{x}}[\epsilon_{m}(\bm{x})\epsilon_{l}(\bm{x})] &=& 0 \end{eqnarray} である場合 \begin{eqnarray} E_{\mathrm{COM}} = \frac{1}{M} E_{\mathrm{AV}} \end{eqnarray} \section{ブースティング} ここでは訓練データが二値の目標変数$t_{1},\cdots,t_{N}$を伴う入力ベクトル$\bm{x}_{1},\cdots,\bm{x}_{N}$で、分類器$y(\bm{x})\in \{-1,1\}$を構成するAdaBoostアルゴリズムを扱う。具体的には以下のようにする。 \begin{enumerate} \item $n=1,\cdots,N$のデータ重み係数$\{w_{n}\}$を$w_{n}^{(1)}=1/N$に初期化 \item $m=1,\cdots,M$について以下を繰り返す。 \begin{itemize} \item[(a)] 分類器$y_{m}(\bm{x})$を \begin{eqnarray} J_{m} = \sum_{n=1}^{N}w_{n}^{(m)}I(y_{m}(\bm{x}_{n})\neq t_{n}) \end{eqnarray} を最小化するように最適化。（これはできると仮定する。）ここで$I(y_{m}(\bm{x}_{n})\neq t_{n})$は$y_{m}(\bm{x}_{n})\neq t_{n}$のときには$1$でそうでないときは$0$である。 \item[(b)] 次の値を計算する \begin{eqnarray} \epsilon_{m} &=& \frac{\sum_{n=1}^{N}w_{n}^{(m)}I(y_{m}(\bm{x}_{n})\neq t_{n})}{\sum_{n=1}^{N}w_{n}^{(m)}} \notag \\ \alpha_{m} &=& \ln\left\{\frac{1-\epsilon_{m}}{\epsilon_{m}}\right\} \end{eqnarray} \item[(c)] データ点の重み係数を以下の式で更新 \begin{eqnarray} w_{n}^{(m+1)} = w_{n}^{(m)}\exp\{\alpha_{n}I(y_{m}(\bm{x}_{n})\neq t_{n})\} \end{eqnarray} \end{itemize} \item 以下の式で最終モデルの予測を構成する \begin{eqnarray} Y_{M}(\bm{x}) = \mathrm{sign}\left(\sum_{m=1}^{M}\alpha_{m}y_{m}(\bm{x})\right) \end{eqnarray} \end{enumerate} \subsection{指数誤差の最小化} ここでは前節のAdaBoostが指数誤差関数の逐次的最適化から解釈できることを見る。指数誤差関数は \begin{eqnarray} E = \sum_{n=1}^{N}\exp\{-t_{n}f_{m}(\bm{x}_{n})\} \end{eqnarray} で定義され、 \begin{eqnarray} f_{m}(\bm{x}) &=& \frac{1}{2}\sum_{l=1}^{m}\alpha_{l}y_{l}(\bm{x}) \end{eqnarray} である。ここで、ベース分類器$y_{1}(\bm{x}),\cdots,y_{m-1}(\bm{x})$とそれらの係数$\alpha_{1},\cdots,\alpha_{m-1}$が固定されていると仮定し、$\alpha_{m}$と$y_{m}(\bm{x})$について最小化を行う。誤差関数から$y_{m}(\bm{x})$の寄与を分離すると \begin{eqnarray} E &=& \sum_{n=1}^{N} \exp \left\{ -t_{n}f_{m-1}(\bm{x}_{n}) - \frac{1}{2}t_{n}\alpha_{m}y_{m}(\bm{x}_{n}) \right\} \notag \\ &=& \sum_{n=1}^{N} w_{n}^{(m)} \exp \left\{ - \frac{1}{2}t_{n}\alpha_{m}y_{m}(\bm{x}_{n}) \right\} \notag \\ &=& (e^{\alpha_{m}/2} - e^{-\alpha_{m}/2})\sum_{n=1}^{N}w_{n}^{(m)}I(y_{m}(\bm{x}_{n})\neq t_{n}) + e^{-\alpha_{m}/2}\sum_{n=1}^{N}w_{n}^{(m)} \end{eqnarray} となる。これを$y_{m}(\bm{x})$について最小化することはAdaBoostの2.(a)と等価であり、$\alpha_{m}$の最小化は2.(b)に帰着する。そして新しい重みについては \begin{eqnarray} w_{n}^{(m+1)} &=& w_{n}^{(m)}\exp\left\{ -\frac{1}{2}t_{n}\alpha_{m}y_{m}(\bm{x}_{n}) \right\} \notag \\ &=& w_{n}^{(m)}\exp(-\alpha_{m}/2)\exp\{\alpha_{m}I(y_{m}(\bm{x}_{n})\neq t_{n})\} \end{eqnarray} となり、$n$に独立な$\exp(-\alpha_{m}/2)$が無視できるため、やはりAdaBoostのものに一致する。 \subsection{ブースティングのための誤差関数} 省略 \section{木構造モデル} 省略 \section{条件付き混合モデル} 省略 \end{document}

メニュー2

2015-10-30T11:01:19+09:00

\documentclass[10pt]{jreport} \usepackage{bm} \usepackage{amsmath} \usepackage{amsfonts} \usepackage{mathtools} \usepackage{txfonts} \usepackage{color} \usepackage{geometry} \DeclareMathOperator*{\argmax}{arg\,max} \begin{document} \chapter{序論} \section{例：多項式曲線フィッティング} N個の観測値xおよび対応する観測値tが存在。フィッティングを \begin{eqnarray} y(x,\bm{w}) = w_{0}+w_{1}x+ w_{2}x^2 + \cdots + w_{M}x^{m} = \sum_{j=0}^{M}w_{j}x^{j} \end{eqnarray} により行う。二乗和誤差は \begin{eqnarray} E(\bm{w}) = \frac{1}{2}\sum_{n=1}^{N}\{y(x_{n},\bm{w})-t_{n}\}^2 \end{eqnarray} により定義される。これを最小化する$\bm{w}$を$\bm{w}^{*}$と書き \begin{eqnarray} E_{\mathrm{RMS}} = \sqrt{2E(\bm{w}^{*})/N} \end{eqnarray} を平均二乗平方根誤差という。過学習を抑制するために \begin{eqnarray} \tilde{E}(\bm{w}) = \frac{1}{2}\sum_{n=1}^{N}\{y(x_{n},\bm{w})-t_{n}\}^2 + \frac{\lambda}{2}||\bm{w}||^2 \end{eqnarray} を用いることもある。これを正則化という。 \section{確率論} 省略 \subsection{確率密度} 省略 \subsection{期待値と分散} ある関数$f(x)$の確率分布$p(x)$のもとでの期待値は \begin{eqnarray} \mathbb{E}[f] \equiv \sum_{x}p(x)f(x) \end{eqnarray} で与えられる。連続変数の場合は \begin{eqnarray} \mathbb{E}[f] \equiv \int p(x)f(x)dx \end{eqnarray} となる。これは有限個の$N$点で \begin{eqnarray} \mathbb{E}[f]\approx\frac{1}{N}\sum_{n=1}^{N}f(x_{n}) \end{eqnarray} と近似できる。多変数関数の期待値で一部の変数についての平均をとるときには添え字を用いて \begin{eqnarray} \mathbb{E}_{x}[f(x,y)] \equiv \sum_{x}p(x,y)f(x,y) \end{eqnarray} と表す。これは$y$の関数となる。また、条件付き期待値 \begin{eqnarray} \mathbb{E}_{x}[f(x,y)|y] \equiv \sum_{x}p(x|y)f(x,y) \end{eqnarray} を考えることもできる。 $f(x)$の分散は \begin{eqnarray} \mathrm{var}[f] &\equiv& \mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^2\right] \notag \\ &=& \mathbb{E}[f(x)^2] - \mathbb{E}[f(x)]^2 \end{eqnarray} と定義される。確率変数$x$自身の分散は \begin{eqnarray} \mathrm{var}[x] = \mathbb{E}[x^2] - \mathbb{E}[x]^2 \end{eqnarray} となる。 2つの確率変数$x$と$y$の共分散は \begin{eqnarray} \mathrm{cov}[x,y] &\equiv& \mathbb{E}\left[ \{x-\mathbb{E}[x]\} \{y-\mathbb{E}[y]\} \right] \notag \\ &=& \mathbb{E}[xy] - \mathbb{E}[x]\mathbb{E}[y] \end{eqnarray} と定義される。また、2つの確率変数ベクトル$\bm{x},\bm{y}$に関して、共分散は行列 \begin{eqnarray} \mathrm{cov}[\bm{x},\bm{y}] &\equiv& \mathbb{E}\left[ \{\bm{x}-\mathbb{E}[\bm{x}]\} \{\bm{y}^{T}-\mathbb{E}[\bm{y}^{T}]\} \right] \notag \\ &=& \mathbb{E}[\bm{x}\bm{y}^{T}] - \mathbb{E}[\bm{x}]\mathbb{E}[\bm{y}^{T}] \end{eqnarray} となり、ベクトル$\bm{x}$の成分間の共分散を表すのには \begin{eqnarray} \mathrm{\bm{x}} \equiv \mathrm{cov}[\bm{x},\bm{x}] \end{eqnarray} と書く。 \subsection{ベイズ確率} モデルパラメータ$\bm{w}$の適切な選び方に関する不確実性を取り扱う方法を考える。あらかじめ$\bm{w}$に関する事前確率分布$p(\bm{w})$を仮定し、観測データを$\mathcal{D}$と書くことにすれば \begin{eqnarray} p(\bm{w}|D) = \frac{p(\mathcal{D}|\bm{w})p(\bm{w})}{p(\mathcal{D})} \end{eqnarray} となる。$p(\mathcal{D}|\bm{w})$は尤度関数と呼ばれる。また \begin{eqnarray} p(\mathcal{D}) = \int p(\mathcal{D}|\bm{w})p(\bm{w})d\bm{w} \end{eqnarray} である。 \subsection{ガウス分布} ガウス分布は \begin{eqnarray} \mathcal{N}(x|\mu,\sigma^2) \equiv \frac{1}{(2\pi\sigma^2)^{1/2}} \exp\left\{ -\frac{1}{2\sigma^2}(x-\mu)^2\right\} \end{eqnarray} で定義される。この分布については \begin{eqnarray} \mathbb{E}[x] &=& \mu \notag \\ \mathbb{E}[x^2] &=& \mu^2 + \sigma^2 \notag \\ \mathrm{var}[x] &=& \sigma^2 \end{eqnarray} が成り立つ。多変数の場合は \begin{eqnarray} \mathcal{N}(\bm{x}|\bm{\mu},\bm{\Sigma}) \equiv \frac{1}{(2\pi)^{D/2}|\Sigma|^{1/2}} \exp\left\{ -\frac{1}{2\sigma^2}(\bm{x}-\bm{\mu})^T\bm{\Sigma}^{-1}(\bm{x}-\bm{\mu})\right\} \end{eqnarray} となる。ここで$D$はベクトルの次元で$|\Sigma|$は$\Sigma$の行列式を表す。次にスカラー変数の$N$個の観測値からなるデータ集合${\bf x} = (x_{1},\cdots,x_{N})$から$\mu$と$\sigma^2$を推定することを考える。尤度関数は \begin{eqnarray} p({\bf x}|\mu,\sigma^2) = \prod_{n=1}^{N}\mathcal{N}(x_{n}|\mu,\sigma^2) \end{eqnarray} で与えられ、その対数は \begin{eqnarray} \ln p({\bf x}|\mu,\sigma^2) = -\frac{1}{2\sigma^2}\sum_{n=1}^{N}(x_{n}-\mu)^2 - \frac{N}{2}\ln \sigma^2 -\frac{N}{2}\ln(2\pi) \end{eqnarray} となる。これを最大化すると \begin{eqnarray} \mu_{\mathrm{ML}} &=& \frac{1}{N}\sum_{n=1}^{N}x_{N} \notag \\ \sigma_{\mathrm{ML}}^{2} &=& \frac{1}{N}\sum_{n=1}^{N}(x_{n}-\mu_{\mathrm{ML}})^2 \end{eqnarray} となる。ところで、これらのデータがパラメータ$\mu,\sigma^2$を持つガウス分布から与えられたとすると、この量の期待値は \begin{eqnarray} \mathbb{E}[\mu_{ML}] &=& \mu \notag \\ \mathbb{E}[\sigma_{\mathrm{ML}}^2] &=& \left( \frac{N-1}{N}\right) \sigma^2 \end{eqnarray} となる。したがって \begin{eqnarray} \tilde{\sigma}^{2} = \frac{N}{N-1} \sigma_{\mathrm{ML}}^{2} \end{eqnarray} は分散パラメータの不偏推定量になる。 \subsection{曲線フィッティング再訪} 訓練データの集合${\bf x} = (x_{1},\cdots,x_{N})^{T}$とっそれに対応する目標値${\bf t} = (t_{1},\cdots,t_{N})^{T}$に基づいて、新たな入力$x$に対する目標変数$t$の予測を確率分布で表すことを考える。ここでは$x$に対応する$t$が多項式曲線$y(x,\bm{w})$を平均とするガウス分布に従うと仮定する。すなわち \begin{eqnarray} p(t|x,\bm{w},\beta) = \mathcal{N}(t|y(x,\bm{w}),\beta^{-1}) \end{eqnarray} として考える。尤度関数はデータが独立であると仮定し、 \begin{eqnarray} p({\bf t}|{\bf x},\bm{w},\beta) = \prod_{n=1}^{N} \mathcal{N}(t_{n}|y(x_{n},\bm{w}),\beta^{-1}) \end{eqnarray} で与えられる。その対数は \begin{eqnarray} \ln p({\bf t}|{\bf x},\bm{w},\beta) = -\frac{\beta}{2}\sum_{n=1}^{N}\{y(x_{n},\bm{w})-t_{n}\}^2 + \frac{N}{2}\ln \beta -\frac{N}{2}\ln(2\pi) \end{eqnarray} である。これを最大化することは$\bm{w}$については二乗和誤差の最小化と等価であり、$\beta$については \begin{eqnarray} \frac{1}{\beta} = \frac{1}{N} \sum_{n=1}^{N}\{y(x_{n},\bm{w}_{\mathrm{ML}})-t_{n}\}^2 \end{eqnarray} を得る。よりベイズ的なアプローチでは$\bm{w}$に関する事前分布を導入する。ここでは \begin{eqnarray} p(\bm{w}|\alpha) = \mathcal{N}(\bm{w}|\bm{0},\alpha^{-1}\bm{I}) = \left(\frac{\alpha}{2\pi}\right)^{(M+1)/2} \exp \left\{ -\frac{\alpha}{2}\bm{w}^{T}\bm{w} \right\} \end{eqnarray} を考える。ここで$M$は多項式の時数であり、$\bm{w}$の要素数は$M+1$である。また$\alpha$を超パラメータと呼ぶ。ベイズの定理より、$\bm{w}$の事後分布は事前分布と尤度関数の積に比例し \begin{eqnarray} p(\bm{w}|{\bf x},{\bf t},\alpha, \beta) \propto p({\bf t}| {\bf x}, \bm{w}, \beta)p(\bm{w}|\alpha) \end{eqnarray} となる。この最大値は \begin{eqnarray} \frac{\beta}{2}\sum_{n=1}^{N} \{y(x_{n},\bm{w})-t_{n}\}^2 + \frac{\alpha}{2}\bm{w}^{T}\bm{w} \end{eqnarray} を最小にする$\bm{w}$によって与えられる。これは、正則化された二乗和誤差の最小化と等価である。 \subsection{ベイズ曲線フィッティング} 3.3節でやるため、省略。 \section{モデル選択} 省略 \section{次元の呪い} 省略 \section{決定理論} 入力ベクトル$\bm{x}$と対応する目標変数$\bm{t}$が存在し、新たな$\bm{x}$に対する$\bm{t}$を予測することを考える。例として、入力$\bm{x}$を患者のX線画像、出力を癌であるクラス$\mathcal{C}_{1}$、癌でないクラス$\mathcal{C}_{2}$とする。目標は患者の画像$\bm{x}$が与えられたときに２つのクラスに属する確率$p(\mathcal{C}_{k}|\bm{x})$を求めることであり、ベイズの定理により \begin{eqnarray} p(\mathcal{C}_{k}|\bm{x}) = \frac{p(\bm{x}|\mathcal{C}_{k})p(\mathcal{C}_{k})}{p(\bm{x})} \end{eqnarray} と表すことができる。 \subsection{誤識別率の最小化} $\bm{x}$の各値に一つのクラスを割り振る規則を考えることにする。すなわち、$\mathcal{R}_{k}$上の点にはクラス$C_{k}$を割り当てることにする。同時分布を用いると、誤りが起きる確率は \begin{eqnarray} p(誤り) = \int_{\mathcal{R}_{1}} p(\bm{x},\mathcal{C}_{2}) d\bm{x} + \int_{\mathcal{R}_{2}} p(\bm{x},\mathcal{C}_{1})d\bm{x} \end{eqnarray} となる。また一般の$K$クラスの場合は、正解の確率が \begin{eqnarray} p(正解) = \sum_{k=1}^{K} \int_{\mathcal{R}_{k}} p(\bm{x},\mathcal{C}_{k})d\bm{x} \end{eqnarray} で表される。これを最大化するには各$\bm{x}$を最大事後確率$p(\mathcal{C}_{k}|\bm{x})$を持つクラスに割り当てるべきである。 \subsection{期待損失の最小化} 目的が正解確率の最大化でない場合、例えば以下の損失関数を最小化したい場合を考える。 \begin{eqnarray} \mathbb{E}[L] = \sum_{k,j}\int_{\mathcal{R}_{j}}L_{kj}p(\bm{x},\mathcal{C}_{k})d\bm{x} \end{eqnarray} これを最小化するには各$\bm{x}$において \begin{eqnarray} \sum_{k}L_{kl}p(\bm{x},\mathcal{C}_{k}) \end{eqnarray} が最も小さくなるようなクラス$j$を選べばよい。 \subsection{棄却オプション} 省略 \subsection{推論と決定} 省略 \subsection{回帰のための損失関数} 回帰問題の場合についても、各入力$\bm{x}$に対して$t$の値に対する推定値$y(\bm{x})$を考えたときに、損失$L(t,y(\bm{x}))$をこうむるとすると、期待損失は \begin{eqnarray} \mathbb{E}[L] = \int\int L(t,y(\bm{x})) p(\bm{x},t) d\bm{x}dt \end{eqnarray} で与えられる。二乗誤差の場合 \begin{eqnarray} \mathbb{E}[L] = \int\int \{y(\bm{x})-t\}^2 p(\bm{x},t) d\bm{x}dt \end{eqnarray} となる。変分法を用いることによって、 \begin{eqnarray} \frac{\delta \mathbb{E}[L]}{\delta y(\bm{x})} = 2\int \{ y(\bm{x})-t \} p(\bm{x},t) dt = 0 \end{eqnarray} より、損失を最小にする$y(\bm{x})$として \begin{eqnarray} y(\bm{x}) = \frac{\int tp(\bm{x},t)dt}{p(\bm{x})} = \int tp(t|\bm{x}) dt = \mathbb{E}_{t}[t|\bm{x}] \end{eqnarray} を得る。この結果は別の方法で導くこともできる。二乗の項は \begin{eqnarray} \{ y(\bm{x})-t \}^2 &=& \{ y(\bm{x}) - \mathbb{E}_{t}[t|\bm{x}] + \mathbb{E}_{t}[t|\bm{x}] - t \}^2 \notag \\ &=& \{ y(\bm{x}) - \mathbb{E}_{t}[t|\bm{x}] \}^2 + 2\{ y(\bm{x}) - \mathbb{E}_{t}[t|\bm{x}] \} \{ \mathbb{E}_{t}[t|\bm{x}] - t \} + 2\{ \mathbb{E}_{t}[t|\bm{x}] - t \}^2 \notag \\ \end{eqnarray} となる。 \begin{eqnarray} \int \{ \mathbb{E}_{t}[t|\bm{x}] - t \} p(\bm{x},t) dt = 0 \end{eqnarray} より、 \begin{eqnarray} \mathbb{E}[L] = \int \{ y(\bm{x}) - \mathbb{E}_{t}[t|\bm{x}] \}^2 p(\bm{x})d\bm{x} + \int \mathrm{var}[t|\bm{x}]p(\bm{x})d\bm{x} \end{eqnarray} となる。ただし \begin{eqnarray} \mathrm{var}[t|\bm{x}] = \int \{ t - \mathbb{E}_{t}[t|\bm{x}] \}^2 p(t|\bm{x}) dt \end{eqnarray} である。二乗誤差には単純な一般化が存在し、 \begin{eqnarray} \mathbb{E}[L_{q}] = \int\int \{y(\bm{x})-t\}^q p(\bm{x},t) d\bm{x}dt \end{eqnarray} をミンコフスキー損失という。 \section{情報理論} 離散分布に対する \begin{eqnarray} H[x] = -\sum_{x}p(x)\log_{2}p(x) \end{eqnarray} をエントロピーという。また、連続分布に対する。 \begin{eqnarray} H[\bm{x}] = -\int p(\bm{x})\ln p(\bm{x}) d\bm{x} \end{eqnarray} を微分エントロピーという。離散分布のエントロピーを最大化する分布は等確率分布であり、微分エントロピーを最大化する分布はガウス分布である。また、確率変数$\bm{x},\bm{y}$に対して、 \begin{eqnarray} H[\bm{y}|\bm{x}] = -\int \int p(\bm{y},\bm{x}) \ln p(\bm{y}|\bm{x})d\bm{y}d\bm{x} \end{eqnarray} を$\bm{x}$に対する$\bm{y}$の情報エントロピーという。このとき \begin{eqnarray} H[\bm{x},\bm{y}] = -\int \int p(\bm{y},\bm{x}) \ln p(\bm{y},\bm{x})d\bm{y}d\bm{x} = H[\bm{y}|\bm{x}] + H[\bm{x}] \end{eqnarray} が成り立つ。 \subsection{相対エントロピーと相互情報量} 二つの分布$p(\bm{x})$tと$q(\bm{x})$に対して、 \begin{eqnarray} KL(p||q) &=& -\int p(\bm{x}) \ln q(\bm{x})d\bm{x} -\left(-\int p(\bm{x}) \ln p(\bm{x})d \bm{x} \right) \notag \\ &=& -\int p(\bm{x}) \ln \left \{ \frac{ q(\bm{x}) }{ p(\bm{x}) } \right \} d\bm{x} \end{eqnarray} を$p(\bm{x})$tと$q(\bm{x})$の間の相対エントロピーという。これは真の分布$p(\bm{x})$の代わりに$q(\bm{x})$を使った時に必要となる追加の情報量と解釈される。また、この量は対称ではない。イェンセンの不等式を用いると、常に$KL(p||q) \geq 0$が成り立ち等号成立は$p(\bm{x}) = q(\bm{x})$に限ることがわかる。イェンセンの不等式は$p(\bm{x}) > 0$、$\int p(\bm{x})d\bm{x}=1$とし、関数fを凸関数とすると \begin{eqnarray} \int f(g(\bm{x}))p(\bm{x})d\bm{x} \geq f \left( \int g(\bm{x})p(\bm{x}) d\bm{x} \right) \end{eqnarray} が成り立つことをいい、その証明は以下のように行う。 \textcolor{blue}{ 凸関数については \begin{eqnarray} f(b) \geq f(a) + f'(a)(b-a) \end{eqnarray} が成り立つ。等号成立は$b=a$の時に限る。 $b$に$g(\bm{x})$を、$a$に$\int g(\bm{x})p(\bm{x}) d\bm{x}$を代入し、辺々$p(\bm{x})$をかけて積分を行うと、イェンセンの不等式を得る。等号成立は$g(\bm{x})$が定数の時に限る。 } 相対エントロピーの性質を証明するには、$f$を$-\ln$に、$g(\bm{x})$を$q(\bm{x})/p(\bm{x})$に置き換えればよい。２つの確率変数$\bm{x}$、$\bm{y}$に関して \begin{eqnarray} I[\bm{x},\bm{y}] &\equiv& KL( p(\bm{x},\bm{y}) || p(\bm{x})p(\bm{y}) ) \notag \\ &=& -\int p(\bm{x},\bm{y}) \ln \left( \frac{ p(\bm{x})p(\bm{y}) }{ p(\bm{x},\bm{y} ) } \right) d\bm{x}d\bm{y} \end{eqnarray} を相互情報量とよぶ。相対エントロピー同様に$I[\bm{x},\bm{y}] \geq 0$であり、 \begin{eqnarray} I[\bm{x},\bm{y}] = H[\bm{x}] - H[\bm{x} | \bm{y}] = H[\bm{y}] - H[\bm{y}|\bm{x}] \end{eqnarray} が成り立つ。 \chapter{確率分布} \section{二値変数} $x\in \{0,1\}$上で定義された \begin{eqnarray} \mathrm{Bern}(x|\mu) = \mu^{x}(1-\mu)^{1-x} \end{eqnarray} をベルヌーイ分布とよぶ。$x=0,1$の確率がそれぞれ$1-\mu,\mu$で与えられる。期待値と分散は \begin{eqnarray} \mathbb{E}[x] &=& \mu \notag \\ \mathrm{var}[x] &=& \mu(1-\mu) \end{eqnarray} データ集合$\mathcal{D} = (x_{1},\cdots, x_{n})$がこの分布から独立に得られたとすると、尤度関数とその対数は \begin{eqnarray} p(\mathcal{D}|\mu) &=& \prod_{n=1}^{N}p(x_{n}|\mu) = \prod_{n=1}^{N}\mu^{x_{n}}(1-\mu)^{1-x_{n}} \notag \\ \ln p(\mathcal{D}|\mu) &=& \sum_{n=1}^{N}\ln p(x_{n}|\mu) = \sum_{n=1}^{N}\{ x_{n}\ln\mu + (1-x_{n})\ln(1-\mu) \} \end{eqnarray} で与えられる。これを最大化すると \begin{eqnarray} \mu_{\mathrm{ML}} = \frac{1}{N} \sum_{n=1}^{N}x_{n} \end{eqnarray} を得る。ベルヌーイ分布に基づく試行を$N$回行った場合に$x=1$が出る回数を表す確率分布を二項分布といい、 \begin{eqnarray} \mathrm{Bin}(m|N,\mu) &=& \begin{pmatrix} N \\ m \end{pmatrix} \mu^{m}(1-\mu)^{N-m} \notag \\ \begin{pmatrix} N \\ m \end{pmatrix} &\equiv& \frac{N!}{(N-m)!m!} \end{eqnarray} で表される。平均と分散は \begin{eqnarray} \mathbb{E}[x] &=& N\mu \notag \\ \mathrm{var}[x] &=& N\mu(1-\mu) \end{eqnarray} で与えられる。 \subsection{ベータ分布} $(0,1)$上で定義された以下の分布をベータ分布という。 \begin{eqnarray} \mathrm{Beta}(\mu|a,b) &\equiv& \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1} \notag \\ \Gamma(x) &\equiv& \int_{0}^{\infty}u^{x-1}e^{-u}du \end{eqnarray} その平均と分散は \begin{eqnarray} \mathbb{E}[\mu] &=& \frac{a}{a+b} \notag \\ \mathrm{var}[\mu] &=& \frac{ab}{(a+b)^2(a+b+1)} \end{eqnarray} で与えられる。ベルヌーイ分布から$x=1$となる観測値を$m$個、$x=0$なる観測値を$l$個含むデータ集合を考え、ベルヌーイ分布のパラメータ$\mu$の事前分布がガンマ分布と仮定すると、$\mu$に関する事後分布は \begin{eqnarray} p(\mu|m,l,a,b) = \frac{\Gamma(m+a+l+b)}{\Gamma(m+a)\Gamma(l+b)}\mu^{m+a-1}(1-\mu)^{l+b-1} \end{eqnarray} となってやはりガンマ分布となる。この性質を共役性と呼ぶ。次の試行に対する予測分布は \begin{eqnarray} p(x=1|m,l,a,b) &=& \int_{0}^{1}p(x=1|\mu)p(\mu|m,l,a,b)d\mu \notag \\ &=& \int_{0}^{1}\mu p(\mu|m,l,a,b)d\mu \notag \\ &=& \frac{m+a}{m+a+l+b} \end{eqnarray} となる。 \section{多値変数} $K$個の異なる状態のうち$1$つをとる離散変数を扱うことを考える。状態を表す変数には、$K$次元空間を張る$K$個の単位ベクトルを考えればよく確率分布はパラメータ$\mu_{k}$を用いて \begin{eqnarray} p(\bm{x}|\bm{\mu}) = \prod_{k=1}^{K}\mu_{k}^{x_{k}} \end{eqnarray} と表され、その期待値は \begin{eqnarray} \mathbb{E}[\bm{x}|\bm{\mu}] = \sum_{\bm{x}}p(\bm{x}|\bm{\mu})\bm{x} = \bm{\mu} \end{eqnarray} となる。 $N$個の独立な観測値$\bm{x}_{1},\cdots,\bm{x}_{N}$のデータ集合$\mathcal{D}$が与えられた場合の尤度関数は \begin{eqnarray} p(\mathcal{D}|\bm{\mu}) &=& \prod_{n=1}^{N}\prod_{k=1}^{K}\mu_{k}^{x_{nk}} = \prod_{k=1}^{K}\mu_{k}^{m_{k}} \notag \\ m_{k} &=& \sum_{n}x_{nk} \end{eqnarray} となる。 $\mu$の最尤推定解を求めるには$\sum_{k}\mu_{k}=1$を満たしつつ尤度関数の対数を最大化するため、ラグランジュ乗数法を用いるとよく、 \begin{eqnarray} \sum_{k=1}^{K}m_{k}\ln\mu_{k} + \lambda\left(\sum_{k=1}^{K}\mu_{k}-1\right) \end{eqnarray} の導関数を$0$にすればよい。その結果として \begin{eqnarray} \mu_{k}^{\mathrm{ML}} = \frac{m_{k}}{N} \end{eqnarray} を得る。パラメータ$\bm{\mu}$および観測値の総数$N$が与えられた条件での$m_{1},\cdots,m_{K}$の同時確率は \begin{eqnarray} \mathrm{Mult}(m_{1},\cdots,m_{K}|\bm{\mu},N) &=& \begin{pmatrix} N \\ m_{1}\cdots m_{K} \end{pmatrix} \prod_{k=1}^{K}\mu_{k}^{m_{k}} \notag \\ \begin{pmatrix} N \\ m_{1}\cdots m_{K} \end{pmatrix} &=& \frac{N!}{m_{1}!\cdots m_{K}!} \end{eqnarray} で与えられ、多項分布と呼ばれる。 \subsection{ディリクレ分布} 多項分布の共役事前分布は、パラメータ$\bm{\alpha}$を用いて \begin{eqnarray} \mathrm{Dir}(\bm{\mu}|\bm{\alpha}) &=& \frac{\Gamma(a_{0})}{\Gamma(a_{1})\cdots\Gamma(a_{K})} \prod_{k=1}^{K}\mu_{k}^{\alpha_{k}-1} \notag \\ \alpha_{0} &=& \sum_{k=1}^{K}\alpha_{k} \end{eqnarray} と表される。ここで$\bm{\mu}$には$\sum_{k=1}^{K}\mu_{k}=1$の制約が課されていることに注意する。 \textcolor{blue}{ ディリクレ分布に関する演習２．９保留 } データ集合が与えられた場合の事後分布は$p(\bm{\mu}|\mathcal{D},\bm{\alpha}) \propto p(\mathcal{D}|\bm{\mu})p(\bm{\mu}|\bm{\alpha})$であり、正規化係数を求めると、 \begin{eqnarray} p(\bm{\mu}|\mathcal{D},\bm{\alpha}) = \mathrm{Dir}(\bm{\mu}|\bm{\alpha}+\bm{m}) &=& \mathrm{Dir}(\bm{\mu}|\bm{\alpha}+\bm{m}) \notag \\ &=& \frac{\Gamma(a_{0}+N)}{\Gamma(a_{1}+m_{1})\cdots\Gamma(a_{K}+m_{k})} \end{eqnarray} を得る。 \textcolor{blue}{ 本文には「尤度関数(2.34)を掛けると」とあるが「(2.29)の方が適切と考えられる。」 } \section{ガウス分布} 1変数$x$に対するガウス分布は \begin{eqnarray} \mathcal{N}(x|\mu,\sigma^2) = \frac{1}{(2\pi\sigma^2)^{1/2}}\exp \left \{ -\frac{1}{2\sigma^2}(x-\mu)^2 \right \} \end{eqnarray} と書かれる。ここで平均は$\mu$で、分散は$\sigma^2$である。$D$次元変数の場合は \begin{eqnarray} \mathcal{N}(\bm{x}|\bm{\mu},\bm{\Sigma}) = \frac{1}{(2\pi)^{D/2}|\Sigma|^{1/2}}\exp \left \{ -\frac{1}{2}(\bm{x}-\bm{\mu})\bm{\Sigma}^{-1} (\bm{x}-\bm{\mu}) \right \} \end{eqnarray} となり、 \begin{eqnarray} \mathbb{E}[\bm{x}] &=& \bm{\mu} \notag \\ \mathrm{cov}[\bm{x}] &=& \bm{\Sigma} \end{eqnarray} が成り立つ。 \subsection{条件付きガウス分布} $\bm{x}$をガウス分布$\mathcal{N}(\bm{x}|\bm{\mu},\bm{\Sigma})$に従う$D$次元のベクトルとする。これを2つの互いに素な部分$\bm{x}_{a},\bm{x}_{b}$に分割する場合を考える。また$\bm{\mu},\bm{\Sigma}$についても分割を定義し \begin{eqnarray} \bm{x} = \begin{pmatrix} \bm{x}_{a} \\ \bm{x}_{b} \end{pmatrix} \quad \bm{\mu} = \begin{pmatrix} \bm{\mu}_{a} \\ \bm{\mu}_{b} \end{pmatrix} \quad \bm{\Sigma} = \begin{pmatrix} \bm{\Sigma}_{aa} & \bm{\Sigma}_{ab} \\ \bm{\Sigma}_{ba} & \bm{\Sigma}_{bb} \end{pmatrix} \end{eqnarray} とする。また、共分散の逆行列を精度行列と定義しこれについても分割を考える。すなわち \begin{eqnarray} \bm{\Lambda} = \begin{pmatrix} \bm{\Lambda}_{aa} & \bm{\Lambda}_{ab} \\ \bm{\Lambda}_{ba} & \bm{\Lambda}_{bb} \end{pmatrix} \end{eqnarray} である。このとき、$\bm{x}_{b}$を固定した場合の$\bm{x}_{a}$の条件付き分布は \begin{eqnarray} p(\bm{x}_{a}|\bm{x}_{b}) &\equiv& \frac{p(\bm{x}_{a},\bm{x}_{b})}{\int p(\bm{x}_{a},\bm{x}_{b}) d\bm{x}_{a}} = \mathcal{N}(\bm{x}_{a}|\bm{\mu}_{a|b}, \Lambda_{aa}^{-1}) \notag \\ \bm{\mu}_{a|b} &=& \bm{\mu}_{a} - \bm{\Lambda}_{aa}^{-1}\bm{\Lambda}_{ab}(\bm{x}_{b}-\mu_{b}) \end{eqnarray} となる。 \subsection{周辺ガウス分布} 周辺分布については以下が成り立つ \begin{eqnarray} p(\bm{x}_{a}) = \int p(\bm{x}_{a},\bm{x}_{b}) d\bm{x}_{b} = \mathcal{N}(\bm{x}_{a}|\bm{\mu}_{a},\bm{\Sigma}_{aa}) \end{eqnarray} \subsection{ガウス変数に対するベイズの定理} 次に周辺分布と条件付き分布が以下のように与えられている問題を考える。 \begin{eqnarray} p(\bm{x}) &=& \mathcal{N}(\bm{x}|\bm{\mu},\bm{\Lambda}^{-1}) \notag \\ p(\bm{y}|\bm{x}) &=& \mathcal{N}(\bm{y}|\bm{Ax}+\bm{b},\bm{L}^{-1}) \end{eqnarray} このとき$\bm{z}^T=(\bm{x}^T,\bm{y}^T)$も正規分布に従い \begin{eqnarray} \mathbb{E}[\bm{z}] = \begin{pmatrix} \bm{\mu} \\ \bm{A\mu} + \bm{b} \end{pmatrix} \quad \mathrm{cov}[\bm{z}] = \bm{R}^{-1} = \begin{pmatrix} \bm{\Lambda} + \bm{A}^{T}\bm{LA} & -\bm{A}^{T}\bm{L} \\ -\bm{LA} & \bm{L} \end{pmatrix} \end{eqnarray} が成り立つ。その他にも \begin{eqnarray} p(\bm{y}) &=& \int p(\bm{y}|\bm{x})p(\bm{x}) d\bm{x} = \mathcal{N}(\bm{y}|\bm{A\mu}+\bm{b},\bm{L}^{-1}+\bm{A\Lambda}^{-1}\bm{A}^{T}) \notag \\ p(\bm{x}|\bm{y}) &=& \mathcal{N}(\bm{x}|\bm{\Sigma}\{\bm{A}^{T}\bm{L}(\bm{y}-\bm{b})+\bm{\Lambda\mu} \}, \bm{\Sigma}) \notag \\ \bm{\Sigma} &=& (\bm{\Lambda}+\bm{A}^{T}\bm{L}\bm{A})^{-1} \end{eqnarray} \subsection{ガウス分布の最尤推定} 多変量ガウス分布から独立に得られたと仮定したデータ集合$\bm{X} = (\bm{x}_{1},\cdots,\bm{x}_{N})^{T}$があるとき、対数尤度関数は \begin{eqnarray} \ln p(\bm{X}|\bm{\mu},\bm{\Sigma}) = -\frac{ND}{2}\ln(2\pi) - \frac{N}{2}\ln|\bm{\Sigma}| -\frac{1}{2}\sum_{n=1}^{N}(\bm{x}_{n}-\bm{\mu})^{T}\bm{\Sigma}^{-1}(\bm{x}_{n}-\bm{\mu}) \notag \\ \end{eqnarray} となり、これを最大化すると \begin{eqnarray} \bm{\mu}_{\mathrm{ML}} &=& \frac{1}{N}\sum_{n=1}^{N}\bm{x}_{n} \notag \\ \bm{\Sigma}_{\mathrm{ML}} &=& \frac{1}{N}\sum_{n=1}^{N}(\bm{x}_{n}-\bm{\mu}_{\mathrm{ML}})(\bm{x}_{n}-\bm{\mu}_{\mathrm{ML}})^{T} \end{eqnarray} を得る。真の分布で最尤推定解の期待値を評価すると \begin{eqnarray} \mathbb{E}[\bm{\mu}_{\mathrm{ML}}] &=& \bm{\mu} \notag \\ \mathbb{E}[\bm{\Sigma}_{\mathrm{ML}}] &=& \frac{N-1}{N}\bm{\Sigma} \end{eqnarray} となる。したがって分散の不偏推定量は \begin{eqnarray} \tilde{\bm{\Sigma}} = \frac{1}{N-1}\sum_{n=1}^{N}(\bm{x}_{n}-\bm{\mu}_{\mathrm{ML}})(\bm{x}_{n}-\bm{\mu}_{\mathrm{ML}})^{T} \end{eqnarray} となる。 \subsection{逐次推定} 同時分布$p(z,\theta)$に従う確率変数$\theta$と$z$を考える。また \begin{eqnarray} f(\theta) \equiv \mathbb{E}[z|\theta] = \int zp(z|\theta)dz \end{eqnarray} という関数を定義し \begin{eqnarray} \mathbb{E}[(z-f)^2|\theta] < \infty \end{eqnarray} と仮定する。 \textcolor{blue}{ $z,\theta$が独立である場合、$f(\theta)$はそもそも定数になる。この節の議論は何らかの仮定が落ちていると考えられるので以下省略 } \subsection{ガウス分布に対するベイズ推論} 1変数の場合から考える。$N$個のデータ集合${\bf x}=\{x_1,\cdots,x_{N}\}$が与えられ、それが分散$\sigma^2$を既知とするガウス分布から与えられたとすると、尤度関数は \begin{eqnarray} p({\bf x}|\mu) = \prod_{n=1}^{N}p(x_{n}|\mu) = \frac{1}{(2\pi\sigma^2)^{N/2}}\exp\left\{ -\frac{1}{2\sigma^2}\sum_{n=1}^{N}(x_n-\mu)^2 \right\} \end{eqnarray} となる。平均に関する共益事前分布は \begin{eqnarray} p(\mu) = \mathcal{N}(\mu|\mu_{0},\sigma_{0}^2) \end{eqnarray} となる。事後分布は \begin{eqnarray} p(\mu|{\bf x}) &=& \frac{1}{C} p({\bf x}|\mu)p(\mu) \notag \\ &=& \mathcal{N}(\mu|\mu_{N},\sigma_{N}^2) \end{eqnarray} となる。ただし \begin{eqnarray} \mu_{N} &=& \frac{\sigma^2}{N\sigma_{0}^2+\sigma^2}\mu_{0} + \frac{N\sigma_{0}^2}{N\sigma_{0}^2+\sigma^2}\mu_{\mathrm{ML}} \notag \\ \frac{1}{\sigma_{N}^2} &=& \frac{1}{\sigma_{0}^2} + \frac{N}{\sigma^2} \notag \\ \mu_{\mathrm{ML}} &=& \frac{1}{N}\sum_{n=1}^{N}x_{n} \end{eqnarray} である。次に平均がわかっていて、分散がわからない場合を考える。これについては精度$\lambda \equiv 1/\sigma^2$で考えるほうが容易で、尤度関数は \begin{eqnarray} p({\bf x}|\lambda) = \prod_{n=1}^{N}\mathcal{N}(x_{n}|\mu,\lambda^{-1}) \propto \lambda^{N/2} \exp\left\{-\frac{\lambda}{2}\sum_{n=1}^{N}(x_{n}-\mu)^2 \right\} \end{eqnarray} で与えられる。共役事前分布は \begin{eqnarray} \mathrm{Gam}(\lambda|a_0,b_0) \equiv \frac{1}{\Gamma(a)}b_{0}^{a_{0}}\lambda^{a_{0}-1}\exp(-b_{0}\lambda) \end{eqnarray} で定義されるガンマ分布になる。なお、この分布の期待値、分散は \begin{eqnarray} \mathbb{E}[\lambda] &=& \frac{a}{b} \notag \\ \mathrm{var}[\lambda] &=& \frac{a}{b^2} \end{eqnarray} 事後分布については \begin{eqnarray} p(\lambda|{\bf x}) &=& \frac{1}{C} p({\bf x}|\lambda)p(\lambda) \notag \\ &=&\mathrm{Gam}(\lambda|a_{N},b_{N}) \end{eqnarray} となる。ただし \begin{eqnarray} a_{N} &=& a_{0} + \frac{N}{2} \notag \\ b_{N} &=& b_{0} + \frac{1}{2}\sum_{n=1}^{N}(x_{n}-\mu)^2 = b_{0}+\frac{N}{2}\sigma_{\mathrm{ML}}^2 \end{eqnarray} である。また平均と精度両方が未知の場合事前分布は \begin{eqnarray} p(\mu,\lambda) = \mathcal{N}(\mu|\mu_{0},(\beta_{0}\lambda)^{-1})\mathrm{Gam}(\lambda|a_{0},b_{0}) \end{eqnarray} で与えられる。ただし$a_{0}=(1+\beta_{0})/2$である。 \textcolor{blue}{$\mu_{N},\beta_{N},b_{N}$の表式は未確認。} 多変数の場合は省略 \subsection{スチューデントの$t$分布} 省略 \subsection{周期変数} $[0,2\pi)$上で定義された \begin{eqnarray} p(\theta|\theta_{0},m) &=& \frac{1}{2\pi I_{0}(m)}\exp\{m\cos(\theta-\theta_{0})\} \notag \\ I_{0}(m) &=& \frac{1}{2\pi}\int_{0}^{2\pi}\exp\{m \cos \theta \} d\theta \end{eqnarray} をフォン・ミーゼス分布という。データ$\{\theta_{1},\cdots,\theta_{N}\}$が与えられた場合の対数尤度関数は \begin{eqnarray} \ln p(\mathcal{D}|\theta_{0},m) = -N\ln(2\pi) - N\ln I_{0}(m) + m\sum_{n=1}^{N}\cos(\theta_{n}-\theta_{0}) \end{eqnarray} で与えられる。$\theta_{0}$についての導関数を$0$とおくと \begin{eqnarray} \sum_{n=1}^{N}\sin(\theta_{n}-\theta_{0}) = 0 \end{eqnarray} より、 \begin{eqnarray} \theta_{0}^{\mathrm{ML}} = \tan^{-1}\left\{ \frac{\sum_{n}\sin\theta_{n}}{\sum_{n}\cos\theta_{n}} \right\} \end{eqnarray} となる。これは幾何的には$\{(\cos\theta_{i},\sin\theta_{i})\}$の重心の偏角となっている。一方$m$については \begin{eqnarray} \frac{I_{0}'(m_{\mathrm{ML}})}{I_{0}'(m_{\mathrm{ML}})} = \frac{1}{N}\sum_{n=1}^{N}\cos(\theta_{n}-\theta_{0}^{\mathrm{ML}}) \end{eqnarray} より数値的に求めることができる。 \subsection{混合ガウス分布} \begin{eqnarray} \sum_{k=1}^{K}\pi_{k} = 1 \quad 0 \leq \pi_{k} \leq 1 \end{eqnarray} なる$\pi_{k}$を用いて表される \begin{eqnarray} p(\bm{x}) = \sum_{k=1}^{K}\pi_{k}\mathcal{N}(\bm{x}|\bm{\mu}_{k},\bm{\Sigma}_{k}) \end{eqnarray} を混合ガウス分布という。データ$\bm{X} = \{\bm{x}_{1},\cdots,\bm{x}_{N}\}$が与えられた場合の対数尤度関数は \begin{eqnarray} \ln p(\bm{X}|\bm{\pi},\bm{\mu},\bm{\Sigma}) = \sum_{n=1}^{N}\ln \left \{ \sum_{k=1}^{K}\pi_{k}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{k},\bm{\Sigma}_{k}) \right \} \end{eqnarray} となる。 \section{指数分布族} $\bm{\eta}$をパラメータとし \begin{eqnarray} p(\bm{x}|\bm{\eta}) &=& h(\bm{x})g(\bm{\eta})\exp\{\bm{\eta}^{T}\bm{u}(\bm{x})\} \notag \\ g(\bm{\eta}) &=& \frac{1}{\int h(\bm{x}) \exp\{\bm{\eta}^{T}\bm{u}(\bm{x})\}d\bm{x}} \end{eqnarray} で表されるを指数型分布族という。ベルヌーイ分布、多項分布、ガウス分布はすべてこれに該当する。 \subsection{最尤推定と十分統計量} 指数型分布族では一般的に \begin{eqnarray} -\nabla \ln g(\bm{\eta}) = \mathbb{E}[\bm{u}(\bm{x})] \end{eqnarray} が成り立つ。またデータの集合$\bm{X} = \{\bm{x}_{1},\cdots,\bm{x}_{N}\}$が与えられた場合の尤度関数は \begin{eqnarray} p(\bm{X}|\bm{\eta}) = \left(\prod_{n=1}^{N}h(\bm{x}) \right) g(\bm{\eta})^{N} \exp \left\{ \bm{\eta}^{T}\sum_{n=1}^{N}\bm{u}(\bm{x}_{n}) \right\} \end{eqnarray} で与えられ、最尤推定量はこの対数の微分を$0$にする点として与えられ \begin{eqnarray} -\nabla \ln g(\bm{\eta}_{\mathrm{ML}}) = \frac{1}{N} \sum_{n=1}^{N}\bm{u}(\bm{x}_{n}) \end{eqnarray} を満たす。最尤推定の解はデータに$\sum_{n}\bm{u}(\bm{x}_{n})$を通じてのみ依存し、この量を分布の十分統計量と呼ぶ。 \subsection{共役事前分布} 指数型分布族の分布の共役事前分布は \begin{eqnarray} p(\bm{\eta}|\bm{\chi},\nu) = f(\bm{\chi},\nu)g(\bm{\eta})^{\nu}\exp\{ \nu \bm{\eta}^{T}\bm{\chi} \} \end{eqnarray} で与えられる。ここで$f(\bm{\chi},\nu)$は正規化係数である。データが与えられた場合の事後分布は正規化係数を除くと \begin{eqnarray} p(\bm{\eta}|\bm{X},\bm{\chi},\nu) \propto g(\bm{\eta})^{\nu+N} \exp\left\{ \bm{\eta}^{T}\left( \sum_{n=1}^{N}\bm{u}(\bm{x}_{n}) + \nu\bm{\chi} \right)\right\} \end{eqnarray} で与えられる。 \subsection{無情報事前分布} 省略 \section{ノンパラメトリック法} データ集合から値が決定される少数のパラメータで関数形が決まる方法はパラメトリックなアプローチと呼ばれる。一方関数形を仮定しないものをノンパラメトリックなアプローチという。たとえばヒストグラム密度推定法では、確率変数$x$のとりうる領域を幅$\Delta_{i}$の区間に区切り、$i$番目の区間に入った$x$の観測値を$n_{i}$とし、$i$番目の区間の確率密度を \begin{eqnarray} p_{i} = \frac{n_{i}}{N\Delta_{i}} \end{eqnarray} と推定する。ただし$N$はデータの総数である。 \subsection{カーネル密度推定法} カーネル密度推定法とは、与えられたデータに対して、 \begin{eqnarray} k(\bm{u}) \leq 0 \notag \\ \int k(\bm{u}) d\bm{u} = 1 \end{eqnarray} を満たすカーネル関数を用いて確率密度を \begin{eqnarray} p(\bm{x}) = \frac{1}{N} \sum_{n=1}^{N}\frac{1}{h^{D}}k\left( \frac{\bm{x}-\bm{x}_{n}}{h}\right) \end{eqnarray} と推定する方法である。関数$k$としては、例えば原点を中心とする単位立方体を用いることができる。また、ガウス関数をカーネルとして用いた場合 \begin{eqnarray} p(\bm{x}) = \frac{1}{N} \sum_{n=1}^{N}\frac{1}{(2\pi h^2)^{D/2}}\exp\left\{ -\frac{||\bm{x}-\bm{x}_{n}||^2}{2h^2}\right\} \end{eqnarray} となる。 \subsection{最近傍法} 省略 \chapter{線形回帰モデル} 回帰の目標は$N$個の観測値$\{\bm{x}_{n}\}$と対応する目標値${t_{n}}$が与えられた場合に新しい$\bm{x}$に対する$t$の値を予測することである。最も単純なアプローチは適当な関数$y(\bm{x})$を直接構成することであり、より一般的には、予測分布$p(t|\bm{x})$を構成することである。 \section{線形基底関数モデル} $M$個のパラメータ$w_{i}$および、基底関数$\phi_{i}(\bm{x})$を用いて予測関数を \begin{eqnarray} y(\bm{x},\bm{w}) = \sum_{j=0}^{M-1}w_{j}\phi_{j}(\bm{x}) = \bm{w}^{T}\bm{\phi}(\bm{x}) \end{eqnarray} とするモデルを線形基底関数モデルという。ここで$\phi_{0}=1$は定数関数で、他の$M-1$個の関数はあらかじめ決めておき、パラメータ$w_{i}$の方は与えられたデータに基づいて何らかの方法で決定する。 \subsection{最尤推定と最小二乗法} 予測分布を決定論的な関数$y(\bm{x},\bm{w})$を中心としたガウス分布で与えることを考える。すなわち \begin{eqnarray} p(t|\bm{x},\bm{w},\beta) = \mathcal{N}(t|y(\bm{x},\bm{w}),\beta^{-1}) \end{eqnarray} とする。$N$個のデータが与えられた場合の尤度関数は \begin{eqnarray} p(\bm{t}|\bm{X},\bm{w},\beta) = \prod_{n=1}^{N}\mathcal{N}(t_{n}|\bm{w}^{T}\bm{\phi}(\bm{x_{n}}),\beta^{-1}) \end{eqnarray} となる。その対数は \begin{eqnarray} \ln p(\bm{t}|\bm{X},\bm{w},\beta) &=& \sum_{n=1}^{N} \ln \mathcal{N}(t_{n}|\bm{w}^{T}\bm{\phi}(\bm{x}),\beta^{-1}) \notag \\ &=& \frac{N}{2}\ln\beta -\frac{N}{2}(2\pi) - \beta E_{\mathcal{D}}(\bm{w}) \notag \\ E_{\mathcal{D}}(\bm{w}) &=& \frac{1}{2}\sum_{n=1}^{N}\{t_{n} - \bm{w}^{T}\bm{\phi}(\bm{x}_{n}) \}^{2} \end{eqnarray} で与えられる。$E_{\mathcal{D}}(\bm{w})$は二乗和誤差関数であり、$\bm{w}$の最尤解はこれを最小にする。 \textcolor{blue}{これを微分すると \begin{eqnarray} \frac{\partial}{\partial w_{i}} E_{\mathcal{D}}(\bm{w}) = \sum_{n=1}^{N}\left(t_{n}-\sum_{j=0}^{M-1}w_{j}\phi_{j}(\bm{x})\right) \phi_{i}(\bm{x}_{n}) \end{eqnarray} となり、$\phi_{i}(\bm{x}_{n})=\Phi_{ni}$と書き上式を0とおくと \begin{eqnarray} \sum_{n=1}^{N}\Phi_{ni}t_{n} &=& \sum_{n=1}^{N}\sum_{j=0}^{M-1}\Phi_{nj}\Phi_{ni}w_{j} \end{eqnarray} より } \begin{eqnarray} \bm{w}_{\mathrm{ML}} = \left( \bm{\Phi}^{T}\bm{\Phi} \right)^{-1} \bm{\Phi}^{T} \bm{t} \end{eqnarray} を得る。また、ノイズの精度パラメータ$\beta$については \begin{eqnarray} \frac{1}{\beta_{\mathrm{ML}}} = \frac{1}{N}\sum_{n=1}^{N} \{ t_{n}-\bm{w}_{\mathrm{ML}}^{T}\bm{\phi}(\bm{x}_{n}) \}^2 \end{eqnarray} で与えられる。 \subsection{最小二乗法の幾何学} 省略 \subsection{逐次学習} 省略 \subsection{正則化最小二乗法} 省略 \subsection{出力変数が多次元の場合} 目標ベクトルが$K$次元の場合、 \begin{eqnarray} \bm{y}(\bm{x},\bm{w}) = \bm{W}^{T}\bm{\phi}(\bm{x}) \end{eqnarray} とすればよい。目標ベクトルの条件付き分布を \begin{eqnarray} p(\bm{t}|\bm{x},\bm{W},\beta) = \mathcal{N}(\bm{t}|\bm{W}^{T}\bm{\phi}(\bm{x}),\beta^{-1}\bm{I}) \end{eqnarray} と仮定する。 $n$番目の行が$\bm{t}_{n}^{T}$となる行列を$\bm{T}$とすると、このときの対数尤度関数は \begin{eqnarray} \ln p(\bm{T}|,\bm{X},\bm{W},\beta) &=& \sum_{n=1}^{N}\ln \mathcal{N}(\bm{t}_{n}|\bm{W}^{T}\bm{\phi}(\bm{x}_{n}), \beta^{-1}\bm{T}) \notag \\ &=& \frac{NK}{2}\ln \left( \frac{\beta}{2\pi} \right) - \frac{\beta}{2}\sum_{n=1}^{N} || \bm{t}_{n}-\bm{W}^{T}\bm{\phi}(\bm{x}_{n}) ||^2 \notag \\ \end{eqnarray} であり、これを最大にする$\bm{W}$として \begin{eqnarray} \bm{W}_{\mathrm{ML}} = \left( \bm{\Phi}^{T}\bm{\Phi} \right)^{-1} \bm{\Phi}^{T} \bm{T} \end{eqnarray} を得る。 \section{バイアス‐バリアンス分解} 引き続き、入力$\bm{x}$に対して出力$t$を予測する問題を考える。1.5.5節で示したように二乗損失関数 \begin{eqnarray} \mathbb{E}[L] = \int \int \{ y(\bm{x}) -t \}^{2}p(\bm{x},t)d\bm{x}dt \end{eqnarray} を最小にする予測は \begin{eqnarray} h(\bm{x}) = \mathbb{E}[t|\bm{x}] = \int tp(t|\bm{x})dt \end{eqnarray} で与えられる。同じく1.5.5節で示したように任意の予測関数$y(\bm{x})$に対して、期待二乗損失は \begin{eqnarray} \mathbb{E}[L] = \int \{ y(\bm{x}) - h(\bm{x})\}^2 d\bm{x} + \int \int \{ h(\bm{x}) -t\}^2 p(\bm{x},t) d\bm{x}dt \end{eqnarray} で与えられる。予測関数の関数形をどのように選ぼうと、これはデータに依存する量であり、その期待値を考えることができる。上の式の第一項は \begin{eqnarray} &&\{y(\bm{x};\mathcal{D}) - h(\bm{x}) \}^2 \notag \\ &=&\{y(\bm{x};\mathcal{D}) - \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] + \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] - h(\bm{x}) \}^2 \notag \\ &=& \{y(\bm{x};\mathcal{D}) - \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] \}^2 + \{ \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] - h(\bm{x}) \}^2 \notag \\ &+& 2\{y(\bm{x};\mathcal{D}) - \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] \} \{ \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] - h(\bm{x}) \} \end{eqnarray} である。この式全体のデータ集合$\mathcal{D}$の取り方に関する期待値は \begin{eqnarray} &&\mathbb{E}_{\mathcal{D}} [ \{y(\bm{x};\mathcal{D}) - h(\bm{x}) \}^2 ] \notag \\ &=& \{ \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] - h(\bm{x}) \}^2 + \mathbb{E}_{\mathcal{D}} [ \{y(\bm{x};\mathcal{D}) - \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] \}^2 ] \end{eqnarray} となる。第一項は二乗バイアスとよばれ、第二項はバリアンスと呼ばれる。したがって、期待二乗損失のデータに対する期待値についても \begin{eqnarray} \mathbb{E}_{\mathcal{D}}[\mathbb{E}[L]] &=& (バイアス)^2 + バリアンス + ノイズ \notag \\ (バイアス)^2 &=& \int \{ \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] - h(\bm{x}) \}^2 p(\bm{x})d\bm{x} \notag \\ バリアンス &=& \int \mathbb{E}_{\mathcal{D}} [ \{y(\bm{x};\mathcal{D}) - \mathbb{E}_{\mathcal{D}}[y(\bm{x};\mathcal{D})] \}^2 ] p(\bm{x})d\bm{x} \notag \\ ノイズ &=& \int \int \{ h(\bm{x}) -t\}^2 p(\bm{x},t) d\bm{x}dt \end{eqnarray} となる。 \textcolor{blue}{ ここで言っているデータの期待値を考えるというのは、データ集合$\{(\bm{x}_{i},t_{i})\}$に対して \begin{eqnarray} \prod_{i=1}^{N}\int p(\bm{x}_{i},t_{i}) d\bm{x}_{i}dt_{i} \end{eqnarray} を考えるということである。 } \section{ベイズ線形回帰} \subsection{パラメータの分布} ここではモデルパラメータの事前分布 \begin{eqnarray} p(\bm{w}) = \mathcal{N}(\bm{w}|\bm{m}_{0},\bm{S}_{0}) \end{eqnarray} を考える。 \textcolor{blue}{ この問題では、与えられたデータ$\bm{X}=(\bm{x}_{1},\cdots,\bm{x}_{N}) ,\bm{t} = (t_{1},\cdots,t_{N})$に対して$p(\bm{w}|\bm{t},\bm{X})$を考える。対応するベイズの定理は \begin{eqnarray} p(\bm{w}|\bm{t},\bm{X}) p(\bm{t},\bm{X}) = p(\bm{t}|\bm{X},\bm{w})p(\bm{X}|\bm{w})p(\bm{w}) \end{eqnarray} である。この問題では$\bm{X}$は$\bm{w}$に依存しない、すなわち$p(\bm{X}|\bm{w})$は$\bm{w}$によらないため \begin{eqnarray} p(\bm{w}|\bm{t},\bm{X}) \propto p(\bm{t}|\bm{X},\bm{w})p(\bm{w}) \end{eqnarray} である。 } 3.1.1節の尤度関数 \begin{eqnarray} p(\bm{t}|\bm{X},\bm{w},\beta) = \prod_{n=1}^{N}\mathcal{N}(t_{n}|\bm{w}^{T}\bm{\phi}(\bm{x_{n}}),\beta^{-1}) \end{eqnarray} を用いると、 \begin{eqnarray} p(\bm{w}|\bm{t},\bm{X})&=& \mathcal{N}(\bm{w}|\bm{m}_{N},\bm{S}_{N}) \notag \\ \bm{m}_{N} &=& \bm{S}_{N}\left( \bm{S}_{0}^{-1}\bm{m}_{0} + \beta \bm{\Phi}^{T}\bm{t} \right) \notag \\ \bm{S}_{N}^{-1} &=& \bm{S}_{0}^{-1} + \beta \bm{\Phi}^{T}\bm{\Phi} \end{eqnarray} を得る。ただし$\phi_{i}(\bm{x}_{n}) = \Phi_{ni}$である。 \subsection{予測分布} 実際的な場面では、$\bm{w}$の値そのものよりも、新しい$\bm{x}$に対する$t$の値を予測したいのであって、それは、 \begin{eqnarray} p(t|\bm{x},\bm{t},\bm{X}) = \int p(t|\bm{x},\bm{w})p(\bm{w}|\bm{t},\bm{X})d\bm{w} \end{eqnarray} で与えられる。 \begin{eqnarray} p(t|\bm{x},\bm{w},\beta) &=& \mathcal{N}(t|\bm{w}^{T}\phi(\bm{x}),\beta^{-1}) \notag \\ p(\bm{w}|\bm{t},\bm{X},\beta) &=& \mathcal{N}(\bm{w}|\bm{m}_{N},\bm{S}_{N}) \end{eqnarray} を考えると、 \begin{eqnarray} p(t|\bm{x},\bm{t},\bm{X}) &=& \mathcal{N}(t|\bm{m}_{N}^{T}\bm{\phi}(\bm{x}),\sigma_{N}^{2}(\bm{x})) \notag \\ \sigma_{N}^{2}(\bm{x}) &=& \frac{1}{\beta} + \bm{\phi}(\bm{x})^{T}\bm{S}_{N}\bm{\phi}(\bm{x}) \end{eqnarray} を得る。 \subsection{等価カーネル} $\bm{w}$の事前分布の平均値を$0$とすると \begin{eqnarray} \bm{m}_{N} &=& \beta \bm{S}_{N}\bm{\Phi}^{T}\bm{t} \end{eqnarray} となる。これを用いると \begin{eqnarray} y(\bm{x},\bm{m}_{N}) = \bm{m}_{N}^{T}\bm{\phi}(\bm{x}) = \beta \bm{\phi}(\bm{x})^{T}\bm{S}_{N}\bm{\Phi}^{T}\bm{t} = \sum_{n=1}^{N}\beta \bm{\phi}(\bm{x})^{T}\bm{S}_{N}\bm{\phi}(\bm{x}_{n})t_{n} \end{eqnarray} を得る。ここで等価カーネルと呼ばれる関数 \begin{eqnarray} k(\bm{x},\bm{x}') = \beta \bm{\phi}(\bm{x})^{T} \bm{S}_{N}\bm{\phi}(\bm{x}') \end{eqnarray} を定義すると \begin{eqnarray} y(\bm{x},\bm{m}_{N}) = \sum_{n=1}^{N}k(\bm{x},\bm{x}_{n})t_{n} \end{eqnarray} が成り立つ。なお、等価カーネルはその関数の定義が$\bm{S}_{N}$を通してデータ集合$\bm{x}_{n}$に依存している。 \textcolor{blue}{ また、$\bm{w}$の事前分布の分散が大きい極限では \begin{eqnarray} \bm{S}_{N}^{-1} = \beta \bm{\Phi}^{T}\bm{\Phi} \end{eqnarray} が成り立つ。この状況の下では、 \begin{eqnarray} \sum_{n=1}^{N}k(\bm{x},\bm{x}_{n}) = 1 \end{eqnarray} が全ての$\bm{x}$について成り立つ。（本文には書いてないが、演習3.14の書き方からしても、$\bm{w}$の事前分布の分散が大きい極限であることは上の式が成り立つ必要条件になっているはず。）これは以下のように証明する。 \begin{eqnarray} \sum_{n=1}^{N}k(\bm{x},\bm{x}_{n}) &=& \beta \sum_{n}\sum_{ij}\phi_{i}(\bm{x})S_{Nij}\phi_{j}(\bm{x}_{n}) \notag \\ &=& \beta \sum_{n}\sum_{ij}\phi_{i}(\bm{x})S_{Nij}\phi_{j}(\bm{x}_{n})\phi_{0}(\bm{x}_{n}) \notag \\ &=& \sum_{i}\phi_{i}(\bm{x})I_{i0} \notag \\ &=& 1 \end{eqnarray} } \section{ベイズモデル比較} 省略 \section{エビデンス近似} 本節では、超パラメータの事前分布を導入することを考える。 \textcolor{blue}{その前に数式などを確認しておく。その際本文に合わせ、関数形の表記からは新しい入力$\bm{x}$を省略する。起点となるのは、目標変数$t$を決定論的な関数$y(\bm{x},\bm{w})$と加法性のガウスノイズの和で表す \begin{eqnarray} p(t|\bm{w},\beta) = \mathcal{N}(t|y(\bm{x},\bm{w}),\beta^{-1}) \end{eqnarray} である。 $\bm{w}$についての事前分布を \begin{eqnarray} p(\bm{w}|\alpha) = \mathcal{N}(\bm{w}|\bm{0},\alpha^{-1}\bm{I}) \end{eqnarray} とすると、データを与えた後の事後分布は \begin{eqnarray} p(\bm{w}|\bm{t},\alpha,\beta) &=& \mathcal{N}(\bm{w}|\bm{m}_{N},\bm{S}_{N}) \notag \\ \bm{m}_{N} &=& \beta \bm{S}_{N} \bm{\Phi}^{T} \bm{t} \notag \\ \bm{S}_{N}^{-1} &=& \alpha \bm{I} + \beta \bm{\Phi}^{T} \bm{\Phi} \end{eqnarray} で与えられる。 } ここで$\alpha,\beta$の事前分布を導入すると、予測分布の表式は \begin{eqnarray} p(t|\bm{t}) = \int\int\int p(t|\bm{w},\beta)p(\bm{w}|\bm{t},\alpha,\beta)p(\alpha,\beta|\bm{t}) d\bm{w}d\alpha d\beta \end{eqnarray} となる。ベイズの定理によると \begin{eqnarray} p(\alpha,\beta|\bm{t}) \propto p(\bm{t}|\alpha,\beta)p(\alpha,\beta) \end{eqnarray} である。 \subsection{エビデンス関数の評価} 周辺尤度関数$p(\bm{t}|\alpha,\beta)$は \begin{eqnarray} p(\bm{t}|\alpha,\beta) = \int p(\bm{t}|\bm{w},\beta)p(\bm{w}|\alpha)d\bm{w} \end{eqnarray} であり計算を実行すると \begin{eqnarray} p(\bm{t}|\alpha,\beta) &=& \left( \frac{\beta}{2\pi} \right) ^{N/2} \left( \frac{\alpha}{2\pi} \right) ^{M/2} \int \exp \{-E(\bm{w})\} d\bm{w} \notag \\ E(\bm{w}) &=& \beta E_{D}(\bm{w}) + \alpha E_{W}(\bm{w}) \notag \\ &=& \frac{\beta}{2} || \bm{t} - \bm{\Phi}\bm{w} ||^2 + \frac{\alpha}{2} \bm{w}^{T}\bm{w} \end{eqnarray} となり、さらに計算を進めると \begin{eqnarray} \int \exp\{ -E(\bm{w}) \} d\bm{w} = \exp\{ -E(\bm{m}_{N}) \} (2\pi)^{M/2} |\bm{S}_{N}^{-1}|^{-1/2} \end{eqnarray} となり、 \begin{eqnarray} \ln p(\bm{t}|\alpha,\beta) = \frac{M}{2} \ln \alpha + \frac{N}{2} \ln \beta - E(\bm{m}_{N}) - \frac{1}{2} \ln|\bm{S}_{N}^{-1}| - \frac{N}{2} \ln(2\pi) \end{eqnarray} となる。 \subsection{エビデンス関数の最大化} \textcolor{blue}{ 周辺尤度の対数を微分する過程で、本文の(3.89)式で$\bm{m}_{N}$が$\alpha$に依存されることが無視されているように見えるので保留。} \subsection{有効パラメータ数} 省略 \section{固定された基底関数の限界} 省略 \chapter{線形識別モデル} 本章では、ある入力ベクトル$\bm{x}$を$K$個の離散クラス$\mathcal{C}_{k}$に割り当てる問題を考える。 \section{識別関数} \subsection{2クラス} $K=2$の場合に最も簡単な識別関数の表現は \begin{eqnarray} y(\bm{x}) = \bm{w}^{T}\bm{x} + w_{0} \end{eqnarray} を考え、入力ベクトル$\bm{x}$を$y(\bm{x})\leq 0$ならば$\mathcal{C}_{1}$に、$y(\bm{x})< 0$ならば$\mathcal{C}_{2}$に割り当てることである。 \subsection{多クラス} 前節の内容を多クラスに一般化することを考える。それには、$K$個の線形関数 \begin{eqnarray} y_{k}(\bm{x}) = \bm{w}_{k}^{T}\bm{x} + w_{k0} \end{eqnarray} を用いて、全ての$j\neq k$に対して$y_{k}(\bm{x}) > y_{j}(\bm{x})$である場合、点$\bm{x}$をクラス$\mathcal{C}_{k}$に割り当てればよい。この場合2点$\bm{x}_{A},\bm{x}_{B}$が決定領域$\mathcal{R}_{k}$に属するとすると、2点を結ぶ線分上の点も$\bm{x}_{C}$もまた$\mathcal{R}_{k}$に属する。これは以下のように証明できる。 \begin{eqnarray} y_{k}(\bm{x}_{C}) &=& y_{k}(\lambda\bm{x}_{A} + (1-\lambda)\bm{x}_{B}) \notag \\ &=& \lambda y_{k}(\bm{x}_{A}) + (1-\lambda)y_{k}(\bm{x}_{B}) \notag \\ &\geq& \lambda y_{j}(\bm{x}_{A}) + (1-\lambda)y_{j}(\bm{x}_{B}) \notag \\ &=& y_{j}(\bm{x}_{C}) \end{eqnarray} \subsection{分類における最小二乗} \textcolor{blue}{ この節では3.1節の手法を線形識別にそのまま用いることを考える。それには、各クラスに対応する目的変数ベクトル$\bm{t}$を$1$-of-$K$符号化法により定めて、 \begin{eqnarray} y_{k}(\bm{x}) = \sum_{j=0}^{D}w_{kj}\phi_{j}(\bm{x}) \end{eqnarray} を考えて、$\phi_{0}(\bm{x}) = 1$および$\phi_{j}(\bm{x}) = x_{j}\ (j\geq1)$を考えればよい。 $\tilde{\bm{x}} = (1,\bm{x}^{T})^{T}$とすれば $K$個の要素は行列の表式で \begin{eqnarray} \bm{y}(\bm{x}) = \tilde{\bm{W}}^{T}\tilde{\bm{x}} \end{eqnarray} と書ける。 $\phi_{i}(\bm{x}_{n})=\Phi_{ni}$としたのと同様に、$\tilde{\bm{X}}_{ni} = \tilde{\bm{x}}_{ni}$ と定義すれば \begin{eqnarray} \tilde{\bm{W}} = \left( \tilde{\bm{X}}^{T}\tilde{\bm{X}} \right)^{-1} \tilde{\bm{X}}^{T} \bm{T} \end{eqnarray} を得る。演習4.2は長いので省略 } \subsection{フィッシャーの線形判別} 2クラスの分類を次元の削減という観点から考える。 $D$次元の入力ベクトルを得て、それを1次元に射影することを考える。すなわち \begin{eqnarray} y = \bm{w}^{T}\bm{x} \end{eqnarray} を考える。また、クラス$\mathcal{C}_{1}$とクラス$\mathcal{C}_{2}$の平均ベクトル \begin{eqnarray} \bm{m}_{1} = \frac{1}{N_1}\sum_{n\in \mathcal{C}_{1}}\bm{x}_{n}, \quad \bm{m}_{2} = \frac{1}{N_2}\sum_{n\in \mathcal{C}_{2}}\bm{x}_{n}, \quad \end{eqnarray} を考える。 \begin{eqnarray} m_{k} = \bm{w}^{T}\bm{m}_{k} \end{eqnarray} を定義した時に \begin{eqnarray} m_{2}-m_{1} = \bm{w}^{T}(\bm{m}_{2}-\bm{m}_{1}) \end{eqnarray} の値が大きいベクトルは、2つのクラスを分類する適切なベクトルであると考えられる。さらに、クラス内の分散 \begin{eqnarray} s_{k}^{2} = \sum_{n\in \mathcal{C}_{k}}(\bm{w}^{T}\bm{x}_{n} -m_{k})^2 \end{eqnarray} は小さい方が、各クラスを特徴づける適切なベクトルであると考えられる。そこで、フィッシャーの判別基準 \begin{eqnarray} J(\bm{w}) = \frac{(m_{2}-m_{1})^2}{s_{1}^{2}+s_{2}^{2}} \end{eqnarray} を最大化することを考える。これは各量の定義から \begin{eqnarray} J(\bm{w}) &=& \frac{\bm{w}^{T}\bm{S}_{\mathrm{B}}\bm{w}}{\bm{w}^{T}\bm{S}_{\mathrm{W}}\bm{w}} \notag \\ \mathrm{S}_{\mathrm{B}} &=& (\bm{m}_{2}-\bm{m}_{1}) (\bm{m}_{2}-\bm{m}_{1})^{T} \notag \\ \mathrm{S}_{\mathrm{W}} &=& \sum_{n\in \mathcal{C}_{1}} (\bm{x}_{n}-\bm{m}_{1}) (\bm{x}_{n}-\bm{m}_{1})^{T} + \sum_{n\in \mathcal{C}_{2}} (\bm{x}_{n}-\bm{m}_{2}) (\bm{x}_{n}-\bm{m}_{2})^{T} \notag \\ \end{eqnarray} となり、これを$\bm{w}$に関して微分することで \textcolor{blue}{(この場合は本文(4.22)と異なり分母にも$\bm{w}$があるためにラグランジュ未定乗数は必要ない)} \begin{eqnarray} (\bm{w}^{T}\bm{S}_{\mathrm{B}}\bm{w})\bm{S}_{\mathrm{W}}\bm{w} = (\bm{w}^{T}\bm{S}_{\mathrm{W}}\bm{w})\bm{S}_{\mathrm{B}}\bm{w} \end{eqnarray} を得る。$\bm{S}_{\mathrm{B}}\bm{w}$が常に$(\bm{m}_{2}-\bm{m}_{1})$の方向を向いていること、$\bm{w}$はその方向だけが重要であることから \begin{eqnarray} \bm{w} \propto \bm{S}_{\mathrm{W}}^{-1}(\bm{m}_{2}-\bm{m}_{1}) \end{eqnarray} がわかる。 \subsection{最小二乗との関連} 省略 \subsection{多クラスにおけるフィッシャーの判別} 省略 \subsection{パーセプトロンアルゴリズム} 省略 \section{確率的生成モデル} ここでは、クラスの条件付き確率密度$p(\bm{x}|\mathcal{C}_{k})$とクラスの事前確率$p(\mathcal{C}_{k})$をモデル化する生成的アプローチを考える。 2クラスの場合、事後確率は \begin{eqnarray} p(\mathcal{C}_{1}|\bm{x}) &=& \frac{p(\bm{x}|\mathcal{C}_{1})p(\mathcal{C}_{1})}{p(\bm{x}|\mathcal{C}_{1})p(\mathcal{C}_{1})+p(\bm{x}|\mathcal{C}_{2})p(\mathcal{C}_{2})} \notag \\ &=& \frac{1}{1+\exp(-a)} = \sigma(a) \end{eqnarray} となる。ここで \begin{eqnarray} a = \ln \frac{p(\bm{x}|\mathcal{C}_{2})p(\mathcal{C}_{2})}{p(\bm{x}|\mathcal{C}_{2})p(\mathcal{C}_{2})} \end{eqnarray} $\sigma(a)$はロジスティックシグモイド関数である。また$K>2$クラスの場合、事後確率は \begin{eqnarray} p(\mathcal{C}_{k}|\bm{x}) &=& \frac{p(\bm{x}|\mathcal{C}_{k})p(\mathcal{C}_{k})}{\sum_{j}p(\bm{x}|\mathcal{C}_{j})p(\mathcal{C}_{j})} \notag \\ &=& \frac{\exp(a_{k})}{\sum_{j}\exp(a_{j})} \end{eqnarray} で与えられる。ただし \begin{eqnarray} a_{k} = \ln(p(\bm{x}|\mathcal{C}_{k})p(\mathcal{C}_{k})) \end{eqnarray} である。 \subsection{連続値入力} クラス$\mathcal{C}_{k}$の確率密度が \begin{eqnarray} p(\bm{x}|\mathcal{C}_{k}) = \frac{1}{(2\pi)^{D/2}|\bm{\Sigma}|^{1/2}} \exp \left \{ -\frac{1}{2}(\bm{x}-\bm{\mu}_{k})^{T} \bm{\Sigma}^{-1}(\bm{x}-\bm{\mu}_{k}) \right \} \end{eqnarray} の場合を考える。 2クラスの場合は \begin{eqnarray} p(\mathcal{C}_{1}|\bm{x}) &=& \sigma(\bm{w}^{T}\bm{x} + w_{0}) \notag \\ \bm{w} &=& \bm{\Sigma}^{-1}(\bm{\mu}_{1}-\bm{\mu}_{2}) \notag \\ w_{0} &=& -\frac{1}{2}\bm{\mu}_{1}^{T}\bm{\Sigma}^{-1}\bm{\mu}_{1} + \frac{1}{2}\bm{\mu}_{2}^{T}\bm{\Sigma}^{-1}\bm{\mu}_{2} + \ln \frac{p(\mathcal{C}_{1})}{p(\mathcal{C}_{2})} \end{eqnarray} を得る。多クラスの場合は \begin{eqnarray} p(\mathcal{C}_{k}|\bm{x}) &=& \frac{\exp(a_{k}(\bm{x}))}{\sum_{j}\exp(a_{j}(\bm{x}))} \notag \\ a_{k}(\bm{x}) &=& \bm{w}_{k}^{T}\bm{x} + w_{k0} \notag \\ \bm{w}_{k} &=& \bm{\Sigma}^{-1}\bm{\mu}_{k} \notag \\ w_{k0} &=& -\frac{1}{2} \bm{\mu}_{k}^{T}\bm{\Sigma}^{-1}\bm{\mu}_{k} + \ln p(\mathcal{C}_{k}) \end{eqnarray} \subsection{最尤解} 2クラス分類の問題を考えて、各クラスの事前確率を$p(\mathcal{C}_{1})=\pi,\ p(\mathcal{C}_{2})=1-\pi$と仮定し、各クラスの条件付き確率密度をガウス分布とすると \begin{eqnarray} p(\bm{x}_{n},\mathcal{C}_{1}) &=& p(\mathcal{C}_{1})p(\bm{x}_{n}|\mathcal{C}_{1}) = \pi \mathcal{N}(\bm{x}_{n}|\bm{\mu}_{1},\bm{\Sigma}) \notag \\ p(\bm{x}_{n},\mathcal{C}_{2}) &=& p(\mathcal{C}_{2})p(\bm{x}_{n}|\mathcal{C}_{2}) = (1-\pi) \mathcal{N}(\bm{x}_{n}|\bm{\mu}_{2},\bm{\Sigma}) \end{eqnarray} となる。ここでは、データ集合$\{ \bm{x}_{n},t_{n} \}$が与えられた場合の各パラメータの最尤解を考える。ただし、$t_{n}=1$がクラス$\mathcal{C}_{1}$に$t_{n}=0$がクラス$\mathcal{C}_{2}$にそれぞれ対応する。尤度関数は \begin{eqnarray} p(\bm{t},\bm{X}|\pi, \bm{\mu}_{1}, \bm{\mu}_{2}, \bm{\Sigma}) = \prod_{n=1}^{N} [\pi\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{1},\bm{\Sigma})]^{t_{n}} [(1-\pi)\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{2},\bm{\Sigma})]^{1-t_{n}} \notag \\ \end{eqnarray} で与えられ、各パラメータに対する対数の微分を0とおくと \begin{eqnarray} \pi &=& \frac{N_{1}}{N_{1}+N_{2}} \notag \\ \bm{\mu}_{1} &=& \frac{1}{N_{1}} \sum_{n=1}^{N}t_{n}\bm{x}_{n} \notag \\ \bm{\mu}_{2} &=& \frac{1}{N_{2}} \sum_{n=2}^{N}(1-t_{n}) \bm{x}_{n} \notag \\ \bm{\Sigma} &=& \frac{N_{1}}{N} \bm{S}_{1} + \frac{N_{2}}{N} \bm{S}_{2} \notag \\ \bm{S}_{i} &=& \frac{1}{N_{i}} \sum_{n\in \mathcal{C}_{1}} (\bm{x}-\bm{u}_{i}) (\bm{x}-\bm{u}_{i})^{T} \end{eqnarray} を得る。ここで$N_{i}$はクラス$\mathcal{C}_{i}$に属するデータ点の個数である。 \subsection{離散特徴} 省略 \subsection{指数型分布族} 省略 \section{確率的識別モデル} \subsection{固定既定関数} 省略 \subsection{ロジスティック回帰} 2クラス分類問題における一般化線形モデルを考える。このモデルでは、特徴ベクトル$\bm{\phi}$が与えられたときのクラス$\mathcal{C}_{1}$の事後確率は \begin{eqnarray} p(\mathcal{C}_{1}|\bm{\phi}) = y(\bm{\phi}) = \sigma(\bm{w}^{T}\bm{\phi}) \end{eqnarray} と与えられる。 \textcolor{blue}{ここで$\bm{\phi}$を用いているのは、特徴ベクトル$\bm{\phi}$が入力$\bm{x}$の関数であっても議論が成立するためと考えられる} ここではこのモデルのパラメータを最尤法を用いて決定する。データ集合に対する尤度関数は \begin{eqnarray} p(\bm{t}|\bm{w}) = \prod_{n=1}^{N}y_{n}^{t_{n}}(1-y_{n})^{1-t_{n}} \end{eqnarray} となる。ただし$y_{n}=p(\mathcal{C}_{1}|\bm{\phi}_{n})$である。尤度の負の対数を誤差関数とすると、 \begin{eqnarray} E(\bm{w}) = -\ln p(\bm{t}|\bm{w}) = -\sum_{n=1}^{N} \{ t_{n}\ln y_{n} + (1-t_{n})\ln(1-y_{n}) \} \end{eqnarray} となる。ここで$y_{n}=\sigma(\bm{w}^{T}\bm{\phi}_{n})$である。これを$\bm{w}$について微分すると \begin{eqnarray} \nabla E(\bm{w}) = \sum_{n=1}^{N}(y_{n}-t_{n})\bm{\phi}_{n} \end{eqnarray} が得られる。 \textcolor{blue}{この手法を用いると図4.5の右の分類ができるらしいのだけれど、よくわからない。} \subsection{反復再重みづけ最小二乗} 関数$E(\bm{w})$を最小化するために \begin{eqnarray} \bm{w}^{\mathrm{(new)}} &=& \bm{w}^{\mathrm{(old)}} - \bm{H}^{-1}\nabla E(\bm{w}) \notag \\ \bm{H} &=& \nabla\nabla E(\bm{w}) \end{eqnarray} により順次ベクトルを更新していく手法をニュートン‐ラフソン法という。線形回帰モデルにおける二乗和誤差関数 \begin{eqnarray} E_{\mathrm{D}}(\bm{w}) = \frac{1}{2}\sum_{n=1}^{N} \{ t_{n} - \bm{w}^{T}\bm{\phi}(\bm{x}_{n}) \}^2 \end{eqnarray} の場合 \begin{eqnarray} \nabla E(\bm{w}) &=& \sum_{n=1}^{N}(\bm{w}^{T}\bm{\phi}_{n}-t_{n})\bm{\phi}_{n} = \bm{\Phi}^{T}\bm{\Phi}\bm{w}-\bm{\Phi}^{T}\bm{t} \notag \\ \bm{H} = \nabla\nabla E(\bm{w}) &=& \bm{\Phi}^{T}\bm{\Phi} \end{eqnarray} であるため \begin{eqnarray} \bm{w}^{\mathrm{(new)}} &=& \bm{w}^{\mathrm{(old)}} - (\bm{\Phi}^{T}\bm{\Phi})^{-1} \left\{ \bm{\Phi}^{T}\bm{\Phi}\bm{w}-\bm{\Phi}^{T}\bm{t} \right\} \notag \\ &=& (\bm{\Phi}^{T}\bm{\Phi})^{-1} \bm{\Phi}^{T} \bm{t} \end{eqnarray} となるため、一度で最小二乗解に到達する。これは誤差関数が$\bm{w}$の二次関数だからである。一方ロジスティック回帰の交差エントロピー誤差関数の場合 \begin{eqnarray} \nabla E(\bm{w}) &=& \sum_{n=1}^{N}(y_{n}-t_{n})\bm{\phi}_{n} = \bm{\Phi}^{T}(\bm{y}-\bm{t}) \notag \\ \bm{H} &=& \sum_{n=1}^{N}y_{n}(1-y_{n})\bm{\phi}_{n}\bm{\phi}_{n}^{T} = \bm{\Phi}^{T}\bm{R}\bm{\Phi} \end{eqnarray} となる。ここで$\bm{R}$は \begin{eqnarray} R_{nn} = y_{n}(1-y_{n}) \end{eqnarray} を満たす対角行列である。 \subsection{多クラスロジスティック回帰} 多クラスの事後確率は \begin{eqnarray} p(\mathcal{C}_{k}|\bm{\phi}) = y_{k}(\bm{\phi}) = \frac{\exp(a_{k})}{\sum_{j}\exp(a_{j})} \end{eqnarray} と与えられるが、ここでは \begin{eqnarray} a_{k} = \bm{w}_{k}^{T}\bm{\phi} \end{eqnarray} となるモデルを考え、最尤法を用いて$\bm{w}_{k}$を決定する。目的変数ベクトルについては1-of-K符号化法を使うことで、与えられたデータに関する尤度関数は$y_{k}(\bm{\phi}_{n})=y_{nk}$と書いて \begin{eqnarray} p(\bm{T}|\bm{w}_{1},\cdots,\bm{w}_{K}) = \prod_{n=1}^{N}\prod_{k=1}^{K}p(\mathcal{C}_{k}|\bm{\phi}_{n})^{t_{nk}} = \prod_{n=1}^{N}\prod_{k=1}^{K}y_{nk}^{t_{nk}} \end{eqnarray} であり、負の対数を取ると、 \begin{eqnarray} E(\bm{w}_{1},\cdots,\bm{w}_{K}) = -\ln p(\bm{T}|\bm{w}_{1},\cdots,\bm{w}_{K}) = -\sum_{n=1}^{N}\sum_{k=1}^{K}t_{nk}\ln y_{nk} \end{eqnarray} となる。この勾配は \begin{eqnarray} \nabla_{\bm{w}_{j}} E(\bm{w}_{1},\cdots,\bm{w}_{K}) = \sum_{n=1}^{N}(y_{nj}-t_{nj})\bm{\phi}_{n} \end{eqnarray} で与えられ、ヘッセ行列の$M\times M$サイズのブロックは \begin{eqnarray} \nabla_{\bm{w}_{k}} \nabla_{\bm{w}_{j}} E(\bm{w}_{1},\cdots,\bm{w}_{K}) &=& \sum_{n=1}^{N}y_{nk}(I_{kj}-y_{nj})\bm{\phi}_{n}\bm{\phi}_{n}^{T} \end{eqnarray} で与えられる。 \textcolor{blue}{このヘッセ行列の半正定値性は以下のようにして示すことができる。ヘッセ行列を$\bm{H}$と書き、ベクトルを$\bm{v}=(\bm{v}_{1}^{T},\cdots,\bm{v}_{K}^{T})^{T}$と書くことにすると、 \begin{eqnarray} \bm{v}^{T}\bm{H}\bm{v} &=& \sum_{n=1}^{N}\sum_{k,j=1}^{K}y_{nk}(I_{kj}-y_{nj})\bm{v}_{k}^{T}\bm{\phi}_{n}\bm{\phi}_{n}^{T}\bm{v}_{j} \notag \\ \sum_{k,j=1}^{K}y_{nk}(I_{kj}-y_{nj})\bm{v}_{k}^{T}\bm{\phi}_{n}\bm{\phi}_{n}^{T}\bm{v}_{j} &=& \sum_{k}y_{nk}(\bm{v}^{T}\bm{\phi}_{k})^{2} - \left(\sum_{k}y_{nk}\bm{v}_{k}^{T}\bm{\phi}_{k} \right)^{2} \notag \\ &=& \sum_{k}y_{nk}\left(a_{k}-\sum_{j}y_{nj}a_{j}\right)^{2} \geq 0 \end{eqnarray} より。ここで$a_{k} = \bm{v}_{k}^{T}\bm{\phi}_{n}$とした。 } \subsection{正準連結関数} \textcolor{blue}{この節の内容は線形識別モデルに限った話ではないように思える。} 入力$\bm{\phi}$に対する出力$t$が存在する系に対して、以下の式で与えられる確率分布を考える。 \begin{eqnarray} p(t|\eta=\psi(f(\bm{w}^{T}\bm{\phi})),s) = \frac{1}{s}h\left(\frac{t}{s}\right)g(\eta) \exp \left \{ \frac{\eta t}{s} \right \} \end{eqnarray} ここで関数$g$は規格化因子であり \begin{eqnarray} g(\eta) = \frac{1}{\int \frac{1}{s}h\left(\frac{t}{s}\right) \exp \left \{ \frac{\eta t}{s} \right \}dt } \end{eqnarray} である。また$y$で表現される$t$の条件付き平均が \begin{eqnarray} y \equiv \mathbb[t|\eta] = -s\frac{d}{d\eta}\ln g(\eta) \end{eqnarray} で与えられるが、$y$と$\eta$のこの関係を表すのが関数$\eta = \psi(y)$である。 $f$は何らかの非線形関数である。このモデルを一般化線形モデルという。このモデルについて、データが与えられた場合の$\bm{w}$を最尤法で考える。データ$\{\bm{\phi}_{n}, t_{n} \}$が与えられた場合の対数尤度関数は \begin{eqnarray} \ln p(\bm{t}|\eta,s) &=& \sum_{n=1}^{N}\ln p(t_{n}|\eta_{n},s) \notag \\ &=& \sum_{n=1}^{N} \left \{ \ln g(\eta_{n}) + \frac{\eta_{n}t_{n}}{s} \right \} + \bm{w}によらない定数 \end{eqnarray} で与えられる。これを$\bm{w}$で微分すると \begin{eqnarray} \nabla_{\bm{w}} \ln p(\bm{t}|\eta,s) &=& \sum_{n=1}^{N} \left \{ \frac{d}{d\eta_{n}} \ln g(\eta_{n}) + \frac{t_{n}}{s} \right \} \frac{d\eta_{n}}{dy_{n}} \frac{dy_{n}}{da_{n}} \nabla a_{n} \notag \\ &=& \sum_{n=1}^{N}\frac{1}{s} \{ t_{n}-y_{n} \} \psi'(y_{n}) f' (a_{n})\bm{\phi_{n}} \end{eqnarray} ここで$a_{n}=\bm{w}^{T}\bm{\phi}$である。ここで \begin{eqnarray} f^{-1}(y) = \psi(y) \end{eqnarray} となるように関数$f$を選ぶと、$f(\psi(y))=y$より$f'(\psi)\psi'(y)=1$となり、誤差関数の勾配として \begin{eqnarray} \nabla E(\bm{w}) = \frac{1}{s} \sum_{n=1}^{N} \{ y_{n}-t_{n} \} \bm{\phi}_{n} \end{eqnarray} を得る。 \textcolor{blue}{ 難しく書かれているが結局本文(4.124)が成り立つモデルは \begin{eqnarray} p(t|\bm{w}^{T}\bm{\phi},s) = \frac{1}{s}h\left(\frac{t}{s}\right)g(\bm{w}^{T}\bm{\phi}) \exp \left \{ \frac{\bm{w}^{T}\bm{\phi} t}{s} \right \} \end{eqnarray} となるはず。 } \section{ラプラス近似} ある確率分布を、そのモードを平均とするガウス分布で近似する手法をラプラス近似という。すなわち \begin{eqnarray} p(z) = \frac{1}{Z}f(z) \end{eqnarray} に対して、 \begin{eqnarray} \left. \frac{df(z)}{dz}\right|_{z=z_{0}} = 0 \end{eqnarray} なる$z_{0}$を求め、 \begin{eqnarray} A = - \left. \frac{d^2}{dz^2} \ln f(z) \right |_{z=z_{0}} \end{eqnarray} を計算し、 \begin{eqnarray} q(z) = \left( \frac{A}{2\pi} \right)^{1/2} \exp \left \{ -\frac{A}{2}(z-z_{0})^2 \right \} \end{eqnarray} で近似することをいう。多変数の場合も同様である。 \subsection{モデルの比較とBIC} 省略 \section{ベイズロジスティック回帰} この節ではロジスティック回帰のベイズ的な取り扱いについて考える。 \subsection{ラプラス近似} 2クラスのロジスティック回帰問題を考える。すなわち、パラメータ$\bm{w}$が与えられた場合のデータ$\bm{t}$の尤度関数が \begin{eqnarray} p(\bm{t}|\bm{w}) &=& \prod_{n=1}^{N}y_{n}^{t_n} \{ 1-y_{n} \} ^{1-t_{n}} \notag \\ y_{n} &=& \sigma(\bm{w}^{T}\bm{\phi}_{n}) \end{eqnarray} で与えられるモデルで、$\bm{w}$の事前分布がガウス分布により \begin{eqnarray} p(\bm{w}) = \mathcal{N}(\bm{w}|\bm{m}_{0}, \bm{S}_{0}) \end{eqnarray} で与えられるとする。この時事後確率分布は \begin{eqnarray} p(\bm{w}|\bm{t}) \propto p(\bm{w}) p(\bm{t}|\bm{w}) \end{eqnarray} であり、対数尤度関数は \begin{eqnarray} \ln p(\bm{w}|\bm{t}) &=& -\frac{1}{2}(\bm{w}-\bm{m}_{0})^{T}\bm{S}_{0}^{-1}(\bm{w}-\bm{m}_{0}) \notag \\ &+& \sum_{n=1}^{N} \{ t_{n}\ln y_{n} + (1-t_{n})\ln(1-y_{n}) \} + 定数 \end{eqnarray} となる。ラプラス近似を行う場合、2回微分が必要になるが、これは \begin{eqnarray} \bm{S}_{N}^{-1} = -\nabla\nabla \ln p(\bm{w}|\bm{t}) = \bm{S}_{0}^{-1} + \sum_{n=1}^{N}y_{n}(1-y_{n}) \bm{\phi}_{n}\bm{\phi}_{n}^{T} \end{eqnarray} で与えられる。よって、事後確率のラプラス近似の結果として、 \begin{eqnarray} q(\bm{w}) = \mathcal{N}(\bm{w} | \bm{w}_{\mathrm{MAP}}, \bm{S}_{N}) \end{eqnarray} を得る。 \textcolor{blue} {$\bm{w}_{\mathrm{MAP}}$は何らかの反復法などで求められると考えられる。} \subsection{予測分布} 前節の結果に基づき、新たな入力$\bm{\phi}$が与えられた場合の予測分布 \begin{eqnarray} p(\mathcal{C}_{1}|\bm{\phi}, \bm{t}) &=& \int p(\mathcal{C}_{1}|\bm{\phi}, \bm{w}) p(\bm{w}|\bm{t}) d\bm{w} \notag \\ &\approx& \int \sigma(\bm{w}^{T}\bm{\phi})q(\bm{w}) d\bm{w} \end{eqnarray} について考える。デルタ関数を用いると \begin{eqnarray} \sigma(\bm{w}^{T}\bm{\phi}) = \int \delta(a-\bm{w}^{T}\bm{\phi}) \sigma(a)da \end{eqnarray} と書けるため、 \begin{eqnarray} \int \sigma(\bm{w}^{T}\bm{\phi})q(\bm{w}) d\bm{w} &=& \int \sigma(a)p(a)da \notag \\ p(a) &=& \int \delta(a-\bm{w}^{T}\bm{\sigma})q(\bm{w}) d\bm{w} \end{eqnarray} が成り立つ。2.3.2節の結果より、$p(a)$はガウス分布であるから \textcolor{blue}{($\bm{w}$の一つの成分に関する積分を実行すると、その成分が$a$を含む式で置き換わるため。)} 平均と分散がわかれば、分布がわかったことになる。これらは \begin{eqnarray} \mu_{a} &=& \mathbb{E}[a] = \int p(a)ada = \int q(\bm{w}) \bm{w}^{T}\bm{\phi} d\bm{w} = \bm{w}_{\mathrm{MAP}}^{T}\bm{\phi} \notag \\ \sigma_{a}^{2} &=& \mathrm{var}[a] = \int p(a) \{ a^{2}-\mathbb{E}[a]^{2} \} da \notag \\ &=& \int q(\bm{w}) \{ (\bm{w}^{T}\bm{\phi})^2 - (\bm{w}_{\mathrm{MAP}}^{T}\bm{\phi})^2 \} d\bm{w} = \bm{\phi}^{T}\bm{S}_{N}\bm{\phi} \end{eqnarray} により与えられるため、 \begin{eqnarray} p(\mathcal{C}_{1}|\bm{\phi}, \bm{t}) = \int \sigma(a)p(a) da = \int \sigma(a) \mathcal{N}(a|\mu_{a},\sigma_{a}^2) da \end{eqnarray} となる。以下省略。 \chapter{ニューラルネットワーク} \section{フィードフォワードネットワーク関数} 以下ではパラメータベクトル$\bm{w}$で制御される、入力変数の集合$\{x_{i}\}$から出力変数の集合$\{y_{k}\}$への非線形関数 \begin{eqnarray} y_{k}(\bm{w},\bm{w}) &=& \sigma \left( \sum_{j=1}^{M}w_{kj}^{(2)}h\left( \sum_{i=1}^{D}w_{ji}^{(1)}x_{i} + w_{j0}^{(1)} \right) + w_{k0}^{(2)} \right) \notag \\ &=& \sigma \left( \sum_{j=0}^{M}w_{kj}^{(2)}h\left( \sum_{i=0}^{D}w_{ji}^{(1)}x_{i} \right) \right) \end{eqnarray} を考える。ここで関数$h$は何らかの関数である。また、より一般的な図5.2のような構造を持った関数も考えることができて、各ユニットが \begin{eqnarray} z_{k} = h\left( \sum_{j}w_{kj}z_{j} \right) \end{eqnarray} を計算する。 \subsection{重み空間対称性} 省略 \section{ネットワーク訓練} 導入部分に書いてあることは単純なので省略 \subsection{パラメータ最適化} 省略 \subsection{局所二次近似} 省略 \subsection{勾配情報の利用} 省略 \subsection{勾配降下最適化} 省略 \section{誤差逆伝播} \subsection{誤差関数微分の評価} 以下では誤差関数が、訓練集合の各データに対応する誤差項の和 \begin{eqnarray} E(\bm{w}) = \sum_{n=1}^{N}E_{n}(\bm{w}) \end{eqnarray} と表される場合を考える。一般のフィードフォワードネットワークでは、それぞれのユニットの出力が \begin{eqnarray} a_{j} &=& \sum_{i}w_{ji}z_{i} \notag \\ z_{j} &=& h(a_{j}) \end{eqnarray} で与えられる。誤差関数の微分は \begin{eqnarray} \frac{\partial E_{n}}{\partial w_{ji}} &=& \frac{\partial E_{n}}{\partial a_{j}} \frac{\partial a_{j}}{\partial w_{ji}} \notag \\ &=& \delta_{j}z_{i} \end{eqnarray} となる。ただし \begin{eqnarray} \delta_{j} \equiv \frac{\partial E_{n}}{\partial a_{j}} \end{eqnarray} であり、これは誤差とよばれる。これの評価は \begin{eqnarray} \delta_{j} &\equiv& \frac{\partial E_{n}}{\partial a_{j}} = \sum_{k} \frac{\partial E_{n}}{\partial a_{k}} \frac{\partial a_{k}}{\partial a_{j}} \notag \\ &=& h'(a_{j}) \sum_{k}w_{kj}\delta_{k} \end{eqnarray} となっている。すなわち、ユニット$j$の誤差はそれよりも出力に近い側のユニットの誤差に依存しているのであり、逆伝播の公式と呼ばれる。 \subsection{単純な例} 省略 \subsection{逆伝播の効率} 省略 \subsection{ヤコビ行列} ここではネットワークの出力の入力に関する微分 \begin{eqnarray} J_{ki} \equiv \frac{\partial y_{k}}{\partial x_{i}} \end{eqnarray} を考える。これはヤコビ行列と呼ばれ \begin{eqnarray} J_{ki} = \frac{\partial y_{k}}{\partial x_{i}} &=& \sum_{j}\frac{\partial y_{k}}{\partial a_{j}} \frac{\partial a_{j}}{\partial x_{i}} \notag \\ &=& \sum_{j}w_{ji} \frac{\partial y_{k}}{\partial a_{j}} \notag \\ &=& \sum_{j}w_{ji} \sum_{l} \frac{\partial y_{k}}{\partial a_{l}} \frac{\partial a_{l}}{\partial a_{j}} \notag \\ &=& \sum_{j}w_{ji} h'(a_{j}) \sum_{l} w_{lj} \frac{\partial y_{k}}{\partial a_{l}} \end{eqnarray} と逐次的に評価される。 \textcolor{blue}{ 演習5.15と関連するか不明であるが、上の式は \begin{eqnarray} J_{ki} = \frac{\partial y_{k}}{\partial x_{i}} = \sum_{l} \frac{\partial y_{k}}{\partial a_{l}} \sum_{j} w_{lj} h'(a_{j}) w_{ji} \end{eqnarray} と書いた方が理解しやすい気がする。} \section{ヘッセ行列} 以下では誤差関数の2階微分 \begin{eqnarray} \frac{\partial^2 E}{\partial w_{ji}\partial w_{lk}} \end{eqnarray} について考える。 \subsection{対角近似} ヘッセ行列を対角成分だけ考えると \begin{eqnarray} \frac{\partial^2 E}{\partial w_{ji}^2} &=& \frac{\partial^2 E}{\partial a_{j}^2}z_{i}^2 \notag \\ \frac{\partial^2 E}{\partial a_{j}^2} &=& h'(a_{j})^2\sum_{kk'}w_{kj}w_{k'j} \frac{\partial^2 E_{n}}{\partial a_{k}\partial a_{k'}} + h''(a_{j}) \sum_{k}w_{kj}\frac{\partial E_{n}}{\partial a_{k}} \end{eqnarray} を得る。2階微分についての非対角項を無視すると \begin{eqnarray} \frac{\partial^2 E}{\partial a_{j}^2} &\approx& h'(a_{j})^2 \sum_{k} w_{kj}^{2} \frac{\partial^2 E_{n}}{\partial a_{k}^2} + h''(a_{j})\sum_{k} w_{kj} \frac{\partial E_{n}}{\partial a_{k}} \end{eqnarray} \subsection{外積による近似} 回帰問題を考える場合、通常は \begin{eqnarray} E = \frac{1}{2} \sum_{n=1}^{N}(y_{n}-t_{n})^2 \end{eqnarray} の形を考える。このとき、ヘッセ行列は \begin{eqnarray} \bm{H} = \nabla \nabla E = \sum_{n=1}^{N}\nabla y_{n}(\nabla y_{n})^{T} + \sum_{n=1}^{N}(y_{n}-t_{n})\nabla \nabla y_{n} \end{eqnarray} で表されるが、このうち第一項だけでヘッセ行列を近似することを外積による近似という。 \subsection{ヘッセ行列の逆行列} 省略 \subsection{有限幅の差分による近似} 省略 \subsection{ヘッセ行列の厳密な評価} 省略 \subsection{ヘッセ行列の積の高速な計算} 多くの場合、興味ある量はヘッセ行列$\bm{H}$そのものではなく、$\bm{H}$と何らかのベクトル$\bm{v}$の積$\bm{v}^{T}\bm{H}$である。これは \begin{eqnarray} \bm{v}^{T}\bm{H} = \bm{v}^{T}\nabla (\nabla E) \end{eqnarray} で与えられる量であり、以後$\bm{v}^{T}\nabla$を作用させることを$\mathcal{R}\{\cdot\}$とかく。 \textcolor{blue}{より明示的に書けば \begin{eqnarray} \mathcal{R}\{ f \} = \sum_{ij}v_{ij} \frac{\partial }{\partial w_{ij}}f \end{eqnarray} である。 } 2層ネットワーク \begin{eqnarray} a_{j} = \sum_{i}w_{ji}x_{i} \notag \\ z_{j} = h(a_{j}) \notag \\ y_{k} = \sum_{j}w_{kj}z_{j} \end{eqnarray} に対して \begin{eqnarray} \mathcal{R}\{a_{j}\} &=& \sum_{i}v_{ji}x_{i} \notag \\ \mathcal{R}\{z_{j}\} &=& h'(a_{j})\mathcal{R}\{a_{j}\} \notag \\ \mathcal{R}\{y_{k}\} &=& \sum_{j}w_{kj}\mathcal{R}\{z_{j}\} + \sum_{j}v_{kj}z_{j} \end{eqnarray} が成り立つ。また、誤差関数として二乗和誤差関数を考えているので \begin{eqnarray} \delta_{k} &\equiv& \frac{\partial E}{\partial y_{k}} = y_{k} - t_{k} \notag \\ \delta_{j} &\equiv& \frac{\partial E}{\partial a_{j}} = h'(a_{j}) \sum_{k} w_{kj} \delta_{k} \end{eqnarray} であり、 \begin{eqnarray} \mathcal{R}\{ \delta_{k} \} &=& \mathcal{R} \{ y_{k} \} \notag \\ \mathcal{R}\{ \delta_{j} \} &=& h''(a_{j}) \mathcal{R}\{a_{j}\} \sum_{k}w_{kj}\delta_{k} + h'(a_{j})\sum_{k}v_{kj}\delta_{k} + h'(a_{j})\sum_{k}w_{kj}\mathcal{R}\{\delta_{k} \} \notag \\ \end{eqnarray} が成り立つ。最後に誤差関数の1階微分は \begin{eqnarray} \frac{\partial E}{\partial w_{kj}} &=& \delta_{k}z_{j} \notag \\ \frac{\partial E}{\partial w_{ji}} &=& \delta_{j}x_{i} \end{eqnarray} であるため、ベクトル$\bm{v}^{T}\bm{H}$の要素の式 \begin{eqnarray} \mathcal{R} \left \{ \frac{ \partial E}{\partial w_{kj}} \right \} &=& \mathcal{R} \{ \delta_{k} \} z_{j} + \delta_{k}\mathcal{R} \{ z_{j} \} \notag \\ \mathcal{R} \left \{ \frac{ \partial E}{\partial w_{ji}} \right \} &=& x_{i}\mathcal{R} \{ \delta_{j} \} \end{eqnarray} が得られる。 \section{ニューラルネットワークの正則化} ニューラルネットワークの学習でも、過学習を防ぐために、正則化誤差 \begin{eqnarray} \tilde{E}(\bm{w}) = E(\bm{w}) + \frac{\lambda}{2}\bm{w}^{T}\bm{w} \end{eqnarray} を考えることができる。この正則化項は、重みベクトル$\bm{w}$の平均ゼロのガウス事前分布の負の対数と解釈できる。 \subsection{無矛盾なガウス事前分布} 前の式の正則化項は、スケーリングンに関連する限界が存在する。 $\bm{x}$を入力とし$\bm{y}$を出力とする \begin{eqnarray} z_{j} &=& h \left( \sum_{i}w_{ji}x_{i} + w_{j0} \right) \notag \\ y_{k} &=& \sum_{j}w_{kj}z_{j} + w_{k0} \end{eqnarray} なるシステムを考える。このとき、訓練集合$\{(\bm{x}_{n},\bm{t}_{n})\}$に対して得られる$\bm{w}$と、訓練集合$\{(a\bm{x}_{n}+b,\bm{t}_{n})\}$に対して得られる$\tilde{\bm{w}}$の間には \begin{eqnarray} \tilde{w}_{ji} &=& \frac{1}{a}w_{ji} \notag \\ \tilde{w}_{j0} &=& w_{j0} - \frac{b}{a}\sum_{i}w_{ji} \end{eqnarray} の関係があるべきであるが、全ての重みとバイアスを対等に扱う正則化項では、$\lambda$をどのようにスケーリングしてもこの関係が得られない。一方で \begin{eqnarray} \frac{\lambda_{1}}{2}\sum_{w\in \mathcal{W}_{1}}w^2 + \frac{\lambda_{2}}{2}\sum_{w\in \mathcal{W}_{1}}w^2 \end{eqnarray} という正則化項を考えると、$\lambda_{1} \rightarrow a^2 \lambda_{1}$によって、重みの変換のもとでの不変性が保たれる。ここで$\mathcal{W}_{1},\mathcal{W}_{2}$はそれぞれ第1,2層の重みの集合であり、バイアス項は和から除かれている。この正則化項は \begin{eqnarray} p(\bm{w}|\alpha_{1},\alpha_{2}) \propto \exp \left( -\frac{\alpha_{1}}{2} \sum_{w\in \mathcal{W}_{1}}w^2 - \frac{\alpha_{2}}{2} \sum_{w\in \mathcal{W}_{2}}w^2 \right) \end{eqnarray} という事前分布に対応する。 \subsection{早期終了} 省略 \subsection{不変性} 5.5.1節では、線形変換された入力に対して、システムがどのように変換されるかという観点での不変性が考えられたが、次の節では、何らかの変換された入力に対して、同じ出力を与えるようなシステムという観点での不変性を考える。 \subsection{接線伝播法} ある入力$\bm{x}_{n}$への連続的な変換が（例えばある軸での回転のように）1つのパラメータ$\xi$で表されるとする。 $\bm{x}_{n}$にこの変換を作用させて得られるベクトルを$\bm{s}(\bm{x}_{n},\xi)$とし、これは$\bm{s}(\bm{x},0)=\bm{x}$となるように定義されているとする。このとき \begin{eqnarray} \bm{\tau_{n}} = \left. \frac{\partial \bm{s}(\bm{x}_{n},\xi)}{\partial \xi} \right |_{\xi=0} \end{eqnarray} を定義すると、出力$k$の$\xi$に対する微分は \begin{eqnarray} \left. \frac{\partial y_{k}}{\partial \xi} \right|_{\xi=0} = \left. \sum_{i=1}^{D} \frac{\partial y_{k}}{\partial x_{i}} \frac{\partial x_{i}}{\partial \xi} \right |_{\xi=0} = \sum_{i=1}^{D} J_{ki}\tau_{i} \end{eqnarray} となる。これを正則化項に加えることで、不変性を持つように修正することが可能である。すなわち、新しい誤差関数を \begin{eqnarray} \tilde{E} &=& E + \lambda \Omega \notag \\ \Omega &=& \frac{1}{2} \sum_{n}\sum_{k} \left( \left. \frac{\partial y_{nk}}{\partial \xi} \right|_{\xi=0} \right)^2 = \frac{1}{2} \sum_{n}\sum_{k} \left( \sum_{i}^{D}J_{nki}\tau_{ni} \right)^2 \end{eqnarray} とする。 \subsection{変換されたデータを用いた訓練} ベースとなる二乗和誤差関数として \begin{eqnarray} E = \frac{1}{2} \int \int \{ y(\bm{x})-t \}^2p(t|\bm{x}) p(\bm{x}) d\bm{x} dt \end{eqnarray} を考え、前節同様に1つのパラメータ$\xi$で支配される変換を考える。この変換により拡張したデータでの学習による誤差関数は \begin{eqnarray} \tilde{E} = \frac{1}{2} \int \int \int \{ y(s(\bm{x},\xi))-t \}^2p(t|\bm{x}) p(\bm{x}) d\bm{x}p(\xi) dtd\xi \end{eqnarray} であたえられる。分布$p(\xi)$が平均ゼロで小さな分散を持つとして、$\xi$のまわりで$\bm{s}$をテイラー展開することを考えると、 \begin{eqnarray} \bm{s}(\bm{x},\xi) = \bm{x} + \xi \bm{\tau} + \frac{1}{2}\xi^2 \bm{\tau}' + O(\xi^3) \end{eqnarray} を得る。ここで$\bm{\tau}'$は$\xi=0$における$\bm{s}(\bm{x},\xi)$の$\xi$に関する2階微分である。したがってモデル関数は \begin{eqnarray} y(\bm{s}(\bm{x},\xi)) = y(\bm{x}) + \xi \bm{\tau}^{T}\nabla y(\bm{x}) + \frac{\xi^2}{2} \left[ (\bm{\tau}')^{T}\nabla y(\bm{x}) + \bm{\tau}^{T}\nabla\nabla y(\bm{x}) \bm{\tau} \right] + O(\xi^3) \notag \\ \end{eqnarray} となる。これにより平均誤差関数は \begin{eqnarray} \tilde{E} &=& \frac{1}{2} \int \int \{ y(\bm{x})-t \}^2 p(t|\bm{x})p(\bm{x})d\bm{x}dt \notag \\ &+& \mathbb{E}[\xi]\int \int \{ y(\bm{x})-t \} \bm{\tau}^{T}\nabla y(\bm{x})p(t|\bm{x})p(\bm{x}) d\bm{x}dt \notag \\ &+& \mathbb{E}[\xi^2]\frac{1}{2} \int \int \left[ { y(\bm{x})-t } \left\{ (\bm{\tau}')^{T}\nabla y(\bm{x}) + \bm{\tau}^{T}\nabla\nabla y(\bm{x}) \bm{\tau} \right\} \right. \notag \\ &+& \left. (\bm{\tau}^{T}\nabla y(\bm{x}))^2 \right] p(t|\bm{x})p(\bm{x}) d\bm{x}dt + O(\xi^3) \end{eqnarray} を得る。変換の分布の平均は$0$、すなわち$\mathbb{E}[\xi]=0$であり、$\mathbb{E}[\xi^2] = \lambda$とおくことにすると、 \begin{eqnarray} \tilde{E} &=& E + \lambda \Omega \notag \\ \Omega &=& \frac{1}{2} \int \left[ \{ y(\bm{x}) - \mathbb{E}[t|\bm{x}] \} \left\{ (\bm{\tau}')^{T}\nabla y(\bm{x}) + \bm{\tau}^{T}\nabla\nabla y(\bm{x}) \bm{\tau} \right\} \right. \notag \\ &&+ \left. (\bm{\tau}^{T}\nabla y(\bm{x}))^2 \right] p(\bm{x}) d\bm{x} \end{eqnarray} を得る。ところで、1.5.5節より、二乗和誤差を最小化するモデル関数は$\mathbb{E}[t|\bm{x}]$で与えらることと、正則化誤差が正則化していない二乗和に$O(\xi^2)$の大きさの項を加えたものであるから \begin{eqnarray} y(\bm{x}) = \mathbb{E}[t|\bm{x}) + O(\xi^2) \end{eqnarray} となる。したがって、$\Omega$の第一項は無視することができて \begin{eqnarray} \Omega = \frac{1}{2} \int (\bm{\tau}^{T}\nabla y(\bm{x}))^2 p(\bm{x}) d\bm{x} \end{eqnarray} となるが、これは接線伝播法の正則化項と本質的に等価である。 \subsection{たたみ込みニューラルネットワーク} 省略 \subsection{ソフト重み共有} ここでは、重み$\bm{w}$の成分が各々で近い値を取りやすくなるような正則化項を考える。これには、事前分布として混合ガウス分布を用いればよく \begin{eqnarray} p(\bm{w}) &=& \prod_{i}p(w_{i}) \notag \\ p(w_{i}) &=& \sum_{j=1}^{M}\pi_{j} \mathcal{N}(w_{i}|\mu_{j},\sigma_{j}^2) \end{eqnarray} とする。対応する誤差関数は \begin{eqnarray} \tilde{E}(\bm{w}) &=& E(\bm{w}) + \Omega(\bm{w}) \notag \\ \Omega(\bm{w}) &=& -\sum_{i} \ln \left( \sum_{j=1}^{M} \pi_{j} \mathcal{N}(w_{i}|\mu_{j}, \sigma_{j}^{2} ) \right) の形になる。 \end{eqnarray} 微分については \begin{eqnarray} \gamma_{j}(w) = \frac{\pi_{j}\mathcal{N}(w|\mu_{j}, \sigma_{j}^2)} {\sum_{k}\pi_{k} \mathcal{N}(w|\mu_{k},\sigma_{k}^2)} \end{eqnarray} を定義すると \begin{eqnarray} \frac{\partial \tilde{E}}{\partial w_{i}} + \sum_{j}\gamma_{j}(w_{i}) \frac{(w_{i}-\mu_{j})}{\sigma_{j}^2} \end{eqnarray} と書ける。また事前分布のパラメータに対する微分は \begin{eqnarray} \frac{\partial \tilde{E}}{\partial \mu_{j}} &=& \sum_{i}\gamma_{j}(w_{i}) \frac{(\mu_{j}-w_{i})}{\sigma_{j}^2} \notag \\ \frac{\partial \tilde{E}}{\partial \sigma_{j}} &=& \sum_{i} \gamma_{j}(w_{i}) \left( \frac{1}{\sigma_{j}} - \frac{(w_{i}-\mu_{j})^2}{\sigma_{j}^3} \right) \end{eqnarray} で与えられる。また、$\pi_{j}$については$\sum_{j}\pi_{j}=1$および$\pi \geq 0$を考慮して、補助変数$\{\eta_{j}\}$を \begin{eqnarray} \pi_{j} = \frac{\exp(\eta_{j})}{ \sum_{k=1}^{M}\exp(\eta_{k}) } \end{eqnarray} と導入すると \begin{eqnarray} \frac{\partial \tilde{E}}{\partial \eta_{j}} = \sum_{i} \{ \pi_{j} - \gamma_{j}(w_{i}) \} \end{eqnarray} \section{混合密度ネットワーク} ここではモデルの柔軟性をさらに高めるため、 \begin{eqnarray} p(\bm{t}|\bm{x},\bm{w}) = \sum_{k=1}^{K}\pi_{k}(\bm{x},\bm{w}) \mathcal{N}(\bm{t}|,\bm{\mu}_{k}(\bm{x},\bm{w}), \sigma_{k}^{2}(\bm{x},\bm{w})\bm{I}) \end{eqnarray} で与えられるモデルを考える。 \textcolor{blue}{訓練データ$\{(\bm{x_{n}},\bm{t_{n}})\}$が与えられたときに、$\bm{w}$の値を与えることで、 $\pi_{k}(\bm{x},\bm{w}),\bm{\mu}_{k}(\bm{x},\bm{w}),\sigma_{k}^{2}(\bm{x},\bm{w})$の関数形を決めることが目的である。} これは \begin{eqnarray} \pi_{k}&=& \frac{\exp(a_{k}^{\pi})}{\sum_{l=1}^{K}\exp(a_{l}^{\pi})} \notag \\ \sigma_{k} &=& \exp(a_{k}^{\sigma}) \notag \\ \mu_{kj} &=& a_{kj}^{\mu} \end{eqnarray} と置き換えれば、$\bm{w}$をパラメータとした、$\bm{x}$から$\bm{a}$へのニューラルネットワークの問題として考えることができる。最小化するべき誤差関数は \begin{eqnarray} E(\bm{w}) = - \sum_{n=1}^{N} \ln \left \{ \sum_{k=1}^{K}\pi_{k}(\bm{x}_{n},\bm{w})\mathcal{N}(\bm{t}_{n}|\bm{\mu}_{k}(\bm{x}_{n},\bm{w}), \sigma_{k}^{2}(\bm{x}_{n},\bm{w}) \bm{I}) \right \} \end{eqnarray} であり、出力に関する微分は \begin{eqnarray} \gamma_{nk}(\bm{t}_{n}|\bm{x}_{n}) = \frac{\pi_{k}\mathcal{N}(\bm{t}_{n}|\bm{\mu}_{k}(\bm{x}_{n},\bm{w}), \sigma_{k}^{2}(\bm{x}_{n},\bm{w}) \bm{I})} {\sum_{l=1}^{K}\pi_{l}\mathcal{N}(\bm{t}_{n}|\bm{\mu}_{k}(\bm{x}_{n},\bm{w}), \sigma_{k}^{2}(\bm{x}_{n},\bm{w})\bm{I})} \end{eqnarray} を用いると、 \begin{eqnarray} \frac{\partial E_{n}}{\partial a_{k}^{\pi}} &=& \pi_{k} - \gamma_{nk} \notag \\ \frac{\partial E_{n}}{\partial a_{kl}^{\mu}} &=& \gamma_{nk}\left \{ \frac{\mu_{kl}-t_{nl}}{\sigma_{k}^{2}} \right \} \notag \\ \frac{\partial E_{n}}{\partial a_{k}^{\sigma}} &=& \gamma_{nk} \left( L - \frac{||\bm{t}_{n}-\bm{\mu}_{k}||^2}{\sigma_{k}^{2}} \right) \end{eqnarray} と書くことができる。ここで$L$は$\bm{t}$の次元である。 \section{ベイズニューラルネットワーク} \subsection{パラメータの事後分布} ここでは、目標変数$t$を入力ベクトル$\bm{x}$から予測する問題を考える。 $y(\bm{x},\bm{w})$をニューラルネットワークとし、 \begin{eqnarray} p(t|\bm{x},\bm{w},\beta) = \mathcal{N}(t|y(\bm{x},\bm{w}),\beta^{-1}) \end{eqnarray} なるモデルを考える。そして、$\bm{w}$の事前分布を \begin{eqnarray} p(\bm{w}|\alpha) = \mathcal{N}(\bm{w}|\bm{0},\alpha^{-1}\bm{I}) \end{eqnarray} で与えることにすると、与えられたデータに対する尤度関数は \begin{eqnarray} p(\mathcal{D}|\bm{w},\beta) = \prod_{n=1}^{N}\mathcal{N}(t_{n}|y(\bm{x},\bm{w}),\beta^{-1}) \end{eqnarray} となり、事後分布は \begin{eqnarray} p(\bm{w}|\mathcal{D},\alpha,\beta) \propto p(\bm{w}|\alpha)p(\mathcal{D}|\bm{w},\beta) \end{eqnarray} となる。これは$y(\bm{x},\bm{w})$が$\bm{w}$に非線形に依存するため、ガウス分布にはならないのでラプラス近似を用いる。まず、事後分布の(局所)最大値を見つけるため、事後分布の対数 \begin{eqnarray} \ln p(\bm{w}|\mathcal{D}) = -\frac{\alpha}{2}\bm{w}^{T}\bm{w} - \frac{\beta}{2}\sum_{n=1}^{N} \{ y(\bm{x}_{n},\bm{w}) - t_{n} \}^2 + 定数 \end{eqnarray} を反復的数値最適化法で最大化する。モード$\bm{w}_{\mathrm{MAP}}$を見つけたら、 \begin{eqnarray} \bm{A} = -\nabla\nabla \ln p(\bm{w}|\mathcal{D},\alpha,\beta) = \alpha \bm{I} + \beta \bm{H} \end{eqnarray} を用いて$p(\bm{w}|\mathcal{D})$の近似式 \begin{eqnarray} q(\bm{w}|\mathcal{D}) = \mathcal{N}(\bm{w}|\bm{w}_{\mathrm{MAP}},\bm{A}^{-1}) \end{eqnarray} を得る。同様に、新たな$\bm{x}$に対する$t$の予測分布 \begin{eqnarray} p(t|\bm{x},\mathcal{D}) = \int p(t|\bm{x},\bm{w})q(\bm{w}|\mathcal{D}) d\bm{w} \end{eqnarray} が得られるが、やはり解析的には積分を実行できない。そこで、元のニューラルネットワークを \begin{eqnarray} y(\bm{x},\bm{w}) &\sim& y(\bm{x}, \bm{w}_{\mathrm{MAP}}) + \bm{g}^{T}(\bm{w}-\bm{w}_{\mathrm{MAP}}) \notag \\ \bm{g} &=& \nabla_{\bm{w}} y(\bm{x},\bm{w})|_{\bm{w}=\bm{w}_{\mathrm{MAP}}} \end{eqnarray} と近似しすると \begin{eqnarray} p(t|\bm{x},\bm{w},\beta) = \mathcal{N}(t|y(\bm{x},\bm{w}_{\mathrm{MAP}}) + \bm{g}^{T}(\bm{w}-\bm{w}_{\mathrm{MAP}}), \beta^{-1}) \end{eqnarray} となるため、積分を実行することが可能になり、予測分布は \begin{eqnarray} p(t|\bm{x},\mathcal{D},\alpha,\beta) &=& \mathcal{N}(t|y(\bm{x},\bm{w}_{\mathrm{MAP}}),\sigma^{2}(\bm{x})) \notag \\ \sigma^{2}(\bm{x}) &=& \beta^{-1} + \bm{g}^{T}\bm{A}^{-1}\bm{g} \end{eqnarray} となる。 \subsection{超パラメータ最適化} 省略 \subsection{クラス分類のためのベイズニューラルネットワーク} 省略 \chapter{カーネル法} \textcolor{blue}{ カーネル法、カーネル関数の定義が曖昧であるが、訓練データ$\mathcal{D}=\{ (\bm{x}_{n},t_{n}) \}$が与えられたとき新たな入力$\bm{x}$に対する出力の予測$y(\bm{x})$が$k(\bm{x},\bm{x}') = k(\bm{x}',\bm{x})$なる関数を用いて、 \begin{eqnarray} y(\bm{x}) = \sum_{n}k(\bm{x},\bm{x}_{n}) f_{n}(\mathcal{D}) \end{eqnarray} と与えらえる時、$k(\bm{x},\bm{x}')$をカーネル関数、この手法をカーネル法というように思う。} \section{双対表現} 線形回帰モデルで、パラメータ$\bm{w}$が正則化された二乗和誤差関数 \begin{eqnarray} J(\bm{w}) = \frac{1}{2}\sum_{n=1}^{N}\{ \bm{w}^{T}\bm{\phi}(\bm{x}_{n})-t_{n} \}^2 + \frac{\lambda}{2}\bm{w}^{T}\bm{w} \end{eqnarray} を最小化することで与えられるモデルを考える。過程は省略すると \begin{eqnarray} y(\bm{x}) = \bm{w}^{T}\bm{\phi}(\bm{x}) = \bm{k}(\bm{x})^{T}(\bm{K}+\lambda\bm{T}_{N})^{-1}\bm{t} \end{eqnarray} を得る。ここに$\bm{w}$は正則化された二乗和誤差関数を最小化する$\bm{w}$であり、 \begin{eqnarray} \bm{K}_{nm} = \bm{\phi}(\bm{x}_{n})^{T}\bm{\phi}(\bm{x}_{m}) = k(\bm{x}_{n},\bm{x}_{m}) \end{eqnarray} である。 \section{カーネル関数の構成} 省略 \section{RBFネットワーク} 関数が、ある点からの距離のみに依存しているとき、それを動径基底関数(radial basis function)という。例えば、入力変数にノイズが含まれる場合の回帰問題では、二乗和誤差関数が、ノイズの確率分布$\nu(\bm{\xi})$を用いて \begin{eqnarray} E = \frac{1}{2}\sum_{n=1}^{N} \{ y(\bm{x}_{n}+\bm{\xi})-t_{n}\}^2\nu(\bm{\xi})d\bm{\xi} \end{eqnarray} で与えられる。変分法を用いて関数$y(\bm{x})$を求めると \begin{eqnarray} y(\bm{x}) &=& \sum_{n=1}^{N}t_{n}h(\bm{x}-\bm{x}_{n}) \notag \\ h(\bm{x}-\bm{x}_{n}) &=& \frac{\nu(\bm{x}-\bm{x}_{n})}{\sum_{n=1}^{N}\nu(\bm{x}-\bm{x}_{n}) } \end{eqnarray} となる。 \textcolor{blue}{ \begin{eqnarray} E = \frac{1}{2}\sum_{n=1}^{N} \{ y(\bm{x})-t_{n}\}^2\nu(\bm{x}-\bm{x}_{n})d\bm{x} \end{eqnarray} として変分法を用いれば \begin{eqnarray} y(\bm{x}) = \frac{\sum_{n=1}^{N}t_{n}\nu(\bm{x}-\bm{x}_{n})}{\sum_{n=1}^{N}\nu(\bm{x}-\bm{x}_{n}) } \end{eqnarray} となることは容易にわかるが、$h(\bm{x}-\bm{x}_{n})$は$\bm{x}-\bm{x}_{n}$の関数には見えないので、ここの書き方には疑問が残る。 } これはNadaraya-Watsonモデルとして知られている。 \subsection{Nadaraya-Watsonモデル} 訓練集合を$\{\bm{x}_{n},t_{n}\}$として、同時分布$p(\bm{x},t)$を推定するためにParzen推定法 \begin{eqnarray} p(\bm{x},t) = \frac{1}{N} \sum_{n=1}^{N}f(\bm{x}-\bm{x}_{n},t-t_{n}) \end{eqnarray} を用いることを考える。すると回帰関数は \begin{eqnarray} y(\bm{x}) &=& \mathbb{E}[t|\bm{x}] = \int_{-\infty}^{\infty}tp(t|\bm{x})dt \notag \\ &=& \frac{\int tp(\bm{x},t)dt}{\int p(\bm{x},t)dt} \notag \\ &=& \frac{\int tf(\bm{x}-\bm{x}_{n},t-t_{n})dt}{\sum_{n}f(\bm{x}-\bm{x}_{m},t-t_{m})dt} \end{eqnarray} で与えられる。簡単のため \begin{eqnarray} \int_{-\infty}^{\infty}f(\bm{x},t)tdt = 0 \end{eqnarray} と仮定すると、 \begin{eqnarray} g(\bm{x}) = \int_{-\infty}^{\infty} f(\bm{x},t)dt \end{eqnarray} を用いて、 \begin{eqnarray} y(\bm{x}) &=& \frac{\sum_{n}g(\bm{x}-\bm{x}_{n})t_{n}}{\sum_{m}g(\bm{x}-\bm{x}_{m})} \notag \\ &=& \sum_{n}k(\bm{x},\bm{x}_{n})t_{n} \end{eqnarray} となる。ここでカーネル関数は \begin{eqnarray} k(\bm{x},\bm{x}_{n}) = \frac{g(\bm{x}-\bm{x}_{n})}{\sum_{m}g(\bm{x}-\bm{x}_{m})} \end{eqnarray} で与えられる。 \textcolor{blue}{ このカーネルも引数の置換に対する対称性を持っていないがこれでよいのだろうか。 } \section{ガウス過程} \subsection{線形回帰再訪} 入力$\bm{x}$に対して出力が \begin{eqnarray} y(\bm{x}) = \bm{w}^{T}\bm{\phi}(\bm{x}) \end{eqnarray} と与えられるモデルを考え、$\bm{w}$の事前分布を \begin{eqnarray} p(\bm{w}) = \mathcal{N}(\bm{w}|\bm{0},\alpha^{-1}\bm{I}) \end{eqnarray} とする。データ点の集合$\bm{x}_{1},\cdots,\bm{x}_{N}$に対する関数の値の集合$y(\bm{x}_{1}),\cdots,y(\bm{x}_{N})$をベクトル$\bm{y}$と表現すると \begin{eqnarray} \bm{y} = \bm{\Phi}\bm{w} \end{eqnarray} となる。ここで$\Phi_{nk}=\phi_{k}(\bm{x}_{n})$である。この平均と共分散は \begin{eqnarray} \mathbb{E}[\bm{y}] &=& \bm{\Phi}\mathbb{E}[\bm{w}] = \bm{0} \notag \\ \mathrm{cov}[\bm{y}] &=& \mathbb{E}[\bm{y}\bm{y}^{T}] = \bm{\Phi}\mathbb{E}[\bm{w}\bm{w}^{T}]\bm{\Phi}^{T} = \frac{1}{\alpha}\bm{\Phi}\bm{\Phi}^{T} = \bm{K} \end{eqnarray} となる。ただし$\bm{K}$は \begin{eqnarray} K_{nm} = k(\bm{x}_{n},\bm{x}_{m}) = \frac{1}{\alpha}\bm{\phi}(\bm{x}_{n})^{T}\bm{\phi}(\bm{x}_{m}) \end{eqnarray} なるカーネルである。 \subsection{ガウス過程による回帰} 観測される目標変数が、前節の$y_{n}$にガウス分布に従うノイズが混ざったもので与えられるモデルを考える。すなわち \begin{eqnarray} t_{n} = y_{n} + \epsilon_{n} \end{eqnarray} とし、 \begin{eqnarray} p(t_{n}|y_{n}) = \mathcal{N}(t_{n}|y_{n},\beta^{-1}) \end{eqnarray} であるとする。ノイズは各データに対して独立であるため、$\bm{y}=(y_{1},\cdots,y_{N})^{T}$が与えられた時の目標値$\bm{t} = (t_{1},\cdots,t_{N})^{T}$の同時分布は \begin{eqnarray} p(\bm{t}|\bm{y}) = \mathcal{N}(\bm{t}|\bm{y},\beta^{-1}\bm{I}_{N}) \end{eqnarray} となる。また前節より、周辺分布$p(\bm{y})$については \begin{eqnarray} p(\bm{y}) = \mathcal{N}(\bm{y}|\bm{0},\bm{K}) \end{eqnarray} である。したがって周辺分布$p(\bm{t})$は \begin{eqnarray} p(\bm{t}) &=& \int p(\bm{t}|\bm{y})p(\bm{y})d\bm{y} = \mathcal{N}(\bm{t}|\bm{0},\bm{C}) \notag \\ C(\bm{x}_{n},\bm{x}_{m}) &=& k(\bm{x}_{n},\bm{x}_{m}) + \beta^{-1}\delta_{nm} \end{eqnarray} となる。ガウス過程回帰に用いるカーネル関数としては \begin{eqnarray} k(\bm{x}_{n},\bm{x}_{m}) = \theta_{0} \exp \left \{ -\frac{\theta_{1}}{2} || \bm{x}_{n}-\bm{x}_{m} ||^2 \right \} + \theta_{2} + \theta_{3}\bm{x}_{n}^{T}\bm{x}_{m} \end{eqnarray} の形のものがよく用いられる。 \textcolor{blue}{ これは本文(6.54)の形式にはならないが。。。 } 次に、入力$\bm{x}_{1},\cdots,\bm{x}_{N}$と対応する$t_{1},\cdots,t_{N}$が与えられている場合の、入力$\bm{x}_{N+1}$に対する出力$t_{N+1}$を考える。これは \begin{eqnarray} p(\bm{t}_{N+1}) = \mathcal{N}(\bm{t}_{N+1}|\bm{0},\bm{C}_{N+1}) \end{eqnarray} を周辺化することで得られる。ここで、$\bm{t}_{N+1}$はベクトル$(t_{1},\cdots,t_{N},t_{N+1})^{T}$を表す。 \begin{eqnarray} \bm{C}_{N+1} = \begin{pmatrix} \bm{C}_{N} & \bm{k} \\ \bm{k}^{T} & c \end{pmatrix} \end{eqnarray} とあらわすことにすると \begin{eqnarray} p(t_{N+1}|\bm{t}) = \mathcal{N}(t_{N+1}|\bm{k}^{T}\bm{C}_{N}^{-1}\bm{t}, c-\bm{k}^{T}\bm{C}_{N}^{-1}\bm{k}) \end{eqnarray} を得る。 \subsection{超パラメータの学習} データ集合が与えられた場合の、超パラメータ$\bm{\theta}$の最尤推定の手法を考える。尤度関数の対数は \begin{eqnarray} \ln p(\bm{t}|\bm{\theta}) = -\frac{1}{2} \ln |\bm{C}_{N}| - \frac{1}{2}\bm{t}^{T}\bm{C}_{N}^{-1}\bm{t} - \frac{N}{2} \ln (2\pi) \end{eqnarray} であり、その微分は \begin{eqnarray} \frac{\partial}{\partial \theta_{i}} \ln p(\bm{t}|\bm{\theta}) = -\frac{1}{2} \mathrm{Tr} \left( \bm{C}_{N}^{-1} \frac{\partial \bm{C}_{N}}{\partial \theta_{i}} \right) + \frac{1}{2}\bm{t}^{T}\bm{C}_{N}^{-1} \frac{\partial \bm{C}_{N}}{\partial \theta_{i}} \bm{C}_{N}^{-1}\bm{t} \end{eqnarray} で与えられる。 \subsection{関連度自動決定} 省略 \subsection{ガウス過程による分類} 入力の訓練集合を$\bm{x}_{1},\cdots,\bm{x}_{N}$とし、観測値を$\bm{t}_{N} = (t_{1},\cdots,t_{N})^{T}$とするが、ここでは目標変数が$t\in \{0,1 \}$である2クラス分類問題を考える。そのために関数$a(\bm{x})$を前節までのガウス過程とし、$y=\sigma(a)$によって$y\in(0,1)$なる確率過程を得ることにする。すなわち、$a$に対する$t$の分布は、ベルヌーイ分布 \begin{eqnarray} p(t|a) = \sigma(a)^{t}(1-\sigma(a))^{1-t} \end{eqnarray} で与えられ、$a$については \begin{eqnarray} p(\bm{a}_{N+1}) = \mathcal{N}(\bm{a}_{N+1}|\bm{0},\bm{C}_{N+1}) \end{eqnarray} が成り立つものとする。共分散行列がこのモデルを特徴づける元になっていて、それは \begin{eqnarray} C(\bm{x}_{n},\bm{x}_{m}) = k(\bm{x}_{n},\bm{x}_{m}) + \nu\delta_{nm} \end{eqnarray} と、任意のカーネルと、正定値性を保証する対角項で構成される。知りたい量は$N$個のデータが与えられたときの$N+1$個目のデータの予測であり、 \begin{eqnarray} p(t_{N+1}=1 | \bm{t}_{N} ) = \int p(t_{N+1}=1|a_{N+1}) p(a_{N+1}|\bm{t}_{N}) da_{N+1} \end{eqnarray} である。ここで、ベルヌーイ分布を考えているため、 \begin{eqnarray} p(t_{N+1}=1|a_{N+1}) = \sigma(a_{N+1}) \end{eqnarray} であり、 \begin{eqnarray} p(a_{N+1}|\bm{t}_{N}) &=& \int p(a_{N+1}|\bm{a}_{N})p(\bm{a}_{N}|\bm{t}_{N}) d\bm{a}_{N} \notag \\ p(a_{N+1}|\bm{a}_{N}) &=& \mathcal{N}(a_{N+1}|\bm{k}^{T}\bm{C}_{N}^{-1}\bm{a}_{N}, c-\bm{k}^{T}\bm{C}_{N}^{-1}\bm{k}) \end{eqnarray} が成り立つ。 \subsection{ラプラス近似} 前節の積分の中で、$p(\bm{a}_{N}|\bm{t}_{N})$は解析的に求めることができないので、ラプラス近似を用いることにする。 $p(\bm{a}_{N}|\bm{t}_{N}) \propto p(\bm{a}_{N}) + p(\bm{t}_{N}|\bm{a}_{N})$であることと、データについての項は（データ点が互いに独立であるとして） \begin{eqnarray} p(\bm{t}_{N}|\bm{a}_{N}) = \prod_{n=1}^{N}\sigma(a_{n})^{t_{n}}(1-\sigma(a_{n}))^{1-t_{n}} = \prod_{n=1}^{N}e^{a_{n}t_{n}}\sigma(-a_{n}) \end{eqnarray} と表されることから、 \textcolor{blue}{（これは確率過程で$a_{N}$は$a_{N-1}$に依存しているので、互いに独立という仮定は違和感がある。おそらく本文にわざわざ「データ点が互いに独立であるとして」と括弧つきでかかれているのはそのため。） } モードとヘッセ行列を求めるべき関数$\Psi(\bm{a}_{N})$は正規化項を無視すると \begin{eqnarray} \Psi(\bm{a}_{N}) &=& \ln p(\bm{a}_{N}) + \ln p(\bm{t}_{N}|\bm{a}_{N}) \notag \\ &=& -\frac{1}{2}\bm{a}_{N}^{T}\bm{C}_{N}^{-1}\bm{a}_{N} - \frac{N}{2}\ln (2\pi) - \frac{1}{2}\ln|\bm{C}_{N}| + \bm{t}_{N}^{T}\bm{a}_{N} - \sum_{n=1}^{N}\ln(1+e^{a_{n}}) \notag \\ \end{eqnarray} となる。勾配と二階微分は \begin{eqnarray} \nabla \Psi(\bm{a}_{N}) &=& \bm{t}_{N} -\bm{\sigma}_{N} - \bm{C}_{N}^{-1}\bm{a}_{N} \notag \\ \nabla \nabla \Psi(\bm{a}_{N}) &=& -\bm{W}_{N} - \bm{C}_{N}^{-1} \end{eqnarray} で与えられる。ここで、$\bm{\sigma}_{N}$は$\sigma{a_{n}}$を持つベクトルであり、$\bm{W_{N}}$は$\sigma(a_{n})(1-\sigma(a_{n}))$を要素にもつ対角行列である。ニュートン法でモードを求めることにすると、更新式は \begin{eqnarray} \bm{a}_{N}^{new} &=& \bm{a}_{N}^{old} - \left( \nabla \nabla \Psi(\bm{a}_{N}) \right)^{-1} \nabla \Psi(\bm{a}_{N}) \notag \\ &=& \bm{a}_{N}^{old} + (\bm{W}_{N} + \bm{C}_{N}^{-1})^{-1}(\bm{t}_{N} -\bm{\sigma}_{N} - \bm{C}_{N}^{-1}\bm{a}_{N}) \notag \\ &=& \bm{C}_{N}(\bm{I}+\bm{W}_{N}\bm{C}_{N})^{-1}(\bm{t}_{N} -\bm{\sigma}_{N} - \bm{C}_{N}^{-1}\bm{a}_{N}) \end{eqnarray} となる。 \textcolor{blue}{本文のヘッセ行列は符号が逆では？上巻206の方が正しいはず。} これにより$p(\bm{a}_{N}|\bm{t}_{N})$の近似として \begin{eqnarray} q(\bm{a}_{N}|\bm{t}_{N}) = \mathcal{N}(\bm{a}_{N}|\bm{a}_{N}^{*},(\bm{W}_{N}+\bm{C}_{N})^{-1}) \end{eqnarray} を得る。ここで、$\bm{a}_{N}^{*}$は$\Phi(\bm{a}_{N})$の最小値を与える点である。これを用いると$p(a_{N+1}|\bm{t}_{N})$の積分を評価することができて、 \begin{eqnarray} p(a_{N+1}|\bm{t}_{N}) \approx \mathcal{N}(a_{N+1}| \bm{k}^{T}(\bm{t}-\bm{\sigma}_{N}), c - \bm{k}^{T}(\bm{W}_{N}^{-1}+\bm{C}_{N})^{-1}\bm{k}) \end{eqnarray} を得る。次に共分散関数のパラメータ$\bm{\theta}$を決定することを考える。そこで、尤度関数$p(\bm{t}_{N}|\bm{\theta})$を最大化することを考える。 \begin{eqnarray} p(\bm{t}_{N}|\bm{\theta}) = \int p(\bm{t}_{N}|\bm{a}_{N}) p(\bm{a}_{N}|\bm{\theta})d\bm{a}_{N} \end{eqnarray} この被積分関数の対数は$\Psi(\bm{a}_{N})$そのものであって、本文(4.135)を用いると、 \begin{eqnarray} \ln p(\bm{t}_{N}|\bm{\theta}) \approx \Psi(\bm{a}_{N}^{*}) - \frac{1}{2}\ln|\bm{W}_{N}+\bm{C}_{N}^{-1}| + \frac{N}{2}\ln(2\pi) \end{eqnarray} と近似することができる。これは、行列$\bm{C}_{N}$が$\bm{\theta}$に依存することによる部分と、$\bm{a}^{*}_{N}$を通して依存する部分とがある。 $\bm{\theta}$に明示的に依存する寄与（$\bm{C}_{N}$による部分）の微分は \begin{eqnarray} \frac{\partial \ln p(\bm{t}_{N}|\bm{\theta})}{\partial \theta_{j}} &=& \frac{1}{2}\bm{a}_{N}^{*T}\bm{C}_{N}^{-1}\frac{\partial \bm{C}_{N}}{\partial \theta_{j}}\bm{C}_{N}^{-1}\bm{a}_{N}^{-1} \notag \\ &-& \frac{1}{2}\mathrm{Tr}\left[ (\bm{I}+\bm{C}_{N}\bm{W}_{N})^{-1}\bm{W}_{N}\frac{\partial \bm{C}_{N}}{\partial \theta_{j}} \right] \end{eqnarray} となる。 \textcolor{blue}{ この式は \begin{eqnarray} \frac{\partial}{\partial \theta_{j}}\ln |\bm{W}_{N}+\bm{C}_{N}^{-1}| &=& \mathrm{Tr} \left( (\bm{W}_{N}+\bm{C}_{N}^{-1})^{-1} \frac{\partial\bm{C}_{N}^{-1}}{\partial \theta_{j}} \right) \notag \\ &=& \mathrm{Tr} \left( - (\bm{W}_{N}+\bm{C}_{N}^{-1})^{-1}\bm{C}_{N}^{-1} \frac{\partial\bm{C}_{N}}{\partial \theta_{j}} \bm{C}_{N}^{-1} \right) \notag \\ &=& \mathrm{Tr} \left( - \bm{C}_{N}^{-1} (\bm{C}_{N}\bm{W}_{N}+\bm{I})^{-1} \frac{\partial\bm{C}_{N}}{\partial \theta_{j}} \right) \notag \\ \frac{\partial}{\partial \theta_{j}}\ln |\bm{C}_{N}| &=& \mathrm{Tr} \left( \bm{C}_{N}^{-1}\frac{\partial\bm{C}_{N}}{\partial \theta_{j}} \right) \notag \end{eqnarray} および \begin{eqnarray} \left[ I-(\bm{C}_{N}\bm{W}_{N}+I)^{-1} \right] (\bm{C}_{N}\bm{W}_{N}+\bm{I}) &=& \bm{C}_{N}\bm{W}_{N} \notag \\ I-(\bm{C}_{N}\bm{W}_{N}+I)^{-1} &=& \bm{C}_{N}\bm{W}_{N} (\bm{C}_{N}\bm{W}_{N}+\bm{I})^{-1} \notag \\ \end{eqnarray} から導けそうな気がするが、最後$\bm{W}_{N}$が$(\bm{I}+\bm{C}_{N}\bm{W}_{N})^{-1}$の右に来るのは・・・？ } また、$\bm{a}_{N}^{*}$を通した寄与であるが、そもそもの定義から$\Psi(\bm{a}_{N})$の勾配は$\bm{a}_{N}^{*}$で$0$になるので、考えるべきは \begin{eqnarray} &&-\frac{1}{2}\sum_{n=1}^{N}\frac{\partial}{\partial a_{n}^{*}}\ln |\bm{W}_{N}+\bm{C}_{N}|^{-1} \frac{\partial a_{n}^{*}}{\partial \theta_{j}} \notag \\ &=& -\frac{1}{2}\sum_{n=1}^{N} [(\bm{I}+\bm{C}_{N}\bm{W}_{N})^{-1}\bm{C}_{N}]_{nn}\sigma_{n}^{*}(1-\sigma_{n}^{*})(1-2\sigma_{n}^{*}) \frac{\partial a_{n}^{*}}{\partial \theta_{j}} \end{eqnarray} である。ここで、$\sigma_{n}^{*}=\sigma(a_{n}^{*})$である。最後に、本文(6.84)を$\theta_{j}$について微分すると、 \begin{eqnarray} \frac{\partial \bm{a}_{N}^{*}}{\partial \theta_{j}} &=& \frac{\partial \bm{C}_{N}}{\partial \theta_{j}}(\bm{t}_{N}-\bm{\sigma}_{N}) - \bm{C}_{N}\bm{W}_{N}\frac{\partial \bm{a}_{N}^{*}}{\partial \theta_{j}} \notag \\ \frac{\partial \bm{a}_{N}^{*}}{\partial \theta_{j}} &=& (\bm{I}+\bm{W}_{N}\bm{C}_{N})^{-1} \frac{\bm{C}_{N}}{\partial \theta_{j}} (\bm{t}_{N}-\bm{\sigma}_{N}) \end{eqnarray} \subsection{ニューラルネットワークとの関係} 省略 \chapter{疎な解を持つカーネルマシン} \section{最大マージン分類器} まず、 \begin{eqnarray} y(\bm{x}) = \bm{w}^{T}\bm{\phi}(\bm{x}) + b \end{eqnarray} を用いる2値分類問題を考える。訓練データは、$N$個の入力ベクトル$\bm{x}_{1},\cdots,\bm{x}_{N}$と、対応する目標値$t_{1},\cdots,t_{N}(t_{n} \in \{-1,1\})$であり、未知のデータ点$\bm{x}$は$y(\bm{x})$の符号に応じて分類されるとする。また当面の間、訓練データは特徴空間で線形分離可能とする。すなわち、少なくともある一組のパラメータ$\bm{w}$と$b$が存在して、全ての$n$に対して$t_{n}y(\bm{x}_{n})>0$が成り立つとする。分類境界から点$\bm{x}_{n}$までの距離は \begin{eqnarray} \frac{t_{n}y(\bm{x}_{n})}{||\bm{w}||} = \frac{t_{n}(\bm{w}^{T}\bm{\phi}(\bm{x}_{n})+b)}{||\bm{w}||} \end{eqnarray} で与えられる。 \textcolor{blue}{ 分類境界からの距離が上のように求まるのは \begin{eqnarray} y = \bm{w}^{T}\bm{x} + b \end{eqnarray} の場合に限るように思う。 } 最大マージン分類器は、訓練データと分類境界の最短距離を最大化するものとして定義され \begin{eqnarray} \max_{\bm{w},b} \left \{ \frac{1}{||\bm{w}||} \min_{n} [t_{n}(\bm{w}^{T}\bm{\phi}(\bm{x}_{n})+b)] \right \} \end{eqnarray} を解くことで得られる。 \textcolor{blue}{ 本文にあるarg maxはmaxを与える変数値という意味。 } パラメータ$\bm{w},b$を適当に定数倍することによって、境界に最も近い点について \begin{eqnarray} t_{n}(\bm{w}^{T}\bm{\phi}(\bm{x}_{n}) + b ) = 1 \end{eqnarray} を成立させることができ、そのスケールの下では全てのデータについて \begin{eqnarray} t_{n}(\bm{w}^{T}\bm{\phi}(\bm{x}_{n}) + b ) \geq 1 \end{eqnarray} が成り立つ。このようにスケーリングした識別関数は正規形と言われる。この式は$\bm{w},b$に課された制約と考えることができ、等式が成り立つ点が存在する場合この制約は有効な制約であると言い、そうでない場合無効な制約という。今の問題設定では一般に、$t_{n}$正負両側に等号を満たす点が現れるようなパラメータの選び方が存在する。結局、マージンの最大化は有効な制約のもとで、$||\bm{w}||^{-1}$を最大化、すなわち$||\bm{w}||^2$を最小化することに他ならない。これは付録Eの不等式の元での最小化より、未定乗数$a_{n}$を用い、 \begin{eqnarray} L(\bm{w},b,a) = \frac{1}{2}||\bm{w}||^2 - \sum_{n=1}^{N}a_{n}\{t_{n}(\bm{w}^{T}\bm{\phi}(\bm{x}_{n})+b)-1\} \end{eqnarray} の停留点を \begin{eqnarray} a_{n} &\geq& 0 \notag \\ t_{n}y(\bm{x}_{n})-1 &\geq& 0 \notag \\ a_{n}\{ t_{n}y(\bm{x}_{n})-1\} &=& 0 \end{eqnarray} の条件下で求める問題に帰着する。 $\bm{w}$と$b$についての微分から \begin{eqnarray} \bm{w} &=& \sum_{n=1}^{N}a_{n}t_{n}\bm{\phi}(\bm{x}_{n}) \notag \\ 0 &=& \sum_{n=1}^{N}a_{n}t_{n} \end{eqnarray} を得る。これより、$\bm{w},b$を消去すると \begin{eqnarray} \tilde{L}(\bm{a}) = \sum_{n=1}^{N}a_{n} - \frac{1}{2}\sum_{n=1}^{N}\sum_{m=1}^{N}a_{n}a_{m}t_{n}t_{m}k(\bm{x}_{n},\bm{x}_{m}) \end{eqnarray} を得る。ここで$k(\bm{x},\bm{x}')=\bm{\phi}(\bm{x})^{T}\bm{\phi}(\bm{x}')$である。 \textcolor{blue}{ 本文にはこれを$\bm{a}$に対して最大化すると書いてあるが、最小化ではないだろうか。仮に$\bm{a}_{1},\bm{a}_{2}$が共に停留点になっていて、 $L(\bm{a}_{1})0$となる点をサポートベクトルと呼ぶことにする。これらについては \begin{eqnarray} t_{n}y(\bm{x}_{n}) = 1-\xi_{n} \end{eqnarray} が成り立つ。 $0s_{i}$の場合は \begin{eqnarray} \alpha_{i} = \frac{s_{i}^2}{q_{i}^2-s_{i}} \end{eqnarray} となる。 \subsection{分類問題に対するRVM} 省略 \chapter{グラフィカルモデル} \section{ベイジアンネットワーク} \subsection{例：多項式フィッティング} 省略 \subsection{生成モデル} 省略 \subsection{離散変数} 省略 \subsection{線形ガウスモデル} 省略 \section{条件付き独立性} 3変数a,b,cが存在し \begin{eqnarray} p(a,b|c) = p(a|c)p(b|c) \end{eqnarray} が成立するとき、$a$と$b$は$c$が与えられた下で条件付き独立であるといい、 \begin{eqnarray} a\Perp b|c \end{eqnarray} と表す。 \subsection{3つのグラフの例} ここではノードを3つだけ持つ3種類のグラフを考える。 \begin{eqnarray} p(a,b,c) = p(a)p(c|a)p(b|c) \end{eqnarray} のように分解できるとき、ノード$c$は$a,b$を結ぶ経路に対してtail-to-tailであるという。また \begin{eqnarray} p(a,b,c) = p(a)p(b|a)p(c|b) \end{eqnarray} と分解できるとき、ノード$c$は$a,b$を結ぶ経路に対してhead-to-tailであるという。最後に \begin{eqnarray} p(a,b,c) = p(a)p(b)p(c|a,b) \end{eqnarray} となるとき、ノード$c$は$a,b$を結ぶ経路に関してhead-to-headであるという。 tail-to-tailおよびhead-to-headが成り立つ場合 \begin{eqnarray} a \Perp b|c \end{eqnarray} が成り立つ。ノード$x$からノード$y$への矢印に従う経路が存在するとき、ノード$y$はノード$x$の子孫であるという。 \subsection{有向分離（D分離）} 有向非循環グラフが与えられたとき、任意の重複しないノード集合$A,B,C$に対して$A\Perp B|C$が成り立つかどうかを考える。まず、ノード$a,b$を結ぶ経路については二つの条件 \begin{itemize} \item ノード$c\in C$が存在し、経路がそこでhead-to-tailあるいはtail-to-tail \item ノード$d\notin C$が存在し、経路がそこでhead-to-headかつ、$d$の子孫はいずれも$C$に含まれない \end{itemize} のうち片方が成立すれば$a\Perp b|C$が成り立つ。任意の$a\in A,\ b \in B$に対して、$a\Perp b|C$が成り立つとき$A\Perp B|C$が成り立つ。 \textcolor{blue}{ 91ページの後半の議論は不明な箇所が多い。本来条件付き独立性はグラフを定めたら即座に決まるもので、ノードが観測されているかどうかにはよらないはず。 } \section{マルコフ確率場} \subsection{条件付き独立性} 省略 \subsection{分解特性} 省略 \subsection{例：画像のノイズ除去} 省略 \subsection{有向グラフとの関係} 省略 \section{グラフィカルモデルにおける推論} \subsection{連鎖における推論} 同時分布が \begin{eqnarray} p(\bm{x}) = \frac{1}{Z}\psi_{1,2}(x_{1},x_{2})\psi_{2,3}(x_{2},x_{3})\cdots \psi_{N-1,N}(x_{N-1},x_{N}) \end{eqnarray} で与えられる場合を考え、連鎖の途中のノード$x_{n}$の周辺分布$p(x_{n})$について考える。これは \begin{eqnarray} p(x_{n}) &=& \sum_{x_{1}}\cdots \sum_{x_{n-1}} \sum_{x_{n+1}} \cdots \sum_{x_{N}}p(\bm{x}) \notag \\ &=& \frac{1}{Z} \left[\sum_{x_{n-1}} \psi_{n-1,n}(x_{n-1},x_{n})\cdots \left[ \sum_{x_{2}}\psi_{2,3}(x_{2},x_{3}) \left[ \sum_{x_{1}}\psi_{1,2}(x_{1},x_{2}) \right] \right]\cdots \right] \notag \\ &&\left[\sum_{x_{n+1}} \psi_{n,n+1}(x_{n},x_{n+1})\cdots \left[ \sum_{x_{N}}\psi_{N-1,N}(x_{N-1},x_{N}) \right]\cdots \right] \notag \\ &\equiv& \frac{1}{Z}\mu_{\alpha}(x_{n}) \mu_{\beta}(x_{n}) \end{eqnarray} となる。これは \begin{eqnarray} \mu_{\alpha}(x_{2}) = \sum_{x_{1}}\psi_{1,2}(x_{1},x_{2}) \end{eqnarray} から始まり \begin{eqnarray} \mu_{\alpha}(x_{n}) = \sum_{x_{n-1}}\psi_{n-1,n}(x_{n-1},x_{n})\mu_{\alpha}(x_{n-1}) \end{eqnarray} と再帰的に計算される。 \textcolor{blue}{ $\mu_{\alpha}$は引数によって関数形が変わってしまう点に注意。あまりよい書き方ではないと思う。 } $\mu_{\beta}$の方も同様に計算される。 \subsection{木} 無向グラフおよび、次節で紹介される因子グラフにおいて、木とは任意のノードの組の間に唯一の経路が存在するものをいう。 \subsection{因子グラフ} $\bm{x}$上の確率分布が \begin{eqnarray} p(\bm{x}) = \prod_{s}f_{s}(\bm{x}_{s}) \end{eqnarray} で与えられるときに、各$x_{i}$を表すノードと、$f_{s}$を表すノードで構成されるグラフを因子グラフという。 $x_{i}$が$f_{s}$の引数に含まれる場合に2つのノードがリンクされる。 \subsection{積和アルゴリズム} 木構造の因子グラフで表されたモデルにおいて、ある特定の変数ノード$x$上の周辺分布$p(x)$を求める問題を考える。そこで \begin{eqnarray} p(\bm{x}) = \prod_{s\in \mathrm{ne}(x)} F_{s}(x,X_{s}) \end{eqnarray} とする。ここで$\mathrm{ne}(x)$は$x$に隣接する因子ノードの集合を表し \begin{eqnarray} F_{s}(x,X_{s}) = f_{s}(x,x_{1},\cdots,x_{M})G_{1}(x_{1},X_{s1}) \cdots G_{M}(x_{M},X_{sM}) \end{eqnarray} である。 \textcolor{blue}{ （$F_{s}$が一意的に定義できるのはこの因子グラフが木構造上で定義されているからであるはず。） } これを代入して、積の中に入れられる和を中に入れると、 \begin{eqnarray} p(x) &=& \prod_{s\in\mathrm{ne}(x)} \left[ \sum_{X_{s}}F_{s}(x,X_{s}) \right] \notag \\ &=& \prod_{s\in\mathrm{ne}(x)} \mu_{f_{s}\rightarrow x}(x) \end{eqnarray} を得る。ここで \begin{eqnarray} \mu_{f_{s}\rightarrow x}(x) \equiv \sum_{X_{s}}F_{s}(x,X_{s}) \end{eqnarray} を定義した。さらに$\mu$について計算を進めると \begin{eqnarray} \mu_{f_{s}\rightarrow x}(x) &=& \sum_{x_{1}}\cdots \sum_{x_{M}}f_{s}(x,x_{1},\cdots,x_{M}) \prod_{x_{m}\in \mathrm{ne}(f_{s})\backslash x} \left[ \sum_{X_{sm}}G_{m}(x_{m},X_{sm}) \right] \notag \\ &=& \sum_{x_{1}}\cdots \sum_{x_{M}}f_{s}(x,x_{1},\cdots,x_{M}) \prod_{x_{m}\in \mathrm{ne}(f_{s})\backslash x} \mu_{x_{m}\rightarrow f_{s}}(x_{m}) \end{eqnarray} となる。ただし、 \begin{eqnarray} \mu_{x_{m}\rightarrow f_{s}}(x_{m}) \equiv \sum_{X_{sm}}G_{m}(x_{m},X_{sm}) \end{eqnarray} である。また \begin{eqnarray} G_{m}(x_{m},X_{sm}) = \prod_{f_{l}\in \mathrm{ne}(x_{m})\backslash f_{s}} F_{l}(x_{m},X_{lm}) \end{eqnarray} であるから、再び和を積の中に入れて \begin{eqnarray} \mu_{x_{m}\rightarrow f_{s}}(x_{m}) &=& \prod_{f_{l}\in\mathrm{ne}(x_{m})\backslash f_{s}} \left[ \sum_{X_{lm}} F_{l}(x_{m},X_{lm}) \right] \notag \\ &=& \prod_{f_{l}\in\mathrm{ne}(x_{m})\backslash f_{s}} \mu_{f_{l}\rightarrow x_{m}}(x_{m}) \end{eqnarray} を得る。これで$\mu_{f_{s}\rightarrow x}(x)$に関する再帰的な表式が完成する。 \textcolor{blue}{ 式だけ並べるとわかりにくいので、$F$と$G$が何に対応しているかを図示している図8.46-48を合わせて見るべき。 } \subsection{max-sumアルゴリズム} ここではある確率分布の同時分布を最大にするベクトル$\bm{x}^{\mathrm{max}}$を求める問題を考える。すなわち \begin{eqnarray} p(\bm{x}^{\mathrm{max}}) = \max_{\bm{x}} p(\bm{x}) \end{eqnarray} を求める問題を考える。ノードの連鎖の例について考えると \begin{eqnarray} \max_{\bm{x}}p(\bm{x}) &=& \frac{1}{Z}\max{x_{1}}\cdots\max_{x_{N}}[ \psi_{1,2}(x_{1},x_{2}) \cdots \psi_{N-1,N}(x_{N-1},x_{N}) ] \notag \\ &=& \frac{1}{Z} \max_{x_{1}} \left[ \max_{x_{2}} \left[ \psi_{1,2}(x_{1},x_{2}) \left[ \cdots \max_{x_{N}} \psi_{N-1,N}(x_{N-1},x_{N}) \right] \cdots \right] \right] \notag \\ \end{eqnarray} を得る。これは前節の時と同じやり方で、任意の木構造の因子グラフに一般化することができる。 \textcolor{blue}{すなわち \begin{eqnarray} \max_{\bm{x}}p(\bm{x}) &=& \max_{x} \prod_{f_{s}\in \mathrm{ne}(x)} \left[ \max_{X_{s}}F_{s}(x,X_{s}) \right] \notag \\ &=& \prod_{f_{s}\in \mathrm{ne}(x)} \mu_{f_{s}\rightarrow x}(x) \notag \\ \mu_{f_{s}\rightarrow x}(x) &\equiv& \max_{X_{s}}F_{s}(x,X_{s}) \notag \\ &=& \max_{x_{1}\cdots x_{M}} f_{s}(x,x_{1},\cdots,x_{M}) \prod_{x_{m}\in \mathrm{ne}(f_{s})\backslash x} \left[ \max_{X_{sm}}G_{m}(x_{m},X_{sm}) \right] \notag \\ &=& \max_{x_{1}\cdots x_{M}} f_{s}(x,x_{1},\cdots,x_{M}) \prod_{x_{m}\in \mathrm{ne}(f_{s})\backslash x} \prod_{f_{l}\in\mathrm{ne}(x_{m})\backslash f_{s}} \mu_{f_{l}\rightarrow x_{m}}(x_{m}) \end{eqnarray} とまとまる。(8.4.4の内容もこのように$G$を消去してまとめるとわかりやすいかもしれない。） 8.98の手順によって得られる変数値の集合が全体として必ずしも最大点に対応しないとあるが、今一つ状況が想像しにくい。結局、各変数がどの値で最大状態を与えるかを記録していくというふつうの結果に落ち着いているが。 } \subsection{一般のグラフにおける厳密推論} 省略 \subsection{ループあり確率伝播} 省略 \chapter{混合モデルとEM} \section{K-meansクラスタリング} ここではまずはじめに、多次元空間のデータ点集合$\{ \bm{x}_{1}, \cdots, \bm{x}_{N} \}$を$K$個のクラスターに分割する問題を考える。ただし$K$は既知とする。ここでは、この問題を2値指示変数$r_{nk}\in\{0,1\} (k=1,\cdots,K)$および、各クラスタのプロトタイプベクトル$\bm{\mu}_{k}(k=1,\cdots,K)$からなる目的関数 \begin{eqnarray} J = \sum_{n=1}^{N}\sum_{k=1}^{K}r_{nk}||\bm{x}_{n}-\bm{\mu}_{k}||^2 \end{eqnarray} を最小化する問題として、定式化する。ただし$r_{nk}$は$n$を固定した時に$1$になる$k$がただ一つ存在するものとする。これは$r_{nk}$の最適化と$\bm{\mu}_{k}$の最適化を交互に行うことで収束するアルゴリズムができる。すなわち$\bm{\mu}_{k}$を固定して \begin{eqnarray} r_{nk} = \begin{cases} 1 & k = \mathrm{arg\ min}_{j}||\bm{x}_{n}-\bm{\mu}_{j}||^2 の時 \\ 0 & それ以外 \end{cases} \end{eqnarray} とするステップと$r_{nk}$を固定して、 \begin{eqnarray} \frac{\partial J}{\partial \bm{\mu}_{k}} = 2\sum_{n=1}^{N}r_{nk}(\bm{x}_{n}-\bm{\mu}_{k}) &=& 0 \notag \\ \bm{\mu_{k}} &=& \frac{\sum_{n}r_{nk}\bm{x}_{n}}{\sum_{n}r_{nk}} \end{eqnarray} とするステップを交互に繰り返す。これが$K$-meansアルゴリズムである。 \subsection{画像分割と画像圧縮} 省略 \section{混合ガウス分布} 混合ガウス分布は \begin{eqnarray} 0 \leq \pi_{k} \leq 1 \notag \\ \sum_{k=1}^{K}\pi_{k} = 1 \end{eqnarray} を満たす$\{\pi_{k}\}$を用いて \begin{eqnarray} p(\bm{x}) = \sum_{k=1}^{K}\pi_{k}\mathcal{N}(\bm{x}|\bm{\mu}_{k},\bm{\Sigma}_{k}) \end{eqnarray} と書くことができる。これはまた、1-of-K符号化法で符号化されたK次元の2値確率変数$\bm{z}$を考え、$\bm{z}$の値が与えられたときの$\bm{x}$の条件付き分布をガウス分布で与えることによっても定式化可能である。すなわち、 \begin{eqnarray} p(z_{k}=1) &=& \pi_{k} \notag \\ p(\bm{x}|z_{k}=1) &=& \mathcal{N}(\bm{x}|\bm{\mu}_{k},\bm{\Sigma}_{k}) \end{eqnarray} とすれば、 \begin{eqnarray} p(\bm{x}) = \sum_{\bm{z}}p(\bm{z})p(\bm{x}|\bm{z}) = \sum_{k=1}^{K}\mathcal{N}(\bm{x}|\bm{\mu}_{k},\bm{\Sigma}_{k}) \end{eqnarray} を得る。これにより、同時分布$p(\bm{x},\bm{z})$を使った議論が可能になる。 $\bm{x}$が与えられたときの$\bm{z}$の条件付き確率は \begin{eqnarray} \gamma(z_{k}) \equiv p(z_{k}=1|\bm{x}) &=& \frac{p(z_{k}=1)p(\bm{x}|z_{k}=1)}{\sum_{j=1}^{K}p(z_{j}=1)p(\bm{x}|z_{j}=1)} \notag \\ &=& \frac{\pi_{k}\mathcal{N}(\bm{x}|\bm{\mu}_{k},\bm{\Sigma}_{k})}{\sum_{j=1}^{K}\pi_{j}\mathcal{N}(\bm{x}|\bm{\mu}_{j},\bm{\Sigma}_{j})} \end{eqnarray} で与えられる。 \subsection{最尤推定} データ集合$\{\bm{x}_{1},\cdots,\bm{x}_{N}\}$が与えられたときの、対数尤度関数は \begin{eqnarray} \ln p(\bm{X}|\bm{\pi},\bm{\mu},\bm{\Sigma}) = \sum_{n=1}^{N}\ln\left \{ \sum_{k=1}^{K}\pi_{k}\mathcal{N} (\bm{x}|\bm{\mu}_{k}, \bm{\Sigma}_{k}) \right\} \end{eqnarray} で与えられるが、これは最尤推定を行うには不向きである。なぜなら、$\bm{\mu}_{j}=\bm{x}_{n}$を仮定したとき、このデータ点は尤度関数に対して \begin{eqnarray} \mathcal{N}(\bm{x}_{n}|\bm{x}_{n},\sigma_{j}^2I) = \frac{1}{(2\pi)^{D/2}} \frac{1}{\sigma_{j}^{D}} \end{eqnarray} の寄与を与えるが、これは$\sigma_{j}\rightarrow 0$の極限で発散してしまう。 \subsection{混合ガウス分布のEMアルゴリズム} 尤度関数を平均$\bm{\mu}_{k}$に関して微分を$0$とおくと \begin{eqnarray} 0 &=& \sum_{n=1}^{N}\gamma(z_{nk})\bm{\Sigma}_{k}^{-1}(\bm{x}_{n}-\bm{\mu}_{k}) \notag \\ \gamma(z_{nk}) &=& \frac{\pi_{k}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{k},\bm{\Sigma}_{k})}{\sum_{j=1}^{K}\pi_{j}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{j},\bm{\Sigma}_{j})} \end{eqnarray} を得る。$\bm{\Sigma}_{k}$をかけて整理すると \begin{eqnarray} \bm{\mu}_{k} &=& \frac{1}{N_{k}} \sum_{n=1}^{N}\gamma(z_{nk}) \bm{x}_{n} \notag \\ N_{k} &=& \sum_{n=1}^{N}\gamma(z_{nk}) \end{eqnarray} を得る。また、$\bm{\Sigma}_{k}$に関する微分を$0$とおくと \begin{eqnarray} \bm{\Sigma}_{k} = \frac{1}{N_{k}}\sum_{n=1}^{N}\gamma(z_{nk})(\bm{x}_{n}-\bm{\mu}_{k})(\bm{x}_{n}-\bm{\mu}_{k})^{T} \end{eqnarray} となる。また混合係数$\pi_{k}$についてはラグランジュ未定乗数法を用い、 \begin{eqnarray} \ln p(\bm{X}|\bm{\pi},\bm{\mu},\bm{\Sigma}) + \lambda \left( \sum_{k=1}^{K}\pi_{k}-1\right) \end{eqnarray} を微分することで \begin{eqnarray} 0 = \sum_{n=1}^{N} \frac{\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{k},\bm{\Sigma}_{k})}{\sum_{j=1}^{K}\pi_{j}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{j},\bm{\Sigma}_{j})} + \lambda \end{eqnarray} を得る。これより \begin{eqnarray} \pi_{k} = \frac{N_{k}}{N} \end{eqnarray} を得る。これらを踏まえて、混合ガウス分布のためのEMアルゴリズムは以下のようになる。 \begin{enumerate} \item 平均$\bm{\mu}_{k}$、分散$\bm{M}_{k}$および混合係数$\pi_{k}$の初期値を決める \item Eステップ：現在のパラメータ値を用いて、負担率 \begin{eqnarray} \gamma(z_{nk}) &=& \frac{\pi_{k}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{k},\bm{\Sigma}_{k})}{\sum_{j=1}^{K}\pi_{j}\mathcal{N}(\bm{x}_{n}|\bm{\mu}_{j},\bm{\Sigma}_{j})} \end{eqnarray} を計算する。 \item Mステップ：現在の負担率を用いてパラメータを以下のように更新する。 \begin{eqnarray} \bm{\mu}_{k}^{\mathrm{new}} &=& \frac{1}{N_{k}} \sum_{n=1}^{N}\gamma(z_{nk}) \bm{x}_{n} \notag \\ \bm{\Sigma}_{k}^{\mathrm{new}} &=& \frac{1}{N_{k}}\sum_{n=1}^{N}\gamma(z_{nk})(\bm{x}_{n}-\bm{\mu}_{k}^{\mathrm{new}})(\bm{x}_{n}-\bm{\mu}_{k}^{\mathrm{new}})^{T} \notag \\ \pi_{k}^{\mathrm{new}} &=& \frac{N_{k}}{N} \notag \\ N_{k} &=& \sum_{n=1}^{N}\gamma(z_{nk}) \end{eqnarray} \item 対数尤度 \begin{eqnarray} \ln p(\bm{X}|\bm{\pi},\bm{\mu},\bm{\Sigma}) = \sum_{n=1}^{N}\ln\left \{ \sum_{k=1}^{K}\pi_{k}\mathcal{N} (\bm{x}|\bm{\mu}_{k}, \bm{\Sigma}_{k}) \right\} \end{eqnarray} を計算し収束性を確認し、基準を満たしていない場合2に戻る。 \end{enumerate} \textcolor{blue}{ この方法で、9.2.1節で指摘された発散が起きない理由はなんだろう？ } \section{EMアルゴリズムのもう一つの解釈} 全ての観測データの集合を$\bm{X}$で、潜在変数の集合を$\bm{Z}$で、モデルパラメータの組を$\bm{\theta}$で表すことにすると、対数尤度関数は \begin{eqnarray} \ln p(\bm{X}|\bm{\theta}) = \ln \left \{ \sum_{\bm{Z}}p(\bm{X},\bm{Z}|\bm{\theta}) \right \} \end{eqnarray} で与えられる。EMアルゴリズムでは$p(\bm{X},\bm{Z}|\bm{\theta})$の期待値に注目し、これを最大化する。すなわちEMアルゴリズムは、観測変数$\bm{X}$と潜在変数$\bm{Z}$の同時分布$p(\bm{X},\bm{Z}|\bm{\theta})$が与えられている場合に尤度関数$p(\bm{X}|\bm{\theta})$を$\bm{\theta}$について最大化するためのアルゴリズムである。具体的には \begin{enumerate} \item パラメータの初期値$\bm{\theta}^{\mathrm{old}}$を選ぶ \item Eステップ：$p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}})$を計算する。 \item Mステップ：次式で与えられる$\bm{\theta}^{\mathrm{new}}$を計算する。 \begin{eqnarray} \bm{\theta}^{\mathrm{new}} &=& \argmax_{\bm{\theta}} \mathcal{Q}(\bm{\theta}, \bm{\theta}^{\mathrm{old}}) \notag \\ \mathcal{Q}(\bm{\theta}, \bm{\theta}^{\mathrm{old}}) &=& \sum_{\bm{Z}} p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}}) \ln p(\bm{X},\bm{Z}|\bm{\theta}) \end{eqnarray} \item 収束条件が満たされていればアルゴリズムを終了し、そうでなければ$\bm{\theta}^{\mathrm{old}} \leftarrow \bm{\theta}^{\mathrm{new}}$として2に戻る。 \end{enumerate} \subsection{混合ガウス分布再訪} 省略 \subsection{K-meansとの関連} 省略 \subsection{混合ベルヌーイ分布} 省略 \subsection{ベイズ線形回帰に関するEMアルゴリズム} 省略 \section{一般のEMアルゴリズム} 全ての観測変数と潜在変数をそれぞれ$\bm{X},\bm{Z}$と集合的に表した確率モデルを考え、$\bm{\theta}$をパラメータの組として、同時分布を$p(\bm{X},\bm{Z}|\bm{\theta})$と書く。ここでの目的は尤度関数 \begin{eqnarray} p(\bm{X}|\bm{\theta}) = \sum_{\bm{Z}}p(\bm{X},\bm{Z}|\bm{\theta}) \end{eqnarray} を最大化することである。EMアルゴリズムを用いる際の重要な仮定は$p(\bm{X}|\bm{\theta})$に基づく尤度関数の最適化は困難であるが、$p(\bm{X},\bm{Z}|\bm{\theta})$に基づく尤度関数の最適化は容易であるとすることである。まず潜在変数についての分布を$q(\bm{Z})$を導入し、 \begin{eqnarray} \ln p(\bm{X}|\bm{\theta}) &=& \mathcal{L}(q,\theta) + \mathrm{KL}(q||p) \notag \\ \mathcal{L}(q,\bm{\theta}) &=& \sum_{\bm{Z}}q(\bm{Z}) \ln \left \{ \frac{p(\bm{X},\bm{Z}|\bm{\theta})}{q(\bm{Z})} \right \} \notag \\ \mathrm{KL}(q||p) &=& -\sum_{\bm{Z}}q(\bm{Z}) \ln \left \{ \frac{p(\bm{Z}|\bm{X},\bm{\theta})}{q(\bm{Z})} \right \} \end{eqnarray} と分解する。この分解は \begin{eqnarray} \ln p(\bm{X},\bm{Z}|\bm{\theta}) = \ln p(\bm{Z}|\bm{X},\bm{\theta}) + \ln p(\bm{X}|\bm{\theta}) \end{eqnarray} に基づいている。$KL(q||p)$はKLダイバージェンスと呼ばれるもので、$KL(q||p)\geq 0$が成り立ち、等号成立は$q=p$の時に限る。 \textcolor{blue}{ このことを用いると、EMアルゴリズムが以下のようにして対数尤度関数を増加させていることがわかる。 \begin{eqnarray} &&\ln p(\bm{X}|\bm{\theta}^{\mathrm{old}}) \notag \\ &=& \sum_{\bm{Z}}p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}}) \ln \left \{ \frac{p(\bm{X},\bm{Z}|\bm{\theta}^{\mathrm{old}})}{p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}})} \right \} \notag \\ &\leq& \sum_{\bm{Z}}p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}}) \ln \left \{ \frac{p(\bm{X},\bm{Z}|\bm{\theta}^{\mathrm{new}})}{p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}})} \right \} \notag \\ &\leq& \sum_{\bm{Z}}p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}}) \ln \left \{ \frac{p(\bm{X},\bm{Z}|\bm{\theta}^{\mathrm{new}})}{p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}})} \right \} - \sum_{\bm{Z}}p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}}) \ln \left \{ \frac{p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{new}})}{p(\bm{Z}|\bm{X},\bm{\theta}^{\mathrm{old}})} \right \} \notag \\ &=& \ln p(\bm{X}|\bm{\theta}^{\mathrm{new}}) \end{eqnarray} ここで、最初の等号で$q(\bm{Z})$の任意性と、KLダイバージェンスの等号成立条件を、2行目の不等式では$\bm{\theta}^{\mathrm{new}}$の定義を、3行目の不等式ではKLダイバージェンスの非負性を用いている。 }

プラグイン/インスタグラム

2015-10-30T03:17:02+09:00

*インスタグラムプラグイン人気の画像共有サービス、Instagram(インスタグラム）の画像をアットウィキに貼れるプラグインです。 #ig_user(ユーザー名) と記載することで、特定ユーザーのInstagramのフィードを表示することができます。例）@dogoftheday #ig_user(dogoftheday) ---- #ig_tags(タグ名) と記載することで、特定タグのInstagramのフィードを表示することができます。 #dogofthedayjp タグ #ig_tag(dogofthedayjp) ---- #ig_popular と記載することで、Instagramのpopularフィードを表示することができます。詳しい使い方は以下のページを参考にしてください！＝＞http://www1.atwiki.jp/guide/pages/935.html --------

プラグイン/コメント

2015-10-30T03:17:02+09:00

* コメントプラグイン @wikiのwikiモードでは #comment() と入力することでコメントフォームを簡単に作成することができます。詳しくはこちらをご覧ください。＝＞http://www1.atwiki.jp/guide/pages/921.html#id_476878da ----- たとえば、#comment() と入力すると以下のように表示されます。 #comment

プラグイン

2015-10-30T03:17:02+09:00

@wikiにはいくつかの便利なプラグインがあります。 ----- #ls ----- これ以外のプラグインについては@wikiガイドをご覧ください =>http://atwiki.jp/guide/

プラグイン/動画(Youtube)

2015-10-30T03:17:02+09:00

* 動画(youtube) @wikiのwikiモードでは #video(動画のURL) と入力することで、動画を貼り付けることが出来ます。詳しくはこちらをご覧ください。＝＞http://www1.atwiki.jp/guide/pages/801.html#id_30dcdc73 また動画のURLはYoutubeのURLをご利用ください。＝＞http://www.youtube.com/ ----- たとえば、#video(http://youtube.com/watch?v=kTV1CcS53JQ)と入力すると以下のように表示されます。 #video(http://youtube.com/watch?v=kTV1CcS53JQ)

プラグイン/RSS

2015-10-30T03:17:02+09:00

*RSSを取り込んで一覧表示(rss) #rss(ここにＲＳＳのＵＲＬ) もしくは #rss(ここにＲＳＳのＵＲＬを入力) と入力することで指定したＲＳＳを取り込んで一覧表示します。詳しくはこちらをご覧ください。＝＞http://www1.atwiki.jp/guide/pages/269.html#id_a0e79757 ---- たとえば、#rss(http://www1.atwiki.jp/guide/rss10_new.xml) と入力すると以下のように表示されます。 #rss(http://www1.atwiki.jp/guide/rss10_new.xml)

プラグイン/アーカイブ

2015-10-30T03:17:02+09:00

* アーカイブ @wikiのwikiモードでは #archive_log() と入力することで、特定のウェブページを保存しておくことができます。詳しくはこちらをご覧ください。＝＞http://www1.atwiki.jp/guide/pages/921.html#id_2d967d6e ----- たとえば、#archive_log()と入力すると以下のように表示されます。保存したいURLとサイト名を入力して"アーカイブログ"をクリックしてみよう #archive_log()

プラグイン/編集履歴

2015-10-30T03:17:02+09:00

* 更新履歴 @wikiのwikiモードでは #recent(数字) と入力することで、wikiのページ更新履歴を表示することができます。詳しくはこちらをご覧ください。＝＞http://www1.atwiki.jp/guide/pages/269.html#id_bf9eaeba ----- たとえば、#recent(20)と入力すると以下のように表示されます。 #recent(20)