機械学習と決定理論（atwikiモード）

機械学習
決定理論
統計学
ベイズ統計学
決定理論
最尤推定法
- 最尤推定法の概要
確率モデル
情報理論

機械学習

学習データセット $\rm x$ から確率分布 $P(\cdot)$ を推定することを機械学習という。とくに、単一データからなる学習データセット $\rm{D} \ni x_i$ から確率分布 $P(X)$ を推定することを教師なし学習といい、二つ（以上）のデータからなる学習データセット $\rm{D} \ni (x_i, y_i)$ から結合分布 $P(X,Y)$ もしくは条件付き分布 $P(Y|X)$ を推定することを教師あり学習という。

無作為抽出されたサンプル集団から元の確率分布を推定することになるので、機械学習は推測統計学と関係が深い。実際、機械学習で使う技法の多くは推測統計学のものである。

機械学習には、大きく分けてパラメトリックなアプローチとノンパラメトリックなアプローチとがある。パラメトリックなアプローチでは、確率分布関数 $P(X)$ を一次独立な関数の線型（非線型）結合によって表現し、そのパラメーターを推定する。一方、ノンパラメトリックなアプローチでは、データ集合から直接に目的の確率を計算する。

最尤推定法

パラメトリックなアプローチにおいて、もっともポピュラーかつ古典的な推定法が最尤推定法である。変数 $X$ の確率分布が、パラメーター $\theta$ を用いて条件付き確率 $P(X|\theta)$ であらわされるとき、尤度関数 $f(\theta) = P(\rm{D}|\theta) = \prod_i P(x_i|\theta)$ を最大化する $\theta$ を推定値 $\hat{\theta}$ とする：
$\hat{\theta} = \arg \max_{\theta} f(\theta)$ 。

実用的には尤度関数を直接最大化するのではなく、対数尤度関数 $f'(\theta) = \log f(\theta)$ を最大化することが多い。対数をとることで、
$f'(\theta) = \log f(\theta) = \sum_i \log P(x_i|\theta)$
となり、解析的な取り扱いが容易となるためだ。とくに、確率分布が指数関数族であらわされる場合は右辺が多項式になるので、解析的に $\frac{d \log f(\theta)}{d\theta} = 0$ となる $\theta$ を求めることができる。

ベイズ推定法

パラメトリックなアプローチにおいて、本来、定数であるはずのモデルパラメーターに不確実性があることをみとめ、その不確実性をも評価する推定法がベイズ推定法である。モデルの不確実性は（ベイズ）確率によって定量的に表現する。古典的な確率論の立場では、確率は客観的な頻度としてしか解釈されないので、定数であるモデルパラメーターに確率を定義することはできない。そのため、ベイズ主義者のなかでしか認められていない推定法である。

ベイズ推定法では、まず、データセット $D$ から確率分布 $P(X,\theta|\rm{D}) = P(X|\theta)P(\theta|\rm{D})$ を求める。次に、これをパラメーターについて周辺化することで、 $P(X)$ を推定する：
$P(X) = \sum_{\theta} P(X,\theta)$ 。

ベイズ推定法の利点としては、次のものが挙げられる。

モデルの複雑度が高い場合でも、オーバーフィッティング（モデルパラメーターの過適応）を避けることができる。
逐次的な学習が容易に導入できる。今、モデルパラメーター $\theta$ の確率分布 $P(\theta)$ が既知であるとする（事前確率）。ここで、新しい情報 $X_1=x_1$ が得られたとすると、ベイズの定理より、 $P(\theta|X_1=x_1) \propto P(\theta)P(X_1 = x_1|\theta)$ と更新できる（事後確率）。さらに、新しい情報 $X_2=x_2$ を得られたとすると、 $P(\theta|X_1=x_1,X_2=x_2) \propto P(\theta|X_1=x_1)P(X_2 = x_2|\theta, X_1=x_1)$ と更新できる。これより、帰納的に $P(\theta|\rm{D})$ が学習できる。

MAP推定法（最大事後確率推定法）

最尤推定法とベイズ推定法の中間に位置する推定法である。ベイズ推定法と同様に、モデルパラメーターに不確実性があることを認めている。

MAP推定法では、ベイズ推定法のようにパラメーターについて周辺化するのではなく、確率分布 $P(\theta|\rm{D}) = P(\rm{D}|\theta)P(\theta) = \prod_i P(x_i|\theta)P(\theta)$ を最大化する $\theta$ を推定値 $\hat{\theta}$ とする：
$\hat{\theta} = \arg \max_{\theta} \prod_i P(x_i|\theta)P(\theta)$ 。
$P(\theta)$ は、 $X$ に関する情報 $\rm D$ が得られる前からわかっている確率分布だから、事前確率分布とよぶ。一方、 $P(\theta|\rm{D})$ は、 $X$ に関する情報 $\rm D$ が得られた後の確率分布だから、事後確率分布と呼ぶ。事前確率を事後確率に変換するために必要な $\prod_i P(x_i|\theta)$ は尤度関数である。

ノンパラメトリック法

決定理論

誤認識率最小化法

期待損失最小化法

棄却オプション

統計学

無作為抽出されたサンプル集団から母集団の確率分布を推定する方法論が統計学である。

確率分布の推定方法には、大きく分けてパラメトリックモデルとノンパラメトリックモデルがある。パラメトリックモデルは、確率分布を関数の線型（非線型）結合によって表現し、そのパラメーターを推定することで、確率分布の推定をおこなう。一方、ノンパラメトリックモデルは、今現在得られているデータ集合から目的の確率分布を計算する。

パターン認識や回帰分析は、目的変数と従属変数の結合分布もしくは条件付き分布を推定することと言い換えることもできる。

ベイズ統計学

ベイズ推論の概要

ベイズ推論とは、確率の加法定理や乗法定理を過不足なく用いて（未知）変数の確率分布を推論することである。従来の方式（未知変数の不確実性を無視し一つの推定値を求めていた）とは異なり、すべての可能性を保持・評価するため、

ベイズの定理を用いることで、逐次的な学習（確率分布の更新）が自然に導入できる。今、目的変数 $Y$ の確率分布 $P(Y)$ が既知であるとする（事前確率）。ここで、新しい情報 $X_1=x_1$ が得られたとすると、ベイズの定理より、 $P(Y|X_1=x_1) \propto P(Y)P(X_1 = x_1|Y)$ と更新できる（事後確率）。さらに、新しい情報 $X_2=x_2$ を得られたとすると、 $P(Y|X_1=x_1,X_2=x_2) \propto P(Y|X_1=x_1)P(X_2 = x_2|Y, X_1=x_1)$ と更新できる。ただし、逐次的に得られる情報が独立であると仮定できる場合は（ほとんどの例でできる）、 $P(Y|X_1=x_1,X_2=x_2) \propto P(Y|X_1=x_1)P(X_2 = x_2|Y)$ である。これをナイーブベイズ識別器という。最尤推定法でも、Robbins-Monroアルゴリズムを用いれば、逐次的な学習は可能であるが、収束スケジュールの調整など技巧的なテクニックを必要とする。
期待値を推定値とすることで、学習時に含まれる誤差（外れ値）の影響を少なくできる。
決定理論と組み合わせることで、最適な意志決定（事後確率の最大化 or 期待損失の最小化）ができる。
棄却オプションを利用できる。
確率モデル（独立に学習した結果）の結合が容易である。

というメリットがある。

ベイズ推論をおこなおうとすると、客観確率（頻度としての確率）に加えて主観確率（不確実性の尺度としての確率）をも確率として認める必要がでてくる。というのも、ベイズ推論にしたがえば、頻度の定義できない変数にも確率分布が定義できてしまうためである。たとえば、正規分布にしたがって生成された乱数列から元の正規分布の平均 $\mu$ を推定することを考える。このとき、 $\mu$ は間違いなく定数であり確率（頻度）を伴う変数ではない。しかし、ベイズ推論にしたがうと、 $\mu$ の確率分布を求める（考える）ことになる。確率を不確実性の尺度として理解することで、この矛盾が解消できるのである。

ベイズの定理

ベイズ推論では、未知変数の確率分布を求めようとする。そのため、確率分布の更新を可能とするベイズの定理：
$P(Y|X=x) \propto P(Y)P(X=x|Y)$
は大きな意味をもつ。 $X, Y$ は確率変数である。確率分布 $P(Y)$ を事前確率, $P(Y|X=x)$ を事後確率とよぶ。 $P(Y)$ は、 $X=x$ という情報を得る前にわかっている確率分布だから事前確率であり、 $P(Y|X=x)$ は $X=x$ という情報を得た後にわかる確率分布だから事後確率である。ベイズの定理によれば、事後確率 $P(Y|X=x)$ は、事前確率 $P(Y)$ に尤度関数 $P(X=x|Y)$ を掛けることで得ることができる。

パターン認識への３つのアプローチ

:生成モデル
| $x$ を入力変数、 $y$ を目的変数とする。結合分布 $P(x,y)$ をモデル化し、決定理論を用いることで $y$ の最適値を決定する。このモデルの最大の特徴は、サンプリング法によって人工の入力列を生成できる点にある。これによって学習データの不足領域が明らかになる。入力変数の確率分布までも求めなければならないため、３つのアプローチのなかで最も手間がかかる。特に入出力空間が大きい場合は、パラメトリック学習を用いないと安定した識別器を得ることは難しい。
:識別モデル
|事後確率 $P(y|x)$ を直接モデル化する。推論と意思決定だけが問題である場合、識別モデルで十分である。
:識別関数モデル
|識別関数 $y = f(x)$ の関数形を直接モデル化する。このとき、学習の対象は関数のパラメーターとなる。このアプローチは、他の２つの方法と異なり、入力変数や出力変数の確率分布を考慮しない。そのため、ベイズ推論をおこなうメリットのうち、２．〜５．は使えない。しかし、一度学習さえ完了すれば、意思決定は高速にできるので、音声認識などの実時間処理をしたいシステムに向いている。誤差逆伝搬法やSVMは、ノンパラメトリックな識別関数の学習法の一種である。

決定理論

ベイズ推論によって得られた確率分布から最適な意思決定（行動決定）するための方法論が決定理論である。入力ベクトルを $\bf{x}$ とすると、入力空間 $\bf{x}$ のすべてに最適なクラス $\rm{C}_k$ を割り当てることが目標となる。以後の説明では、結合確率 $P(x,\rm{C}_k)$ は既知とする。クラス $\rm{C}_k$ の決定領域（クラス $\rm{C}_k$ に割り当てられた $\bf{x}$ の集合）は $\rm{R}_k$ で表す。

:ベイズ決定則（事後確率最大化法）
|事後確率 $P(\rm{C}_k|\bf{X=x})$ は、 $\bf{X=x}$ という乗法が与えられたとき、クラスが $\rm{C}_k$ となる確率を表しているが、クラスが $\rm{C}_k$ で正しい確率と読み替えることもできる。このように読み替えると、決定領域 $\rm{R}_k$ が正しい識別結果を返却する確率は
$\sum_k \int_{\bf{x} \in \rm{R}_k} P(\rm{C}_k|\bf{X=x})d\bf{x}$
によって表すことができる。この確率を最大化するように決定領域を設定したい。その方法は、上式より明らかに、事後確率 $P(\rm{C}_k|\bf{X=x})$ を最大にするクラスへ分類することだ。
:期待損失最小化
|入力 $x$ にクラス $\rm{C}_k$ を割り当てたときの期待損失（損失の期待値）を考える。損失は $x$ と思っていたものが
:期待値
|目的変数 $y$ が実数ならば・・・
:棄却オプション
|

最尤推定法

最尤推定法の概要

ベイズ推論とは異なり、頻度主義にもとづく推定法である。

確率モデル

情報理論

情報量

エントロピー

期待できる情報量。驚きの期待値。分布の一様性を定量的に表したもの。

カルバックライブラー情報量

「機械学習と決定理論（atwikiモード）」をウィキ内検索

最終更新：2008年12月24日 19:05

ツールボックス

下から選んでください:

新しいページを作成する

ヘルプ / FAQ もご覧ください。

Novpat's Lab @ ウィキ