prml_note @ ウィキ
第四章
最終更新:
prml_note
-
view
第四章 線形モデルによるクラス識別問題
- クラス識別問題は、入力ベクトルを離散クラス(各クラスは通常、互いに素)に分類することを目的とする。この場合、入力空間は複数の決定領域(decision region)に分割され、それらの間の境界は決定境界(decision boundary)あるいは決定平面(decision surface)と呼ばれる。決定境界が入力ベクトル
の線形関数からなる超平面によって形成される場合、線形分割可能(linearly separable)という。
- クラス識別問題のため、線形回帰モデルを一般化(一般化線形モデル)を考える。
4.1節 識別関数
- 2クラスの線形識別関数
個の複数クラスの判別については、ある一つのクラスと他のクラスの一つとを判別する
個の(一対多クラス判別器(one-versus-the-rest classifier))、あるいは
個の(one-versus-one classfier)2クラス識別関数を利用することが考えられるが、帰属先クラスが二義的な領域が生じてしまう。これは
個の線形関数から成る
を考え、すべての
で定められる。このような決定領域は常に単接続(一つの境界について一つの他領域としか接していない)かつ凸。
- 以下、線形識別関数のパラメータを決定する3つの方法、最小二乗法(least square)、フィッシャーの線形判別法(Fisher's linear descriminant)、パーセプトロン・アルゴリズム(perceptron algorithm)を概観。
最小二乗法
- 最小二乗による場合、それが入力ベクトルに対する目的変数の条件付確率
を近似することが出来るが、あまりよい結果は期待できない。
- 各クラス
が線形モデル
で表されるとすると、新たな入力
とまとめることが出来る。ここで以下の二乗和誤差関数を最小化することでパラメータ行列
これを
ここで
が導かれる。
- 複数の目的変数についての最小二乗解の持つ興味深い性質のひとつとして、学習データの目的変数ベクトルのすべてが或る線形制約
を満たすなら、モデルの予測はすべての入力
を満たすことが挙げられる。
- 最小二乗法には識別関数のパラメータについて閉形式の厳密解を与える利点がある。その一方で異常値に影響されやすく、また頑健性に欠けるという欠点がある。これらの欠点は、非正規分布データに対して正規分布に従う条件付確率を仮定して最尤推定した場合と同様のミスマッチに起因する。
フィッシャーの線形判別法
- 線形判別モデルは次元の削減と見なすことができる。
次元の入力ベクトル
の1次元上への射影を
によって求め、
- 2次元の場合を例にとり、
個のデータ点がクラス
に、他の
個がクラス
に属するものとし、それぞれのクラス内平均を
、
とする。これら2つの平均の間の距離が最大になるとき射影は元の次元におけるクラス分割を最もよく温存していると考えることができるから、
を最大化する
が得られる。クラス間のオーバーラップを最小にするため、射影の各クラス内分散を最小化するように
- 変換後のクラス内データの分散は
いま簡単に、2クラス全体のクラス内分散を
で定義すると、フィッシャーの基準はクラス間分散のクラス内分散に対する比
として表される。ただし
これを最大化する
が得られる。これは、最適な1次元上への射影の方向を表している。もしクラス内分散が等方的なら、
- 2クラスの場合、最小二乗法とフィッシャーの線形判別法の結果は一致する。
パーセプトロン・アルゴリズム
- パーセプトロン・アルゴリズムにおいては、入力ベクトル
はまず固定された非線形変換
によって変換された後に一般化線形モデル
ここで活性化関数
パーセプトロン基準(perceptron criterion)は
ただし
確率的生成モデル(Probabilistic Generative Models)
- 生成モデルによる場合は、クラス条件付き密度
および事前確率
を求め、これらからベイズの定理によって事後確率
を求めることになる。
- 2クラスの場合は、クラス
の事後確率は
ただし、
ロジスティック・シグモイド関数は以下のような対称性を有する。
ロジスティック・シグモイド関数の逆関数は
でロジット関数(logit function)という。これは2クラスの確率の比率
- いま
が
の線形関数だと仮定すると、事後確率は一般線形モデルに支配される。
クラスの場合
これは正規化指数関数(normalized exponential)と呼ばれ、ロジスティック・シグモイド関数の多クラスへの拡張と見ることができる。正規化指数関数はソフトマックス関数softmax functionとも呼ばれる。
入力値が連続の場合
- クラス条件付き確率分布が正規分布に従い、すべてのクラスが同一の共分散行列を持つものと仮定すると、クラス
の密度は
同一共分散行列の仮定の下では決定境界は線形となり、同一でない場合は二次関数となる。
- 2クラスの場合の尤度関数は
- まず、
についてこれを最大化する。尤度関数のうち、
に依存する項は、
これを
ただし
- 次に
について最大化する。
に依存する項のみを集めると、
これを
となるが、これはクラス
- 同様に共分散行列
についての最尤解は
ただし
これらの結果は多クラスの場合に容易に拡張できるが、この手法には異常値に対する頑健性はない。
特徴値が離散な場合
- 入力が
個の特徴で構成され、それらが
であるとき、単純ベイズ(naive Bayes)仮定の下、すなわち特徴の値は
条件付独立であると仮定すれば、クラス条件付き確率は
となり、
の線形関数
を得る。
となり、
を得る。
- 以上より、正規分布に従うあるいは離散的入力については、事後クラス別確率分布は、ロジスティック・シグモイド関数(2クラスの場合)あるいはソフトマックス関数(2クラス以上の場合)を用いた一般化線形モデルによって与えられることが分かる。これらは、クラス条件付確率
が指数関数族に属するというより一般的な仮定から得られる一般的結果の特別の場合。
確率的判別モデル(Probabilistic Discriminative Models)
- 判別モデルは、条件付事後確率
によって定義された尤度関数を最大化することで直接にパラメータを決定する。生成モデルと比較して、このような判別学習(discriminative training)の利点は、決定すべきパラメータの数が一般に少なくて済む点にある(例えば平均なら生成モデルパラメータ数/クラス数)。
- 2クラスのロジスティック回帰モデル(logistic regression model)
このパラメータを決定するために最尤法を利用する。まず、ロジスティック・シグモイド関数の導関数
と表すことができる。データセット
となる。この尤度関数についてその負の対数をとると以下のクロスエントロピー(cross entropy)誤差関数が得られる。
- このような最尤法は線形分離可能な学習データについて過学習を起こしうることに注意すべきで、これはモデルのパラメータ数よりも学習データ数が多い場合にも当てはまる。これを回避するには、事前確率を含めてMAP解を求める、あるいは同じことだが、正則化項を誤差関数に追加することが必要。
- 線形回帰モデル(第三章)の場合には、ノイズが正規分布に従うという仮定の下で閉形式解が得られたが、ロジスティック回帰モデルにおいてはロジステッィク・シグモイド関数が線形ではないため、もはや閉形式解の存在は保証されない。しかしながら誤差関数は凸関数なので、唯一の最小値を持つ。
- ニュートン-ラフソンの反復最適化法(Newton-Raphson iterative optimization scheme)は、対数尤度関数に対して局地的二次式近似を利用する。
- ニュートン-ラフソン更新は
として
ここでは既にヘッセ行列は重み行列
これは重み付き最小二乗問題の正規方程式の集合の形をとっている。重み行列
プロビット回帰(probit regression)
- ノイズあり閾値モデルにおいては、入力
について
を評価し、
なら1を、それ以外の場合には0を目標変数として出力する。
- 例えば
が平均0、分散1の正規分布に従うとすると、活性化関数は
となり、これはプロビット関数(probit function)の逆関数。これはシグモイドと同様のS字状の形状を持つ。また、
はerf関数と呼ばれプロビット関数と以下のような関係がある。
- ロジステック・シグモイド関数の場合と比較すると、プロビット活性化関数を用いた場合の短所として、異常値により影響されやすいという点が挙げられるが、学習データの誤分類確率
を導入することで解決しうる。
は予め設定することもパラメータとしてデータを用いて推定することも可能。
標準連結関数(canonical link function)
- 目標変数が一般的な指数分布族に属する条件付確率分布に従うとき、対応する活性化関数の逆関数は標準連結関数と呼ばれる。
ラプラス近似(the laplace approximation)
- ラプラス近似はある確率分布をそのモードが一致するように正規分布で近似することを目的とする。
- 実際例では分布は複峰的であることが多く、その場合にはモードごとに異なるラプラス近似を考慮する。中央極限定理によりデータが多くなるに従って分布は正規分布に近づくから、ラプラス定理はデータ点が比較的多い場合に有用。短所は現実の変数に直接にしか適用できないこと、分布の大域的特徴を捉えることが出来ないこと。
- BIC(Bayesian Information Criterion)はAIC同様の情報基準だが、AICよりもモデルの複雑さに対して大きなペナルティを課す。
AICおよびBICはヘッセ行列が最大階数を持たない場合にはミスリーディングな結果をもたらす可能性がある。
ベイズロジスティック回帰(Bayesian Logistic Regression)
- ベイズ的手法によるロジスティック回帰においては解が存在しない。殊に事後分布を得るためには事前分布と尤度関数(それ自身、各データ点に対応するロジスティックシグモイド関数の積)との積を正規化しなければならず、予測分布の同様に厳密解を得られない。従ってラプラス近似を利用することになるが、これは対数事後分布の二階偏微係数をすなわちヘッセ行列を求めることに等しい。
- いま事前分布を
とすれば事後分布は
となる。ここで対数事後分布
予測分布を得るにはこれを周辺化する(詳細略)。