第三章 - (2011/03/29 (火) 17:14:37) の編集履歴(バックアップ)
第三章 線形モデルによる回帰問題
- 教師あり学習による回帰分析の目的は、次元入力ベクトルの値から連続な目的変数を予測すること。
- 非線形な基底関数(basis function)の線形結合を用いることも可。
3.1節 線形基底関数モデル
- 線形回帰
これはについての線形関数であると同時に、についても線形であり、このことがこのモデルに重大な制約を課す結果となっている。そこで以下のように非線形なの基底関数を利用できるように拡張する。
ここでが基底関数。は固定されたオフセットとして利用され、バイアスパラメータ(bias parameter)と呼ばれる(統計学のバイアスとは無関係)。このように拡張されたモデルは、については非線形となるが、については依然として線形。
- 第一章で考察した曲線近似の問題は、多項式基底関数の一例。このモデルの欠点は、基底関数ががのすべての領域にわたって定義されているため、入力空間の一部における変更がすべての領域に対して影響を与えてしまうこと。この点を改善したものがスプライン関数(spline function)。
- 基底関数が正規分布の例
は位置を、は幅を定める。
- 基底関数がシグモイド関数の例
あるいは双曲正接関数(tanh)。ほかにフーリエ基底関数も利用され、その周期は個別で範囲は無限定。
- ウェーブレット(wavelets)関数は、周期も範囲も個別化され、それぞれが互いに直交するように定義される。これは時系列における連続時点や画像のピクセルのように、入力値が規則的格子に沿っている場合に最も有効とされる。
- 最大尤度と最小二乗法
目的変数が以下の式で決定されるものとする。
ここでは平均0の正規分布に従う確率変数であり、その精度(分散の逆数)は。よって
と書ける。平方損失関数を最小化することによって得られる新たなに対する最適な予測は、
ノイズが単純な正規分布に従うと仮定すると、上の条件付確立も単峰的であることになるがこれは多くの場合不適切。
ここでは平均0の正規分布に従う確率変数であり、その精度(分散の逆数)は。よって
と書ける。平方損失関数を最小化することによって得られる新たなに対する最適な予測は、
ノイズが単純な正規分布に従うと仮定すると、上の条件付確立も単峰的であることになるがこれは多くの場合不適切。
- データセットに対応する目的変数によって構成される列ベクトルをとすると、尤度関数は
教師付き学習の回帰ないし判別問題では、入力変数の分布をモデル化することが目的ではないため、をパラメータから除外してよい。対数尤度関数は
この尤度関数からまずを決定するため、について上の式を最大化することを考える。求めるにおいて上式は停留点をとるから、
これをについて解くと、最小二乗法の正規方程式(normal equation)
が得られる。ここではデザイン行列(design matrix)で、その要素は。
はのムーア・ペンローズ型一般逆行列(Moore-Penrose pseudo-inverse)。
- バイアスパラメータは学習データの目的変数の平均値と重み付けされた基底関数の値の平均との間の差を補うものと見ることができる。
- 次にについて同じ尤度関数を最大化することによって、
を得る。
- 最小二乗解とは、基底関数に対応するベクトル集合によって張られる線形部分空間上へのの直交射影と解釈できる。が特異に近い場合には正規方程式を直接求めることは計算上困難だが、これは特異値分解(singular value decomposition,SVD)によって解決できる。正規化項を追加することで常に行列が非特異になるようにすることが可能。
- データ集合が巨大な場合は逐次学習(sequential learning)またはオンライン学習(on-line learning)が適切。逐次学習のアルゴリズムは確率的勾配降下法(stochastic gradient descent)を適用することによって得られる。
は反復回数を表し、は学習レートパラメータ。二乗和誤差関数の場合は
これは最小平均二乗アルゴリズム(least-mean-square(LMS) algorithm)として知られている。の値はアルゴリズムが収束するように選ばれる必要がある。
- 正則化された最小二乗
曲線近似のオーバーフィッティング対策として利用された正則化項をこの場合も適用できる。
二乗和誤差関数に重みベクトルの二乗和を加えるシンプルなケースでは、誤差関数全体は次のようになる(リッジ回帰)。
機械学習の文脈においてはこのような正則化項の選択は重みベクトルの値を0に向かって減衰させるため、重み減衰(weight decay)という。統計学においてはこれはパラメータ縮小法の一例。この手法の利点は、誤差関数をの二次式に保つことができるためその最小化解が容易に求められる点にある。上の式のについての導関数を0と等値してについて解くと、
と簡単になる。
二乗和誤差関数に重みベクトルの二乗和を加えるシンプルなケースでは、誤差関数全体は次のようになる(リッジ回帰)。
機械学習の文脈においてはこのような正則化項の選択は重みベクトルの値を0に向かって減衰させるため、重み減衰(weight decay)という。統計学においてはこれはパラメータ縮小法の一例。この手法の利点は、誤差関数をの二次式に保つことができるためその最小化解が容易に求められる点にある。上の式のについての導関数を0と等値してについて解くと、
と簡単になる。
- より一般的な正則化項を用いた誤差関数は次のようになる。
ここでとすればリッジ回帰となり、とした場合を投げ縄(lasso)という。これは十分に大きなについて係数のうちの幾つかが0になり、対応する基底関数が何の影響も持たなくなるスパースモデル(sparse model)に導かれるという特徴を有している。
3.2節 バイアス・バリアンス分解
- 期待二乗損失
第二項はとは独立でデータに内在するノイズから生じるものだからこの際無視できる。特定のデータセットに対する第一項の被積分関数を
と書き直し、その平均を取ると、
第一項がバイアスの二乗ですべてのデータセットについての予測の平均が理想の回帰関数とどれだけ食い違っているかを表し、第二項は分散、すなわち個々のデータセットに対する解がそれらの平均からどれだけ乖離しているか、つまりが特定のデータセットによってどれだけ影響されるかの程度を表している。つまり(3.37)は
期待損失 = バイアス + 分散 + ノイズ
バイアスと分散との間にはトレードオフの関係があり、非常に柔軟なモデルは低いバイアスと高い分散を伴い、比較的硬直したモデルは高いバイアスと低い分散を伴う。ただし実際には限られたデータセットを複数のセットに分割することは無駄なのでこれらの洞察は実用性には繋がりにくい。
3.3節 ベイズ線形回帰
- 線形回帰モデルのパラメータを決定する最尤法においては、基底関数の個数によって支配される最適なモデル複雑性はデータセットの個数に左右されることを見た。むろん対数尤度関数に正則化項を加えることによって、モデル複雑性は正則化係数によっても制御されうることになるものの、その場合にも依然として基底関数の個数と形式を選択することはモデル全体の振る舞いを決定するのに重要。ある問題に最適なモデルを決定することは尤度関数を最大化することによっては達成できない。なぜならそれは常に過剰に複雑なモデルを選択することすなわち過学習につながるから。既述のように、モデル複雑性を決定するのに別個のデータを使用することも出来るがそれは計算量の増加を招き、またデータの無駄でもある。
- 線形回帰問題に対するベイジアン的手法には、このような尤度関数による過学習を避け、学習パターンのみによってモデル複雑性を決定できるという利点がある。
パラメータ確率分布
- ベイズ線形回帰は、モデルパラメータについての事前確率分布を導入することから始まる。精度パラメータはここでは既知の定数とする。尤度関数
はの二次関数の指数関数によって定義されるから、対応する共役事前分布は正規分布
これから事後分布(ベイズの定理により事前分布と尤度の積に比例する)を平方完成により求めると以下の正規分布となる。
これはのとき事前分布に一致する。事後分布は正規分布で最頻値が平均に一致するから、MAP重みはで与えられる。ここでとすれば、事後分布の平均はに一致する。なお、例によってのとき事後分布は事前分布に一致する。
- いま単純化するために平均が0の等方的な正規分布
を考えると、事後分布の対数は対数尤度と事前分布の対数との和で与えられ、以下のの関数となる。
これをについて最大化することは(3.27の正則化係数がの)二次形式正則化項つき二乗和誤差関数を最小化することと等価。
予測分布
- パラメータ自体よりも新たな入力に対する予測を知りたいということが実際には多いため、予測分布(predictive distribution)
(は学習パターンの目標値ベクトルで、それに対応する入力ベクトルは省略されている)これは書き換えると
となり、分散の第一項はデータのノイズを表し、第二項はパラメータについての不確かさを表している。
- データが観測される毎に予測分散が小さくなり()、のとき第二項は限りなく0に近付き、予測分散はのみによって支配されるようになる。正規分布のような基底関数を使用する場合、基底関数の中心から離れれば離れるほど予測分散の第二項の影響が小さくなり、のみによって支配されるようになるため、基底関数が占める領域外の外挿を行った場合の方が信頼性が高くなるという望ましくない結果となる。この点を改善するのがガウスプロセス(Gaussian process)。
- およびの両方が未知とした場合には共役事前分布はガウス-ガンマ分布で与えられ、予測分布はt分布となる。
等価カーネル
- (3.53)の平均0等方正規分布の事後分布平均を使うと、
と書くことができる。ここでとおくと、
というカーネル表現となる。この場合のカーネルを平滑化行列smoother matrixあるいは等価カーネルequivalent kernelという。
3.4節 ベイジアンモデル比較
3.5節 エビデンス近似
(省略)
3.6節 固定基底関数の限界
非線形基底関数の線形結合から成るモデルは、最小二乗問題についての閉形式解の存在やベイズ的扱いの容易さなどの利点があるものの重大な限界を有している。問題はデータが観測される以前に基底関数が固定されてしまっていることにあり、その結果として入力空間の次元に対してしばしば指数オーダで基底関数の必要数が増加してしまう(次元の呪い)。
しかしながら二つの点が救いとなる。一つは、データベクトルは入力変数間の強い相関によってそれ自身の次元は入力空間のそれよりも小さい非線形多様体の近くに存在することが多い。もう一つは、目的変数はデータ多様体の可能な方向のうちの少しにしか強い依存をしていないこと。ニューラルネットワークは基底関数が反応する入力空間内の方向を選択することでこの性質を利用することができる。
しかしながら二つの点が救いとなる。一つは、データベクトルは入力変数間の強い相関によってそれ自身の次元は入力空間のそれよりも小さい非線形多様体の近くに存在することが多い。もう一つは、目的変数はデータ多様体の可能な方向のうちの少しにしか強い依存をしていないこと。ニューラルネットワークは基底関数が反応する入力空間内の方向を選択することでこの性質を利用することができる。