prml_note @ ウィキ
第七章
最終更新:
prml_note
-
view
第七章 疎な解を持つカーネルマシン(Sparse Kernel Machines)
- 前章で見た非線形カーネルに基づく学習アルゴリズムは、学習データ点の全ての
の組み合わせについてカーネル関数が評価される必要があるため、計算量が増加する欠陥があった。ここでは学習データの部分集合のみについて評価されれば足りるカーネル関数によって予測を行う、疎な(sparse)解を持つカーネルベースの手法を扱う。
- SVM(support vector machine)は、ここ数年来、回帰・クラス判別・新規性検知における一般的な手法となっている。SVMの特徴は、モデルのパラメータ決定が凸最適化問題に対応していることと、そのために任意の局所解はまた大域的にも最適解である点にある。SVMは決定機械なので事後分布を提供しない。これに対して関連ベクトルマシンはベイズ法に基づいており事後分布を提供し、通常SVMよりもさらに疎な解を与える。
7.1 最大マージン判別器(Maximum Margin Classifiers)
- 2クラス判別問題における線形モデル
を考え、目標変数は
- すべての学習データ点を正しくクラス分けする(7.1)の形式を持つ超平面を
とすると、
が成り立つ。一方、点
で表されるから、最大マージン解は
を最大化する
という複数の制約の下で
を最小化する
この問題を解くためにラグランジュの未定乗数
これを
(7.10)はこれ自体別の二次計画問題となっており、その計算複雑性は(7.6)の場合は
- 新たな入力をクラス分けするには、
の符号を調べる。
- 最大マージン判別器は以下の単純な二次正則化項付き誤差関数の最小化問題として表すことができる。
ただし
- 最大マージンを持つ超平面はサポートベクトルである学習データ点のみに依存し、それ以外の学習データ点には一切依存しない。
クラス分布が重複する場合
- これまでのように学習データ点が線形分割可能であるとの仮定の下では、結果として得られるSVMは元の入力空間
において学習データ点を完全に分割することができた(境界平面は線形とは限らない)。しかし一般にはクラス別分布は互いに重なり合っている可能性があり、その場合にはこれまでのような完全分割ではよい予測能力が得られないことが実際には多い。
- そこでSVMに学習データに誤分類されたものが含まれるという仮定を追加する(ソフトマージン)。そのためには各学習データ点ごとにスラック変数(slack variable)
を導入し、正しいマージン境界上ないし内側に位置する学習データについては
、それ以外の学習データについては
とすると、決定平面上の学習データ(
)については
、誤分類された学習データについては
となる。すると全ての学習データ点について
これによってクラス別分布の重複が許されることになるが、この手法は誤分類に対して与えられるペナルティが
- ソフトマージンによるSVMは
を最小化する問題として表すことができる。
- ソフトマージンによるSVMは、(7.20)および
の制約の下で(7.21)を最小化する問題、すなわち
(
(詳細略)
- あるいは
-SVMという等価な手法もある。