Novpat's Lab @ ウィキ

パターン認識 & 回帰分析

2009-01-18T18:23:18+09:00

パターン認識と回帰分析の目的は、ともにデータセット

\mathcal{D}_x = \{x_1,x_2,\dots,x_n\},\mathcal{D}_y = \{y_1,y_2,\dots,y_n\}

から予測関数

y = f(x,w)

を求めることにある。予測関数

f

は、パターン認識では識別関数と、回帰分析では回帰関数とそれぞれ呼ばれているが、本質的には同じものである。その違いは、出力変数が離散変数か連続変数かの違いでしかない。ここではパターン認識と回帰分析をひとまとめに考え、その基礎となる技術の解説をおこなう。 __TOC__ ==パーセプトロン== ==多層パーセプトロン== ==偏りと分散のジレンマ== モデルの自由度が高いときに十分な訓練データが与えられなければ、分散が高くなり、結果としてＭＳＥが増大する。この問題をオーバーフィッティング（過適応）という。 ===解決策１：モデル選択=== ===解決策２：ベイズ推定法=== 後述する確率モデルによって表現しなければならない。 ==確率モデルによる推定== 決定理論との相性。事前確率の入れ替え ==パターン認識＆回帰分析の方法== 入力変数

x

から出力変数

y

を予測する方法には、大きく分けて２とおりある。 #予測関数

f(x,w)

を直接推定する。　→　最小二乗法、フィッシャーの判別法、ニューラルネットワーク etc. #条件付き確率分布

p(y|x,w)

を推定する。ここで、

w

はモデルパラメーターである。単純にパターン認識や回帰分析をするだけならば、予測関数を直接推定するだけで十分である。しかしながら、条件付き確率分布を推定することで、次のようなメリットがある。 *得られた結果の信頼度を確率によって評価できる。 *決定理論（期待損失最小化、棄却オプション）による誤識別のリスク軽減 *学習アルゴリズムについて *#ベイズ推定法による、オーバーフィッティングの回避 *#逐次学習の直感的な定式化 *尤度の計算によるモデルの評価（

機械学習と決定理論

2009-01-09T19:23:13+09:00

ここでは、パターン認識や回帰分析の研究をするにあたって基礎となる機械学習と決定理論について、知っておくべき事項を簡単まとめる。 __TOC__ ==機械学習== 学習データセット

\mathcal{D}_x = \{x_1, \dots, x_i, \dots\}

から確率分布

P(X)

を推定することを機械学習という。とくに、対となる２つの学習データセット

\mathcal{D}_x, \mathcal{D}_y

から結合分布

P(X,Y)

もしくは条件付き分布

P(Y|X)

を推定する場合を教師あり学習という。パターン認識や回帰分析は、教師あり学習の一つである。機械学習では、無作為抽出されたサンプル集団から元の確率分布を推定することになるので、推測統計学と関係が深い。実際、機械学習で使う技法の多くは推測統計学のものである。機械学習には、大きく分けてパラメトリック法とノンパラメトリック法とがある。パラメトリック法は、パラメトリックモデル — 有限次元のモデルパラメータで記述された関数の族（Ｅｘ．正規分布） — を用いて確率変数

X

の確率分布を推定する方法である。パラメトリック法には、最尤法、ベイズ推定法、最大事後確率推定法がある。一方、ノンパラメトリック法は、モデルパラメーターは用いずに、データ集合から直接に目的の確率

P(X)

を計算する方法である。ノンパラメトリック法には、ヒストグラム密

機械学習と決定理論（atwikiモード）

2008-12-24T19:05:21+09:00

#contents() *機械学習 &font(green){学習データセット$$\rm x$$から確率分布$$P(\cdot)$$を推定することを機械学習という。}とくに、単一データからなる学習データセット$$\rm{D} \ni x_i$$から確率分布$$P(X)$$を推定することを教師なし学習といい、二つ（以上）のデータからなる学習データセット$$\rm{D} \ni (x_i, y_i)$$から結合分布$$P(X,Y)$$もしくは条件付き分布$$P(Y|X)$$を推定することを教師あり学習という。無作為抽出されたサンプル集団から元の確率分布を推定することになるので、機械学習は&bold(){推測統計学}と関係が深い。実際、機械学習で使う技法の多くは推測統計学のものである。機械学習には、大きく分けてパラメトリックなアプローチとノンパラメトリックなアプローチとがある。パラメトリックなアプローチでは、確率分布関数$$P(X)$$を一次独立な関数の線型（非線型）結合によって表現し、そのパラメーターを推定する。一方、ノンパラメトリックなアプローチでは、データ集合から直接に目的の確率を計算する。 **最尤推定法パラメトリックなアプローチにおいて、もっともポピュラーかつ古典的な推定法が最尤推定法である。変数$$X$$の確率分布が、パラメーター$$\theta$$を用いて条件付き確率$$P(X|\theta)$$であらわされるとき、尤度関数$$f(\theta) = P(\rm{D}|\theta) = \prod_i P(x_i|\theta)$$を最大化する$$\theta$$を推定値$$\hat{\theta}$$とする： $$\hat{\theta} = \arg \max_{\theta} f(\theta)$$。実用的には尤度関数を直接最大化するのではなく、対数尤度関数$$f'(\theta) = \log f(\theta)$$を最大化することが多い。対数をとることで、 $$f'(\theta) = \log f(\theta) = \sum_i \log P(x_i|\theta)$$ となり、解析的な取り扱いが容易となるためだ。とくに、確率分布が指数関数族であらわされる場合は右辺が多項式になるので、解析的に$

計算機科学

2008-11-28T17:25:28+09:00

#contents *計算複雑性理論 **用語の定義 :クラスP |解を多項式時間で見つけられる問題（見つけることのできるアルゴリズムが１つでもある問題）の全体をPであらわす． :クラスNP |多項式時間で解ける決定問題（解の候補が解であるかを多項式時間で判断できる問題）の全体をNPであらわす． :NP完全 |クラスNPに属する問題のうち，もっとも難しい部類にある問題はNP完全であるという． :NP困難 |決定問題ではない問題で，NP完全な問題よりも難しいとき，その問題はNP困難であるという．（例：巡回セールスマン問題，ナップサック問題） ----

最適化手法

2008-11-27T15:29:41+09:00

$$n$$次元の最適化問題を総当たりで解こうとすると，その計算量は$$O(m^n)$$となる．変数間に依存関係がなければ，個別に最適化すれば，計算量を大幅に削減できる（ＩＣＭ）が，依存関係がある場合，それもできない（適用したとしても解の精度は期待できない）．

パターン認識

2008-12-20T23:09:53+09:00

#contents() *パターン認識入力変数を$$x$$、出力変数を$$y$$としたとき、学習データセット$$\rm{D} \ni (x_i,y_i)$$から$$x$$と$$y$$の間に存在する規則性を見つけ出し、新しく観測された$$\hat{x}$$に対応する$$\hat{y}$$を求めることをパターン認識という。なお、出力変数が連続値の場合は&bold(){回帰分析}と同等である。機械学習には、大きく分けてパラメトリックなアプローチとノンパラメトリックなアプローチとがある。パラメトリックなアプローチでは、確率分布関数$$P(y|x)$$を一次独立な関数の線型（非線型）結合によって表現し、そのパラメーターを推定する。一方、ノンパラメトリックなアプローチでは、データ集合から直接に目的の確率を計算する。ある入力$$x$$に対して出力$$y$$が，$$y=f(x)$$にしたがって決まるとする．このとき，&font(red){学習セット$$t_i = [x_i, y_i]$$の集合から関数$$f$$を推定することを機械学習と呼ぶ．}$$y$$が有限離散数の場合は，関数$$f$$が入力$$x$$の分類器の役割を果たすので&font(blue){パターン認識}と呼ばれ，$$y$$が有限離散数の場合は回帰と呼ばれる．なお、出力変数が連続値の場合は&bold(){回帰分析}と同等である。 *機械学習 &font(green){入力変数を$$x$$、出力変数を$$y$$としたとき、学習データセット}$$\rm{D} \ni (x_i,y_i)$$&font(green){から条件付き確率分布$$P(y|x)$$を推定することを機械学習という。}無作為抽出されたサンプル集団から（母集団の）確率分布を推定することになるので、機械学習は&bold(){推測統計学}と関係が深い。実際、機械学習で使う技法の多くは推測統計学のものである。なお、出力変数が連続値の場合は&bold(){回帰分析}と同等である。機械学習には、大きく分けてパラメトリックなアプローチとノンパラメトリックなアプローチとがある。パラメトリックなアプローチでは、確率分布関数$$P(y|x)$$を一次独立な関数の線型（非線型）結合によって表現し、そのパラメーターを推定する。一方、ノン

Tex

2008-10-15T14:58:14+09:00

#contents() *bibtexの使い方 +emacsで ***.bib というデータベースファイルを作成する．この説明ではdatabase.bibというファイル名を使う．（拡張子が.bibのファイルを開くと，BibTexモードで起動する．） +database.bibファイルにエントリー（論文データ）を追加する．（BibTexモードのショートカットを利用するとラクに作れる．）&br()工学系の論文の場合，OPTkey，OPTnote，OPTannote以外は原則としてすべて記入する． +database.bibファイルをtexファイルと同じディレクトリにコピーする．ここではsample.texというファイル名を使う． +sample.texファイルをemacsで開き，reftex-modeを起動する．（M-x reftex-mode） +sample.texファイルの参考文献を加えたいところに，&br()\bibliographystyle{junsrt}&br()\bibliography{database}　（{}内では，複数のファイルをコンマで区切って並べることもできる．）&br()を加える． +引用する部分でreftex-citation（C-c [）とすると，キーワードを求められるので，キーワードを入力する．候補が表示されたら希望の論文を選ぶ． +以下の順でコンパイルする．&br()$ platex sample&br()$ jbibtex sample&br()$ platex sample&br()$ platex sample

UNIX

2008-10-20T01:33:29+09:00

#contents() *UNIXの種類 UNIXには様々な種類がある．大まかに分けるとsolarisなどのsystemV系，FreeBSDなどのBSD系，UNIXライクなOSであるLinuxである．このなかで，私達エンドユーザが利用しやすいデスクトップ環境を用意してくれているのはFreeBSDとLinuxである．ここではそれぞれの長短を述べる． **FreeBSDの特徴 UNIXライクなLinuxとは異なり，実際にUNIX(BSD)の血を継ぐ由緒正しいOSである．それでいながら，Linuxのエミュレーション機能を搭載するなど，デスクトップ用途にも使えるよう配慮されている．ports/packageシステムによるパッケージ管理にも定評がある． :長所|・自由度の高いLinuxとは異なり，UNIX OSである4.4BSD-Liteをベースに組み上げられているため，一度身につけた知識は他のBSD系UNIXでそのまま活かすことができる． :|・雑多なディストリビューションで溢れかえっているLinuxとは異なり，FreeBSDは単一のフィロソフィーに従って設計されているため，一度慣れればバージョンが変わっても設定の仕方が大きく変わることはない． :|・厳格なパッケージ管理システムを持っているので，パッケージ間の整合性を保ったままシステムをアップグレードすることが容易である．-> サーバ用途に向く． :|・ソフトウェアのアップデートが迅速であり，セキュリティも高く，安定している． :短所|・新しいソフトウェアに対する取組みは比較的慎重で，最新のソフトウェアへの対応がLinuxに比べ遅れてしまいがちである．それゆえに，個人ユーザーの数も少なく商用パッケージの対応もされないことが多い．（Linuxエミュレーション機能でカバーしているが限界もある．） :|・Linuxに比べると書籍や情報が少なく，またインストーラも取っつき辛いので，初心者に対する敷居は高い． **Linuxの特徴フィンランドの当時大学生であったリーナス・トーバルズ氏がUNIXをモデルに開発をおこなったUNIX互換OSである．正確にはOSのカーネル部分だけがLinuxであり，このLinuxカーネルにGNU Projectのソフトウェアや、X Window Systemなどを加

会話の話題

2008-10-09T14:16:58+09:00

*面識のある間柄で・・・ -&font(blue){相手のプロフィール（最近の会話）を思い出し，質問を考えておくことが基本．} -&font(blue){相手の好きな（時事）話題} -&font(blue){相手と共有できる自分の話} -（何かイベントがあったら）それについてどうだったか(行ったか)訊く． -共通の友人の話　　Ｅｘ．ちょっと聞いて、誰々がさぁ、～～～　（この話題のためにも色々な友人と連絡を取り合って話題を集めよう．） -一面ニュース（誰でも知っている話題） -夏休みはどこか遊びに行ったりしないの？ -料理の話　Ｅｘ．昨日〜を作ったんだけど，〜〜〜． -ＴＶ（有名なニュース＆ドラマ＆占い） -最近どう？（笑） -（相手の特技がわかっていたら）アドバイスを求める． *初対面の場合 -出身地 -サークルや部活 -休日の過ごし方・遊ぶ場所（趣味・特技）　Ｅｘ．夏休みはどこか遊びに行ったりしいひんの？ -血液型・星座（占いに絡めて） -将来の夢・目標 -仕事

集合と写像

2008-12-16T21:11:08+09:00

#contents() *集合 **集合の定義集合とは，&font(blue){範囲が明確なものの集まり}をいう．たとえば，自然数のものの集まりなどは，範囲がはっきりしているから，確かに集合と考えられる． $$A$$が１つの集合であるとき，$$A$$の中にはいっている個々の'もの'を，$$A$$の&font(blue){元}という． 'もの'$$a$$が集合$$A$$の元であることを，記号で$$a \in A$$と書く．このことを$$a$$が$$A$$に属するなどともいう． **集合の記法集合を具体的に表す記法について説明する．一般に，元$$a,b,c,\cdots$$よりなる集合を$$\{ a,b,c,\cdots \}$$という記号で表す．これを集合の&font(blue){外延的記法}という．しかし，この記法はすべての元を書き上げる事ができる集合でしか用いることができない．そこで，変数$$x$$と変数の性質を記述した条件$$C(x)$$から，$$\{ x | C(x) \}$$と記述する方法を&font(blue){内延的記法}という．たとえば，0以上10未満の実数を集めた集合は$$\{ x | x \in R, 0 \leq x < 10 \}$$と記述する．（&font(blue){条件のカンマ'$$,$$'は'かつ'の意味を表している．}） **論理記号と集合演算 |論理記号|：意味（読み方）| |$$x \in X$$|：$$x$$は$$X$$に属する．$$x$$は$$X$$の元である．| |$$A \subset B$$|：$$A$$は$$B$$の部分集合である．| |$$p \Rightarrow q$$|：$$p$$ならば$$q$$である．| |$$p \Leftrightarrow q$$|：$$p$$と$$q$$は同等である．| |$$\exist x(C(x))$$|：少なくとも一つの$$x$$で（は），条件$$C(x)$$を満たす．| |$$\forall x(C(x))$$|：全ての$$x$$で（は），条件$$C(x)$$を満たす．| |$$\exist x \in X(C(x))$$|：$$X$$に属する少なくとも一つの$$x$$は，条件$$C(x)$$を