== 確率の哲学 == '''確率の解釈''' 確率的(stochastic)か,決定的(deterministic)か '''コペンハーゲン解釈(Copenhagen interpretation)''' 確率的にしか分かりえない。 '''ラプラスの悪魔(Laplace's demon)''' ただ情報が足りない。 '''確率とは何か''' 統計学:相対度数 統計力学:場合の数 数学:公理的確率論 ←ヒルベルト,コルモゴロフ '''統計の範疇''' 1. データ(有限個の試行結果)から元の分布を推定すること。 2. データから(分布に限らず)統計量を推定すること。 == 基礎付け == '''試行''' 現象の背景にある何らかの構造を調べる実験(村田) 実験,観測,調査など,結果が偶然によって左右され,その値や返答などを確実には予知しきれない操作(聖文社「数学定理・公式小事典」) '''標本空間 Ω''' 試行の結果得られるもの('''見本点''',あるいは'''根元事象''' ω)の全体 '''事象''' <math>\mathcal{D} \subset \mathcal{P}(\Omega) \mbox{ : $\sigma$-field}</math> Dの元を事象という。 Ω自体を特に'''全事象'''という。 '''確率測度''' <math>P:\mathcal{D} \to [0,1] \mbox{ in } \mathbb{R} \mbox{ s.t.}</math> 1. <math>P( \cdot ) \geq 0</math> 2. <math>P( \amalg_n^\infty A_n ) = \sum_n^\infty P(A_n)</math> 3. <math>P(\Omega)=1</math> '''確率空間''' 3つ組み <math>(\Omega, \mathcal{D}, P)</math> による測度空間 '''確率変数''' ←可測関数のこと。 <math>X : \Omega \to \mathbb{R} \mbox{ s.t.}</math> <math>\forall B \in \mathcal{B}[\mathbb{R}] \mbox{ : } X^{-1}(B) \in \mathcal{D}</math> 標本空間上定義された実数値関数で,任意の区間の逆像が確率事象(可測集合)になる関数のこと。 試行によって根元事象ωが決まると確率変数X(ω)の値も決まるので,変数と呼ばれる。 通常の関数f(x)の値をyと書くように,確率変数X(ω)の値はxと書かれる。紛らわしいので注意。 → 確率変数の見本空間 <math>\Omega^X := X(\Omega)</math> → 確率変数の確率測度 <math>P^X(B) := P(X^{-1}(B))</math> '''Ex.1.1 サイコロ : Ω={1,2,3,4,5,6}''' <math>X(\omega) = \left \{ \begin{array}{lc} 1 & \mbox{$\omega$ : odd} \\ 0 & \mbox{otherwise} \right.\end{array}</math> <math>\Omega^X = \{ 0,1 \}</math> <math>P^X(X=1) = P(\{2,4,6\}) = P(\{2\})+P(\{4\})+P(\{6\}) = \frac{1}{3} + \frac{1}{3} + \frac{1}{3} = \frac{1}{2}</math> '''Ex.1.2 サイコロ''' <math>Y(\omega) = 10 \omega</math> '''Ex.2 ルーレット : Ω=[0,1)''' <math>Z(\omega) = \sin \omega, \sqrt{\omega}, \cdots</math> '''確率分布''' '''確率変数'''の取り得る全ての値に対して,その確率を対応させたもの。 ヒストグラム,数値表,分布関数,etc. 表現法は様々 '''分布関数''' <math>F : \mathbb{R} \to [0,1]; x \mapsto P(X \leq x)</math> '''Rem.''' 分布関数は,右連続かつ広義単調増加関数であり, F(-∞)=0, F(∞)=1 '''密度関数''' 分布関数の Radon-Nikodym の意味での微分 <math>f(x) := \frac{d F(x)}{d x}</math> → <math>F(x) = \int_{-\infty}^x f(x) dx</math> '''Rem.''' RNでは2つの測度の絶対連続が前提だが,厳密にはF(x)は測度ではない(集合関数でない)ので,絶対連続の条件を満たさない。 つまり,実際に裏でRNの成立を保証しているのは,ボレル集合(Rの区間による完全加法族)上の測度として絶対連続性を有する P(E) の方である。 <math>\mu(E)=0 \Rightarrow P(E)=0</math> '''Rem.''' 離散値確率変数の分布関数は右連続だが左連続ではない(要するに不連続関数)なので,当然 P(E) は絶対連続の条件を満たさない。 従って離散値確率変数の分布関数に対してはRN微分を考えることもできず,(通常の意味で)密度関数は存在しない。 村田先生は確かDirac-δによる密度について触れてた気もする。 '''Rem.''' 連続値確率変数であっても,至るところ微分可能でない分布が存在する('''特異分布''') '''Th.密度関数であるための条件(?)''' <math>\int_\Omega f d\omega=1</math> <math>f(\omega) \geq 0</math> '''期待値''' 分布関数 F(x) による x のLebesgue-Stieltjes積分 <math>\mathbb{E}X := \int_{\Omega^X} x dF(x) </math> '''Rem.''' 分布関数は右連続・広義単調増加なので,対応するLS測度が存在する。 '''離散値確率変数の場合''' <math>\mathbb{E}X = \sum_{i=1}^N x_i P(X=x_i)</math> '''連続値確率変数の場合''' <math>\mathbb{E}X = \int_\infty^\infty x f(x) dx</math> == 推定量 == 推定とは,真の分布が分からないときに,有限個のデータ点から割り出された統計量のこと。 '''標本平均:期待値の推定量''' <math>m := \frac{1}{n} \sum_{k=1}^n x_k</math> この式は,独立同分布に従う確率変数から作り出される新たな確率変数とみなすこともできる。 <math>M := \frac{1}{n} \sum_{k=1}^n X_k</math> 即ち,1本目の式 m は具体的な数字だが,実は確率変数 M の実現値なのである。 確率変数 M の期待値は真の期待値に一致する。 <math>\mathbb{E}M = \frac{1}{n} \sum_{k=1}^n \mathbb{E}X_k = \frac{1}{n}\sum_{k=1}^n \mu = \mu</math> 即ち, <math>\mathbb{E}M = \mu</math> '''不偏分散:分散の推定量''' 未知分布による期待値が真値<math>\sigma^2</math>に一致する。 <math>s^2 := \frac{1}{n-1}\sum_{k=1}^n (x_k - m)^2</math> これも,次のような確率変数の実現値であると捉えなおすことで, <math>S^2 := \frac{1}{n-1}\sum_{k=1}^n (X_k - M(X_1, \cdots, X_n))^2</math> その期待値が真値 <math>\sigma^2</math> に一致する。 <math>\mathbb{E} S^2 = \frac{1}{n-1} \mathbb{E} \left\{ \sum_k \left( X_k^2 - \frac{2}{n} \sum_l X_k X_l + \frac{1}{n^2} \sum_{p,q} X_p X_q \right) \right\}</math> <math> = \frac{1}{n-1} \mathbb{E} \left\{ \sum_k X_k^2 - \frac{2}{n} \sum_{k,l} X_k X_l + \frac{1}{n} \sum_{p,q} X_p X_q \right \}</math> <math> = \frac{1}{n-1} \mathbb{E} \left\{ \sum_k X_k^2 - \frac{1}{n} \sum_{p,q} X_p X_q \right \}</math> <math> = \frac{1}{n-1} \mathbb{E} \left\{ \sum_k X_k^2 - \frac{1}{n} \sum_l X_l^2 - \frac{2}{n} \sum_{p < q} X_p X_q \right \}</math> <math> = \frac{1}{n-1} \mathbb{E} \left\{ (1-\frac{1}{n}) \sum_k X_k^2 - \frac{2}{n} \sum_{p < q} X_p X_q \right \}</math> <math> = \frac{1}{n-1} \left\{ (1-\frac{1}{n}) \sum_k \mathbb{E} X_k^2 - \frac{2}{n} \sum_{p < q} \mathbb{E} X_p \mathbb{E} X_q \right \}</math> <math> = \frac{1}{n-1} \left( (1-\frac{1}{n}) n \chi^2 - \frac{2}{n} \frac{n(n-1)}{2} \mu^2 \right)</math> <math> = \frac{1}{n-1} (n-1) ( \chi^2 - \mu^2 ) = \sigma^2</math> == さまざまな分布関数 == '''正規分布''' '''多変量正規分布''' == 複数の確率変数 == 多次元のときは,'''同時分布'''が基本。 <math>X_k</math> の従う分布を <math>F_k(x_k)</math> とする。 <math>g(X_1, X_2, \cdots, X_n) </math> の従う分布は <math>F(x_1, x_2, \cdots, x_n)</math> が基本。 各変数が'''独立'''の場合に限って,次が成り立つ。 <math>F(x_1, x_2, \cdots, x_n) = F_1(x_1) F_2(x_2)\cdots F_n(x_n)</math> すなわち, <math>\mathbb{E} g(X_1, X_2, \cdots, X_n) = \int_{\mathbb{R}^n} g(x_1, x_2, \cdots, x_n) dF(x_1, x_2, \cdots, x_n)</math> <math>\int_\mathbb{R} \! \cdots \! \int_\mathbb{R} g(x_1, x_2, \cdots, x_n) dF_1(x_1)dF_2(x_2) \cdots dF_n(x_n)</math> '''Lem. ''' 計算にあたっては次の変形が本質的 <math>\int_{\mathbb{R}^n} g(x_i) dF(x_1, \cdots, x_n) = \int_\mathbb{R} g(x_i) dF_i(x_i)</math> これを用いて,次のように <math>\mathbb{E}</math> の積分変数が曖昧なままでも公式が成立する。 <math>\mathbb{E}(X_1 + X_2) = \mathbb{E} X_1 + \mathbb{E}_2 X_2</math> '''定義(平均)''' '''定義(分散)''' '''定義(共分散)''' '''定義(相関係数)''' '''定義(分散共分散行列)''' '''定義(相互共分散)''' '''定義(相関行列)''' == 収束いろいろ == ===概収束=== 強法則で使う。 確率論では次のように表記される。 <math>P( \lim_{n \to \infty} X_n = X )=1</math> これは次のように書き換えると通常の概収束の表現になる。 <math>P( \lim_{n \to \infty} X_n \neq X )=0</math> 確率1で収束,almost surely (a.s.) とも書く。 '''Prop. 概収束の扱い方''' <math>N := \{ \omega | \lim_{n \to \infty} X_n \to X \} = \bigcap_{j=1}^\infty \bigcup_{n=1}^\infty \bigcap_{k=n}^\infty \left \{ |X_n - X| < \frac{1}{j} \right \}</math> とおいて(両辺が等しいことは自明でない)P(N)=0 を示す。 '''Prop. 上極限の扱い方''' <math>\overline{\lim_{n \to \infty}}E_n = \bigcap_{n=1}^\infty \bigcup_{k=n}^\infty E_k</math> という表記はいかにもなので,次のようにワンクッション置いて考える。 即ち, <math>F_n := \bigcup_{k=n}^\infty E_n </math> とすれば,単調列の極限になる。 <math>\overline{\lim_{n \to \infty}}E_n = \bigcap_{n=1}^\infty F_n, \quad F_1 \supset F_2 \supset \cdots</math> 特に, <math>F_n \supset E_n</math> ===確率収束=== 弱法則で使う。 確率変数の測度収束のこと。 <math>\lim_{n=\infty} P(|X-X_n|>\epsilon) = 0 </math> 確率収束すればa.e.の意味で一意である。 ===法則収束=== 中心極限定理で使う。 確率収束⇒法則収束 確率変数Xの分布関数をFとする。 Fの連続点を端点とする任意の区間Iに対して以下が成り立つとき,法則収束するという。 <math>P\{ X_n \in I\} \to P\{ X \in I\} \quad (n \to \infty)</math> <math>X_n \xrightarrow{low} X</math> '''Th. 法則収束は分布収束''' 分布関数列{F<sub>n</sub>}がFに法則収束するための必要十分条件は, Fの'''任意の連続点'''で各点収束すること。 <math>\lim_{n \to \infty} F_n(x) \to F(x)</math> '''Th. Levyの連続定理''' 法則収束 ⇔ 特性関数 φ(t)がt=0の近傍で一様収束 == 特性関数とフーリエ変換 == '''特性関数''' 確率変数X,分布関数F(X)とする。 X(またはF)の特性関数φとは, <math>\phi(t) := \int_{-\infty}^\infty e^{j t x} dF(x) </math> == 大数の法則と中心極限定理 == === 大数の弱法則 === いろいろバリエーションがある。 実問題においては,確率変数の平均や分散の存在を保証することは難しいので, 様々な仮定で類似の定理(算術平均の確率収束)が証明された。 平均収束(L2ノルム収束)すれば確率収束(測度収束)するが, 大数の弱法則は平均収束に言い換えても成り立つ。 '''大数の弱法則(必ずしも独立でない場合)''' 確率変数列 {X<sub>n</sub>}(必ずしも独立でない) 確率変数の和 <math>S_n := \sum_{k=1}^n X_n</math> ←和もまた確率変数 Snが平均 <math>\m_n := E(X_1 + \cdots + X_n)</math> と分散 <math>\s^2_n := V(X_1 + \cdots + X_n)</math> を持ち,次を満たすとする。 <math>\frac{\s_n^2}{n^2} \to 0</math> このとき測度収束極限が存在する(もとの確率変数列に平均があるわけではないので,収束先がナニモノかはよく分からない)。 <math>\frac{S_n-\m_n}{n} \xrightarrow{prob.}0</math> [証明] Chebyshevの不等式において,<math>k \s_n=n \epsilon</math>とおけばよい。 <math>P(\Big| \frac{S_n - \m_n}{n} \Big| < \epsilon) < \frac{\s_n^2}{n^2 \epsilon^2}</math> これが任意のεについて成り立つから確率収束(測度収束)を表す。 '''Cor. 大数の弱法則(独立同分布で分散があるとき)''' 確率変数列に共通の分散σ2の存在を仮定すれば以下が示される。 <math>\frac{1}{n} \sum_{k=1}^n (X_k-\frac{S_k}{k})^2 \xrightarrow{prob.}\sigma^2 </math> これも観測値から分散を推定する方法として統計学で有用。 '''(Khinchin) 大数の弱法則(独立同分布で平均があるとき)''' 確率変数列 {X<sub>n</sub>}(独立同分布) 確率変数の和 <math>S_n := \sum_{k=1}^n X_n</math> Xnが平均μを持つとする。 ←分散は無くてもおk このとき算術平均は元の分布の平均に確率収束する。 <math>\frac{S_n}{n} \xrightarrow{prob.}\mu </math> これは観測値から平均を推定する方法として統計学で有用。 [証明]はちょっと長い。 === 大数の強法則 === 強法則は概収束を主張する。 概収束⇒確率収束だから,強法則から弱法則が従う。 '''大数の強法則(同分布でない)''' 確率変数列 {X<sub>n</sub>}(独立)必ずしも同分布でなくてよい。 各確率変数が平均<math>\mu_n := EX_n</math>と分散<math>\sigma^2_n := VX_n</math> を持つとする。 さらに以下が成り立つとする。 <math>\sum_{n=1}^\infty \frac{\sigma^2_n}{n^2} < \infty</math> このとき,<math>S_n := X_1 + \cdots + X_n</math>の平均<math>m_n := ES_n</math>として, <math>\frac{S_n - m_n}{n} \xrightarrow{a.e.} 0</math> [証明]はKolmogorovの不等式を使う。 '''大数の強法則(同分布)''' 確率変数列 {X<sub>n</sub>}(独立同分布) 各確率変数が平均μを持つとする。 ←分散はいらない。 <math>\frac{S_n}{n} \xrightarrow{a.e.} \mu</math> ===中心極限定理=== 弱法則の拡張(CLT ⇒ 弱法則) 算術平均は正規分布に法則収束する。 '''中心極限定理''' 独立な確率変数列{X<sub>k</sub>}の従う分布列{F<sub>k</sub>} 各 X<sub>k</sub> は平均0で分散<math>\sigma^2_k:=VX_k</math>を持つとする。(平均μのときは中心化する。) 確率変数の和 <math>S_n := \sum_{k=1}^n X_k</math> の分散を <math>s_n^2 := VS_n = \sum_{k=1}^n \sigma_n^2</math> とおく。 さらに,以下を満たすとする('''Lindebergの条件''')。 <math>{}^\forall \epsilon >0 \quad \frac{1}{s_n^2} \sum_{k=1}^n \int_{|x| > \epsilon s_n}x^2 dF_k(x) \to 0 \quad (n \to \infty)</math> このとき算術平均Snの正規化は正規分布N(0,1)に法則収束する。 <math>P(\frac{S_n}{s_n} \leq x) \xrightarrow{low} \frac{1}{\sqrt{2 \pi}} \int_{-\infty}^x e^{-\frac{t^2}{2}}dt</math> [証明]は特性関数を使う。PDE論的にやる方法,作用素論にやる方法もある。 == ベイジアンと頻度主義 == == Fisher情報行列 == == Cramer-Raoの不等式 == == 情報幾何 ==