Library > 数学 > 統計学 > Note3_確率分布の理解と乱数生成

キーワード

ベルヌーイ試行
2項分布
負の2項分布
超幾何分布
ポワソン分布
一様分布
正規分布
ベータ分布
ガンマ分布
指数分布
ワイブル分布
ラプラス分布
ハザード分布
ロジスティック分布
カイ2乗分布
t分布
F分布


離散確率分布



ベルヌーイ試行

  • 独立同一分布(i.i.d)で、事象の要素が、2種類(0と1)で、例として、1の発生確率をp、0の発生確率を1-pとした長さnの、事象の順序を決めた場合の確率

P(X_{1}=k_1, X_{2}=k_2, \dots ,X_{n}=k_n)=p^k(1-p)^{n-k}, k=\sum_{i=1}^{n}k_i


2項分布

  • 独立同一分布(i.i.d)で、事象の要素が、2種類(0と1)で、例として、1の発生確率をp、0の発生確率を1-pとした長さnの時の、1の発生回数が、X=kとした場合の確率

P(X=k)={}_n C_k p^k(1-p)^{n-k}, k=0,1,\dots,n


ポワソン分布

  • 2項分布の極限操作によってポワソン分布を作る事ができる。
  • 希現象の大量観察のモデルとして、使われる。
  • トラフィック理論では、呼の到着モデルとして使われる。

n \to \infty , p \to 0, np=\lambda \ge 0

p_k = e^{-\lambda} \frac{\lambda^k}{k!}


負の2項分布

  • ベルヌーイ試行において、0がr回数出るまで続ける場合、その間に出続ける1の回数をXとする。

P(X=k)=p_k={}_{k+r-1} C_k p^k(1-p)^{r},


超幾何分布

  • M個の要素から成り、そのうちN個は、1であるサンプルを想定する。M-N個は、0である母集団から重複を許さずn個の要素を取り出す(非復元抽出)行為を行う。そこから取り出した1個が、Xとなる確率。

P(X=k) = ({}_N C_k)({}_{M-N} C_{n-k}) / {}_{N} C_{n}



連続確率分布


一様分布

  • 区間(a,b)内に一様にランダムに値を取る確率変数

f(x) = \frac{1}{b-a}, a\leq x \leq b

  • 平均

E(X)= \frac{a+b}{2}

  • 分散

VAR(X)= \frac{(b-a)^2}{12}


正規分布

  • 平均\mu、分散\sigmaの正規分布。中心極限定理で保証される。
  • 密度関数 \Huge f(x) = \frac{1}{ \sqrt(2\pi \sigma^2)} exp(-(x-\mu)^2/(2 \sigma^2))

標準正規分布

  • 平均0、分散1の正規分布。

対数正規分布

  • Y=logXが、正規分布に従う場合のXの分布

ロジスティック分布

\Huge f(x) = exp(-(x-\mu)/\sigma)/(\sigma \{1+ exp(-(x-\mu)/\sigma) \})^2


ベータ分布

  • 密度関数 f(x) = \frac{1}{B(a,b)} x^{a-1}(1-x)^{b-1}, a\le x \le b
  • ベータ関数 B(a,b)=\int_0^{\infty}x^{a-1}exp(-x)dx, a\ge 0

ウィシャート分布

  • 多次元のベータ分布

ガンマ分布

  • ベイズ推定では、応用上、重要らしい。
  • 密度関数 f(x)=\frac{1}{\Gamma (\alpha) \beta^{\alpha}} x^{\alpha -1} exp(-\frac{x}{\beta}), x \geq 0, \alpha, \beta \geq 0

ディリクレ分布

  • 多次元のガンマ分布

指数分布

  • 故障確率のモデルでもある。ポワソン分布と関連深い。
  • 密度関数 f(x)=\lambda exp(-\lambda x)
  • ポワソン分布との関係
    • ポワソン分布をアレンジ(0,t]の間にk個の事象(故障)が発生する確率は、 p_k = e^{-\lambda t} \frac{(\lambda t)^k}{k!}
  • 次に、最初から(0,t]の間に0個の事象(故障)が発生する確率は、 P(X \geq 0)=p_0 = e^{-\lambda t} \frac{(\lambda t)^0}{0!}=e^{-\lambda t}
  • これから、(0,t]の間に1個以上の事象(故障)が発生する確率は、 P(X \leq 0) = 1- P(X \geq 0) = 1- e^{-\lambda t}
  • よって、単位時間当たりに、1個以上の事象(故障)が発生する確率は、 \frac{d P(X \leq 0)}{dt} = \lambda exp(-\lambda t)
  • tをxに置き換えればよし。

ワイブル分布

  • 指数分布のアレンジ f(x)=\frac{c}{\alpha } (\frac{x}{\alpha })^{c-1} exp (-(\frac{x}{\alpha })^c), x\geq 0

パレート分布

  • 高額所得者の分布で見られる分布

ラプラス分布(2重指数分布)

  • a,bは、正規化する必要あり。 f(x)=\frac{1}{2b} exp(-\frac{|x-a|}{b})


カイ2乗分布

  • X_1,...X_nが、互いに独立で、標準正規分布N(0,1)に従う変数とする。このとき、

X= \sum_{i=1}^n X_i^2

  • の分布を自由度nのカイ2乗分布と呼ぶ。
  • 平均は、n、分散は、2nとなる。

t分布(stdudent分布)

  • Xが、標準正規分布N(0,1)、Yが、自由度nのカイ2乗分布に従うとき、

T=\frac{X}{\sqrt{Y/n}}

  • の分布を自由度nのt分布とする。

コーシー分布

  • 自由度1のt分布である。

F分布

  • Xが、由度mのカイ2乗分布、Yが、自由度nのカイ2乗分布に従うとき、

F=\frac{(X/m)}{(Y/n)}

  • の分布を自由度(m,n)のF分布と呼ぶ。


統計物理学との関連

マクスウェル-ボルツマン(Maxwell-Boltzman)分布

フェルミ分布

ボース分布



乱数生成(特定の分布)

一様分布の生成

メルセンヌツイスター

  • 有名

正規分布の生成

ボックス=ミュラー法

中心極限定理を用いた手法

乱数生成(任意の分布)

棄却法

マルコフ連鎖モンテカルロ法

メトロポリス・へイスティング法

ギブスサンプラー


このコラムの参考文献

統計
  • 白旗 慎吾,"統計解析入門",共立出版
  • NTTラーニングシステムズ株式会社編,"電気通信主任技術者 伝送交換設備及び設備管理・法規編"
    • 故障率の解説がわかりやすい。
  • 阿部龍蔵,"熱統計物理学",裳華房
  • 基礎統計学Ⅰ(統計学入門),東京大出版
    • パレート分布の存在を教えてくれた。
  • 杉山将,"機械学習プロフェッショナルシリーズ 機械学習のための確率と統計",講談社
    • ラプラス分布、ディリクレ分布、ウィシャート分布を参考。
最終更新:2016年05月05日 18:49