by ゲレゲレ
人狼勝率における統計誤差
○○戦で勝率○○%だ!みたいな自慢や、それに対して、
戦績数が少ないから当てにならないよ!みたいな会話がなされる場面がある。
ランダム要素の戦績に対する統計誤差はどのくらいになるか?
これを定量的に考察してみよう。
1.準備
二項分布
問1: 人狼をn戦した。一回の村で勝利する確率pとしたとき、X戦勝利する確率分布P(X)を
求めよ。(ただし引き分けは考慮しない)
答:
P(X)=C_{n,X}p^{X}(1-p)^{n-X}
=n!/X!(n-X)! p^{X}(1-p)^{n-X}
であることがわかる。(by 高校数学の教科書)
このとき、確率変数Xが二項分布B(n,p)に従うという。
正規分布
確率分布P(X)が
P(X)=1/sqrt(2π) σ exp(-(X-m)^2/σ^2)に従うとき、
期待値m、標準偏差σの正規分布N(m,σ^2)という。
X=mのときにP(X)が最大になり、それからσくらい離れると、
急激にP(X)が減少していくことがわかる。
正規分布表
正規分布における確率分布は、表になっていてそれを参照することができる
1σ=0.3413 0σから+1σが34.13%
2σ=0.4771 0σから+2σが47.72%
3σ=0.4987 0σから+3σが49.87%
標準偏差の範囲内に68%、標準偏差×2の範囲内に95%,標準偏差×3の範囲内に99.5%
統計誤差は、だいたい標準偏差×2ぐらいの範囲だと思っていい。
中心極限定理
二項分布B(n,p)に従う確率変数Xは、nが大きいとき、正規分布N(np,np(1-p))
に従うことが知られている(中心極限定理)
これから、期待値m=np, 標準偏差σ=sqrt(np(1-p))であることがわかる。
2.応用例
問2:人狼を300戦した。一回の村で勝利する確率を45%とするとき、勝率の統計的な
ばらつきはいくらぐらいか?
答:n=300,p=0.45とすると、確率分布はB(n,p)に従う。nが十分大きいので、
これは正規分布N(np,np(1-p))となる。
正規分布の標準偏差σを求めよう。
σ=sqrt(np(1-p))=sqrt(300*0.45*0.55)=8.62
よって、おおよそσ=8.6戦程度。
標準偏差の2倍程度ばらつくと考えて、
これを2倍すると、勝利数は17.2戦程度ばらつく。
勝率に換算すると、17.2/300=5.7%程度。
よって、39.3%~50.7%程度となる。
人狼において、だいだいp=0.5になるので、標準偏差σ=0.5*sqrt(戦績数)になる。
よって、2σ=sqrt(戦績数)。つまり、戦績数の平方根程度の戦績は統計誤差である。
戦績数の平方根、これだけ覚えよう。
別トリによる勝率水増し
以上の考察によると、低戦績トリをいっぱい作って、調子のいいトリだけ残すと、
戦績数の平方根程度の勝率を水増しできる。したがって、
この効果を除いた、以下の補正勝率を考えることによって、
ことなる戦績数の間の勝率をフェアに比較することができる。
補正勝率=(勝利数-sqrt(戦績数))/戦績数
以上のことからわかるように、少ない戦績数で高勝率ってのは、あまり統計的に
意味がない。一つのトリップで安定した数字を出すことのほうが実は相対的に
重要であるといえよう。
3.戦績村効果と村選びの重要性
最終更新:2012年10月10日 18:07