Chapter 4 Estimates of Mean and Errors(DRaEA)

4.1 METHOD OF LEAST SQUARES

Chapter2で、母分布の平均は、サンプルの平均と出来ると説明した。一般に、ポアソン分布でもガウス分布でもいいのだが、たいていの場合に区別がつかないので、ガウス分布であると仮定する。

[Method of Maximum Likelihood]

実験で、無限の母分布からNこのデータ点をとってくる。母分布が平均 $\mu$ 、標準偏差 $\sigma$ のガウス分布だとすると、ひとつの点 $x_i$ が、幅dxの間に入る確率は、
$dP_i = p_i dx$
$p_i = p_G(x_i;\mu ,\sigma )$
である。単純に、 $x_i$ を観測する確率を
$P_i = \frac{1}{\sigma \sqrt{2\pi}}\exp\left[-\frac{1}{2}\left(\frac{x_i - \mu}{\sigma}\right)^2\right]$
とする。

一般に、物理実験に対する分布の平均 $\mu$ はわからないので、実験的に導かれたパラメータによって評価しなければならない。その評価を $\mu^{\prime}$ とする。どんな公式が母分布が $\mu$ と等しい平均を持つ最もありうるものになるだろうか。
もし、平均 $\mu^{\prime}$ と標準偏差 $\sigma^{\prime}$ を持つ試行分布を仮定すると、値 $x_i$ を観測する確率は確率関数
$P_i(\mu^{\prime}) = \frac{1}{\sigma \sqrt{2\pi}}\exp\left[-\frac{1}{2}\left(\frac{x_i - \mu^{\prime}}{\sigma}\right)^2\right]$
で与えられる。N回の観測の全体を考えると、そのような特定の全体が観測される確率は、個々の関数 $P_i(\mu^{\prime})$ の積で与えられる。
$P(\mu^{\prime})=\prod_{i=1}^{N}P_i(\mu^{\prime})$

よって、
$P(\mu^{\prime})=\left(\frac{1}{\sigma\sqrt{2\pi}}\right)^N\exp\left[-\frac{1}{2}\sum\left(\frac{x_i-\mu^{\prime}}{\sigma}\right)^2\right]$
となる。

最大確率法(the method of maximum likelihood)によると、 $\mu^{\prime}$ は異なるが、同じ標準偏差 $\sigma^{\prime}=\sigma$ を持った様々な母分布から観測全体が得られる確率 $P(\mu^{\prime})$ を比較すると、確率は、 $\mu^{\prime}=\mu$ を持つ分布から導かれたデータが最大の確率となる。つまり、最もありうる分布は正しいものであると仮定されている。

[Calculation of the Mean]

最大確率法は、 $\mu^{\prime}$ の最もありうる確率は、確率 $P(\mu^{\prime})$ の最大値を与える。この確率は、定数と負の項のexponentialの積であるから、確率 $P(\mu^{\prime})$ を最大化することは、exponentialの項Xを最小にすることと等価である。
$X=-\frac{1}{2}\sum\left(\frac{x_i-\mu^{\prime}}{\sigma}\right)^2$

関数Xの最小値を求めるために、関数の微分を0にする。
$\frac{dX}{d\mu^{\prime}} = - \frac{d}{d\mu^{\prime}}\frac{1}{2}\sum\left(\frac{x_i-\mu^{\prime}}{\sigma}\right)^2 = 0$
そして、
$\frac{dX}{\mu^{\prime}} = - \frac{1}{2} \sum \frac{d}{d\mu^{\prime}}\left(\frac{x_i-\mu^{\prime}}{\sigma}\right)^2$
$=\sum\left(\frac{x_i-\mu^{\prime}}{\sigma^2}\right)=0$
を得る。ここで、 $\sigma$ は定数であるから、
$\mu^{\prime} = \bar{x} \equiv \frac{1}{N} \sum x_i$
となる。

最大確率法は、平均のもっともありうる値が平均値 $\bar{x}$ であることを示している。

[Estimated Error in the Mean]

平均 $\mu^{\prime}$ の決定には、どのような不定性 $\sigma$ が関連しているだろうか。我々は、全てのデータ点 $x_i$ は同じ母分布から得られ、同じ標準偏差 $\sigma$ で特徴づけられた不定性をもって得られる。これらのデータ点のそれぞれは、平均 $\mu^{\prime}$ の決定に寄与しており、それゆえ、それぞれのデータは最終結果の決定にいくらかの不定性を与える。我々のデータ点のヒストグラムは値 $\mu^{\prime}$ をピークとし、標準偏差 $\sigma$ に対応した幅をもったガウシアン形に従うだろう。明らかに、 $\pm\sigma$ よりかなりよく平均を決定でき、決定はデータ点の数Nを増やすことで改善し、ヒストグラムとなめらかなガウシアン曲線が一致していく。

Chapter 3で、誤差伝播方程式を導き、単一の結果に寄与するいくつかの項の不定性への寄与を得た。この関係を(4.9)式に適用して平均 $\mu^{\prime}$ の分散 $\sigma_{\mu}^2$ を得ることで、
$\sigma_{\mu}^2 = \sum\left[\sigma_i^2\left(\frac{\partial \mu^{\prime}}{\partial x_i}\right)^2\right]$
となる。ここで、分散 $\sigma_i^2$ は、効果 $\partial\mu^{\prime}/\partial x_i$ の2乗によって重み付けられている。この近似は、分散 $\sigma_{\mu}^2$ の展開で2次と高次の項だけでなく、 $x_i$ の間の相互関連を無視しているが、最終結果に大きく寄与するデータ点がない限り、合理的な近似である。

もし、データ点の不定性が、全て等しく $\sigma_i = \sigma$ であれば、偏微分は単に
$\frac{\partial \mu^{\prime}}{\partial x_i} = \frac{\partial}{\partial x_i}\left(\frac{1}{N}\sum x_i\right) = \frac{1}{N}$
であり、よって、平均 $\sigma_{\mu}$ の評価誤差に対して、
$\sigma_{\mu}^2 = \sum\left[\sigma_i^2\left(\frac{1}{N}\right)^2\right] = \frac{\sigma^2}{N}$
が得られる。そうすると、平均 $\mu^{\prime}$ の決定の標準偏差と、それゆえ量 $\mu$ の評価の精度が測定数のルートで改善する。

母分布の標準偏差 $\sigma$ は、測定の機器や条件の考察から評価されうる。
$\sigma \simeq s = \sqrt{\frac{1}{N-1}\sum (x_i-\bar{x})^2}$
よって、不定性 $\sigma_{\mu}$ に対して与えられる。
$\sigma_{\mu} = \frac{\sigma}{\sqrt{N}} \simeq \frac{s}{\sqrt{N}}$
ここで、 $\sigma_{\mu}$ は、平均の標準偏差すなわち標準誤差(standard error)を示している。原則的に、ここで得られる $\sigma$ の値は、実験機器から得られる評価とコンシステントであるべきである。

=Example 4.1=
Example1.2の例に戻る。
ボールが２m落ちるのにかかる時間を $T_{est}=0.639 {\rm s}$ であると仮定する。
生徒は50回ボールを落として、個々の測定の不定性を $\pm 0.020 {\rm s}$ とした。
この装置の有限の精度によって、Figure1.2のヒストグラムのように、観測が広がっている。

全てのデータ点の不定性は等しい( $s_i=s$ )ので、式(4.9)から $\mu = \bar{T} = 0.635 {\rm s}$ と、
式(4.13)から $\sigma \simeq s = 0.020 {\rm s}$ と計算した。
(4.14)から、決定の不定性を $\sigma_{\mu} \simeq s/\sqrt{N} = 0.020\sqrt{50} \simeq 0.0028$ としいた。
実験結果を、 $T_{exp} = (0.635 \pm 0.003) {\rm s}$ とした。

実験値と確立値を比較するために、２つの値がいくつ標準偏差がずれているかを計算した。
$n=|T_{exp} - T_{est}|/\sigma_{\mu}= 1.4$ 。
Table C.2の積分値から、83.8％が $1.4\sigma$ に入る。
=============

データの標準偏差は繰り返しによって減少せず、よく決まるようになるだけである。
一方、平均値の標準偏差は測定数のルートで減少し、分布の平均を評価する能力を改善する。
視覚的に、ヒストグラムをプロットすることで、改善を表せる。
測定回数を増やすと、分布のピークを決める能力は改善し、分布は滑らかになっていく。

[A Warning About Statistics]

式(4.12)から、回数を増やせば無限に誤差を減らせると思えるかもしれない。
しかし、この式には制限がある。
３つの主な制限がある。
時間とリソースの制限、統計誤差による制限、非統計的なゆらぎによる制限である。

１つめの制限は、実践的なものである。
Example1.2の生徒が４倍の回数を行って、２倍の精度に上げる根気があるかということである。
1000時間の加速器の利用時間が割り当てられているとき、16000時間にして精度を4倍にすることもできる。

すべての実験は、統計誤差がある。
実験機器を理解して、どれだけキャリブレーションしても、さらなる知識が必要となることとなる。
Example1.2の時間測定器の位置の誤差をどれだけ調整しても、時間には統計的な不定性が残る。

"nonstatisical fluctuations"という言葉は、過失の大半を隠すことができる。
$3\sigma,4\sigma$ に収まるGaussian分布はなかなかない。
説明できない点("outlier")という、平均から大きく外れた点が現れる。
そのような点が、まじることによって、正確さに制限がつく。

これらの、予期しない点をどう考えればよいだろうか。
いくつかは、数字の書き間違いなどの不注意だったりする。
他にも、測定器の故障などもある。

これらの問題に対する修正はいくらでもできる。
しかし、問題は次々発生するものであり、分布のテイルの端のほうは信用できないことが多い。

[Elimination of Data Points]

異常なデータ点を消去もしくは修正するのがよいと感じる場合があるだろう。
Example1.2のデータで、0.86sという結果が得られたとする。
これは、0.68の書き間違いと考えて、消去するか修正するだろう。
0.72sと出た場合はどうするべきだろうか。
TableC.2から、この値を１回で得るのは、0.06％である。
５０回の場合には、 $50 \times 0.0006 = 0.03$ 回しか起こらない。

Chauvenet条件という確立した切り捨ての条件がある。
疑わしい点より、平均から遠いイベント数が0.5以下と期待される場合は切り捨てるものである。
切り捨てた上で、平均と標準偏差を計算し直す。
その結果、前の、0.86sと0.72sは両方切り捨てられる。

異常点の削除は、平均よりも、標準偏差に大きな影響を及ぼす。
データを消去することで、標準偏差は小さくなり、別の点が削除の候補となる。
しかし、データ削除の繰り返しは推奨できない。

[Weighting the Data-Nonuniform Uncertainties]

式(4.5)の $P(\mu^{\prime})$ を計算するときに、全てのデータ点は同じ母分布から引き出されていると仮定している。
しかし、測定の精度は良かったり悪かったりする。
このことは、平均値が同じで、標準偏差が異なる $\sigma_i$ の分布で表されると仮定できる。

そうすると、N個のデータ点が観測される確率は、
$P(\mu^{\prime}) = \prod_{i=1}^n \left(\frac{1}{\sigma_i\sqrt{2\pi}}\right)\exp \left[-\frac{1}{2}\sum\left(\frac{x_i-\mu^{\prime}}{\sigma_i}\right)^2\right]$
となる。

これを最大にするためには、指数を最小にすればよい。
$-\frac{1}{2}\frac{d}{d\mu^{\prime}}\sum\left(\frac{x_i-\mu^{\prime}}{\sigma_i}\right)^2 = \sum\left(\frac{x_i-\mu^{\prime}}{\sigma_i}\right) = 0$
すると、
$\mu^{\prime} = \frac{\sum (x_i/\sigma_i^2)}{\sum (1/\sigma_i^2)}$
となる。

[Error in the Weighted Mean]

重みをつけた平均について不定性を計算する。
(4.17)より、
$\frac{\partial \mu^{\prime}}{\partial x_i} = \frac{\partial}{\partial x_i}\frac{\sum (x_i/\sigma_i^2)}{\sum(1/\sigma_i^2)} = \frac{1/\sigma_i^2}{\sum(1/\sigma_i^2)}$
であり、(4.10)に代入して、
$\sigma_{\mu}^2 = \sum\frac{1/\sigma_i^2}{[\sum (1/\sigma_i^2)]^2} = \frac{1}{\sum (1/\sigma_i^2)}$

[Relative Uncertainties]

$\sigma_i$ の絶対値がわからず、相対値だけが分かっている場合を考える。
重み係数 $w_i$ を、以下のように定義する。
$kw_i = 1/\sigma_i^2$
kは未知のスケーリング係数である。
すると、式(4.17)は、
$\mu^{\prime} = \frac{\sum (x_i/\sigma_i^2)}{\sum (1/\sigma_i^2)} = \frac{\sum (kw_ix_i)}{\sum (kw_i)} = \frac{\sum w_ix_i}{\sum w_i}$
となり、相対値だけで結果を得ることができる。

平均値の評価値 $\mu^{\prime}$ の誤差を評価するために、平均偏差（average variance）を計算する。
$\sigma^2 = \frac{\sum w_i(x_i-\mu^{\prime})^2}{\sum w_i}\times \frac{N}{N-1} = \left(\frac{\sum w_ix_i^2}{\sum w_i}-\mu^{\prime \; 2}\right)\times \frac{N}{N-1}$
最後の項は、平均値がデータそのものから決定しているという事実の補正である。
（んー、これよくわからん）
式(4.14)から
$\sigma_{\mu}^2 = \frac{\sigma^2}{N}$
であるから、式(4.19)と比較して、
$\frac{\sigma^2}{N} = \frac{1}{\sum (1/\sigma_i^2)} = \frac{1}{k\sum w_i}$
なので、
$k = \frac{N}{\sigma^2}\frac{1}{\sum w_i}$
であるから、
$\sigma_i^2 = \frac{1}{kw_i} = \frac{\sigma^2\sum w_i}{Nw_i}$
となる。

=Example 4.2=
電圧を測る実験を行った。
40回の計測で、 $\bar{x}_1 = 1.022 {\rm V}$ , $s_1 = 0.01 {\rm V}$ となった。
器具を改善して、不定性を2.5倍改善して、10回計測した。
すると、 $\bar{x}_2 = 1.018 {\rm V}$ , $s_2 = 0.004 {\rm V}$ となった。

全実験の平均は、
$\mu \simeq \bar{x} = \frac{\frac{40(1.022)}{0.01^2}+\frac{10(1.018)}{0.004^2}}{\frac{40}{0.01^2}+\frac{10}{0.004^2}} {\rm V}$
$=\frac{4.00(1.022)+6.25(1.018)}{4.00+6.25} {\rm V}$
$=1.0196 {\rm V}$
となる。
不定性は、式(4.19)から、
$\sigma_{\mu} \simeq s = \left(\frac{40}{0.01^2}+\frac{10}{0.004^2}\right)^{-1/2} = 0.00099 {\rm V}$
となり、結果として、 $\mu = (1.0196 \pm 0.0010){\rm V}$ を採用した。
=============

Example4.2の精度は、それぞれの実験部分よりもよい2つのデータセットの精度は、
$s_1 = \frac{0.01}{\sqrt{40}}{\rm V} = 0.0016$
$s_2 = \frac{0.004}{\sqrt{10}}{\rm V} = 0.0013$
である。
この場合、回数を増やすよりも、１回の精度を改善する方が良いということである。

精度の絶対値が分からない場合には、 $w_1=1^2,w_2=2.5^2$ を使って、
$\mu \simeq \frac{40(1^2)(1.022)+10(2.5^2)(1.018)}{40(1)^2 + 10(2.5)^2}{\rm V} = 1.0196 {\rm V}$
と求めることができる。

[Discarding Data]

最初の40回の実験は、あとの10回の実験に比べて4倍の回数を行っているのに、平均に対する実質的な影響は、あとの方が1.5倍以上である。
悪いと分かっているデータを切り捨てるべきであろうか。
最初の40回の実験は無駄になってしまうのであろうか。

こういった疑問は実験科学ではずっと繰り返されてきた。
実験の最初の方を慣らし運転することはよくあることである。
いつデータを切り捨てるかという確固たるルールはないが、感覚的なものである。
大きな信頼性は、きれいなデータサンプルのみから得られるのかもしれない。

4.2 STATISTICAL FLUCTUATION

観測がガウシアンに従うとすると、 $\sigma$ はフリーパラメータで、実験的に決めなければならない。
しかし、ポアソン分布に従うとすると、標準偏差は、平均のルートになる。

Chapter2のように、ポアソン分布は、時間間隔にいくらカウントされるかを調べるときに良い。
そのような実験では、観測ごとにゆらぎがある。それは、本質的なランダムな性質と、時間測定の不確かさとカウントの不確実さによるものである。
プロセスの観測的な性質によるゆらぎは、統計的ゆらぎと分類され、そのような誤差は統計誤差と呼ばれる。

どの時間間隔でも、整数のカウントがなされる。
観測される確率は、平均 $\mu_t$ のポアソン分布で与えられる。
した付きの $t$ は、時間間隔 $\Delta t$ の平均値を表す。
すると、時間間隔 $\Delta t$ で、 $N$ 回測定したとき、 $x_i$ のヒストグラムは、平均値 $\mu_t$ のポアソン分布に従う。

[Mean and Standard Deviation]

平均値 $\mu_t$ が10以上になると、ガウシアンでポアソンは近似できる。
そこで、式(4.9)の全てのデータ点が同じ母集団から出てきているということを仮定した平均値が使える。
$\mu_t \simeq \bar{x}_t = \frac{1}{N}\sum x_i$

式(2.19)から、ポアソン分布では、
$\sigma_t^2 = \mu_t \simeq \bar{x}_t$
となる。（ここは誤植だと思う）

平均値の不定性 $\sigma_{t_{\mu}}$ は、(4.12)と(4.28)を合わせて、
$\sigma_{t_{\mu}} = \frac{\sigma_t}{\sqrt{N}} = \sqrt{\frac{\mu_t}{N}} \simeq \sqrt{\frac{\bar{x}_t}{N}}$

単位時間あたりの平均数が知りたいので、
$\mu = \frac{\mu_t}{\Delta t} \;\; {\rm with} \;\; \sigma_{\mu} = \frac{\sigma_{t_{\mu}}}{\Delta t} = \sqrt{\frac{\mu}{N\Delta t}}$
となるが、期待したとおり、不定性は、 $N$ と $\Delta t$ のルートに反比例する。

Example4.2のような、実験では、データは不定性が変化する。
純粋な統計的ゆらぎについては、変化する時間間隔 $\Delta t_i$ で記録されているということを示す。
そのようなデータから、単位時間あたりの平均数を知りたければ、２つの方法がありうる。
もし、生データ $x_i$ をもっていて、すべて独立であると知っていれば、単純に全ての $x_i$ をたして、合計を時間間隔の合計で割れば良い。
$\mu = \frac{\Sigma x_i}{\Sigma \Delta t_i} \;\; {\rm and} \;\; \sigma^2=\mu$
よりありうる状況としては、平均 $\mu_j$ と平均の標準偏差 $\sigma_j$ だけ知っている場合である。
例えば、公開されている実験データを用いる場合には、誤差が統計不定性と同様に機器を扱う仮定をする必要がある。
そのようなデータの場合には、(4.17)(4.19)を適用して、
$\mu\simeq \frac{\sum (\mu_j/\sigma_j^2)}{\sum (1/\sigma_j^2)} \;\; {\rm and} \;\; \sigma_{\mu}^2 = \frac{1}{\sum (1/\sigma_^2)}$

=Example 4.3=======
放射源のアクティビティが、時間間隔 $\Delta t = 1$ で、 $N=10$ 回測られた。データはTable4.1にある。
平均は、１分あたり $\bar{x}=15.1$ である。１分あたりのデータ点の幅は、 $\sigma = 3.9$ である。
すると、平均値の不定性は、(4.29)から、 $\sigma_{\bar{x}} \simeq 1.2$ である。

この観測を１つの１０分の間隔にしても、同じ結果が得られる。
１０分のカウントが $x^{\prime}=151$ だから、１分では、15.1である。
結果の不定性は、１０分あたり、 $\sigma_{x^{\prime}}=\sqrt{151}=12.3$ だから、１分あたりで、1.2である。

10分間隔の追加の測定を行ったとして、 $x^{\prime\prime}=147$ が得られたとする。
$x^{\prime},x^{\prime\prime}$ を組み合わせると、
$\bar{x}_T = x^{\prime} + x^{\prime\prime} = (151+147)/(10+10) = 14.9$
$\sigma_{\bar{x}_T} = \sqrt{298}/20 = 0.87$
で、この不定性は、 $\sqrt{2}$ のファクターで、小さい。
代わりに、(4.17)と(4.19)で計算できる。
===================

注意すべきは、20分で298カウントという一つのデータ点とすることで、簡単にできるが、そうすることで、実験の正当性の部分的なチェックに使える分布の形についての独立した情報を失うことになることである。

4.3 PROBABILITY TESTS

解析の目的は、平均値と不定性のベストな評価を手に入れ、母集団のパラメータを決定する信頼度を確率として解釈することである。
一般的に、不定性をガウシアン確率に関連付ける。68％のガウシアン分布の測定が平均値の $\pm 1 \sigma$ に落ちるとした。
そうすると、ここの実験を多数やると、平均を取った場合、平均の分布は、 $\bar{x}\simeq \mu$ を中心として、幅 $s\simeq \sigma$ のガウス分布となるので、68％の測定が、範囲 $(\bar{x}-s)<x<(\bar{x}+s)$ に落ちる。
実験回数を増やすと、ガウス分布の幅は、 $s_{\mu} = s/\sqrt{N} \simeq \sigma /\sqrt{N}$ となる。
すると、結果が $(\mu - s_{\mu})<\bar{x}<(\mu + s_{\mu})$ に68％の確率で収まると期待する。
言い換えると、68％の確率で真の平均値 $\mu$ が $(\bar{x}-s_{\mu})<\mu < (\bar{x}+s_{\mu})$ にある、つまりその範囲は、68％信頼範囲である。

$1\sigma$ だけでなく、特定の確率レベルを使うことがある。
結果が2つの値 $x_1,x_2$ の間に90％の確率で落ちていると言いたい場合、 $x_1 = \bar{x}-1.64s_{\mu},x_2 = \bar{x}+1.64s_{\mu}$ に対応する。
そうすると、Example4.1で、生徒は90％の確率で、 $0.635\pm (1.64\times 0.0028)$ と報告する、すなわち90％の信頼度で $\bar{T} =(0.635 \pm 0.005)$ である。
科学では、なにもいわなければ、 $1\sigma$ である。

[Student's t Distribution]

ガウシアン確率が特定のデータセットに適用しないことを知っておくべきで、ガウシアンに従う実験的分布は、テイルでずれがちだ。
データが小さければ他の懸念もある。
平均値だけでなく、標準誤差の評価値 $s_{\mu}$ も決定できない。
ガウシアン分布から計算される確率は後者の問題を考慮していない。

そのような場合、確率のより良い評価はStudent's t分布から得られる。
これは、パラメータ $|x-\bar{x}|/s_{\mu}$ の分布を記述することで、 $t$ は、 $x$ が $\bar{x}$ から $s_{\mu}$ でどれだけずれているかの数である。
$p_t(t,\nu ) = \frac{1}{\sqrt{(\nu \pi )}} \frac{\Gamma [(\nu +1)/2]}{\Gamma [\nu /2]}\left(1+\frac{t^2}{\nu}\right)^{-(\nu + 1)/2}$
ここで、ガンマ関数 $\Gamma (n)$ は、階乗関数 $n!$ を整数以外の引数にも拡張したものである。(式(11.7))

ガウシアン分布と異なり、Student's t 分布は、自由度 $\nu$ の数による。
もし、 $\bar{x}$ がN個の数の平均値を表しているとすると、 $x$ は、データから導けないので、 $\nu = N-1$ である。
もし、 $x$ も $\bar{x}$ も平均であるとすると、 $s_{\mu}$ は、 $x$ と $\bar{x}$ の結合した標準偏差で、 $\nu$ は、全自由度の数でなければならない
$\nu$ が大きい極限では、Student's t 分布とガウシアン分布は一致する。
ガウシアンについていうと、 $\pm t$ の標準偏差内の結果を入手する確率に興味がある。
たとえば、真の値 $\mu$ が、 $t=|\bar{x} - \mu |/s_{\mu}$ で、 $(\bar{x} -ts_{\mu}) < \mu < (\bar{x}+ts_{\mu})$ の範囲にあるという確率を報告する。

Example4.1をもう一度考えてみる。８４％の実験が $1.4s_{\mu}$ のずれ以内に入るとした。
Student's t 分布(TableC.8)から、確率はガウシアンより0.6％ほど低いとできる。
しかし、生徒が6回の測定をより正確におこなったとし、平均から $t=1.4s_{\mu}$ 異なる結果を得たとする。
自由度が小さい場合には、ガウシアン確率は、84％で変化しないが、Student's tは78％を予言する。
そうすると、２、３の自由度しかない場合には、ガウシアン確率は、信頼度を高めに見積もってしまう。
これを見るもうひとつの方法は、同じ信頼度でStudent's t 確率は、ガウシアン確率よりも大きな不定性を必要とすることである。

一般に、結果は、95％かそれ以上の信頼度で重要である。
ガウシアン確率では、これは、 $\pm 2 \sigma$ に相当する。
TableC.8から、3つのデータ点のサンプル( $\nu = 2$ )では、Student's t確率は、95％の信頼度は $\pm 4\sigma$ に相当する。

4.4 CHI-SQUARE TESTS OF A DISTRIBUTION

データから、平均値と標準偏差を計算すると、母集団についてより多く言えるかもしれない。
データ点の母集団のタイプ（ガウシアン、ポアソンなど）が確かになれば、母集団を詳細に記述し、統計的な観点から、将来の結果を予言できる。

確率密度関数の振る舞いに関心があるので、完全な議論はChapter11まで引き伸ばす。
今は、Chapter11の結果だけを導出なしに使う。
ここで述べるテストは、フィットの良さのための $\chi^2$ (chi-square)テストである。

[Probability Distribution]

$x$ の $N$ 回の測定から、ヒストグラムを作ることができる。
1からnまで、jが動くとすると、n個の $x_j$ が存在するが、観測頻度、つまりヒストグラムのカウントを $h(x_j)$ とする。
ランダムな測定で、 $x_j$ が観測される確率を $P(x_j)$ とすると、観測の期待される回数は、 $y(x_j)=NP(x_j)$ となる。
Figure4.1とFigure4.2は、同じ６つのbinのヒストグラムを示している。
ただし、100回の測定で、 $\mu = 5.0$ と $\sigma = 1$ のガウシアン母分布から描いている。
母分布 $y(x_j) = NP(x_j)$ は、実線のガウシアン曲線で描かれている。

それぞれの $x_j$ に対して、観測される頻度 $h(x_j)$ の不定性に関連した標準偏差 $\sigma_j(h)$ がある。
これは、個々の $x_i$ の平均値 $\mu$ に対する広がりと関連する $\sigma_i$ とは同じではなく、その平均値 $\mu_j$ についての $h(x_j)$ の広がりを表している。
実験を何回も繰り返して、 $x_j$ の頻度の分布を決定しようとすると、それぞれの母集団が $\mu_j=y(x_j),\sigma_j^2(y)=y(x_j)$ のポアソン分布だとするべきだ
そうすると、 $x_j$ のそれぞれの値に対して、期待される値が $y(x_j)$ であるk番目の試行実験での頻度の値 $h_k(x_j)$ を得る確率を述べる分布曲線 $P_j(y_k)$ がある。
それは、 $\sigma_j(h)$ で特徴づけられる、jのそれぞれの値に対するこれらの測定値の広がりである。
これらの分布は、Figure4.1と4.2で点線のポアソン曲線で表されている。
Figure4.1では、ポアソン曲線は、標準偏差を $\sqrt{h(x_j)}$ として観測された頻度 $h(x_j)$ を中心としている。
原理的には、Figure4.2のように、ポアソン曲線を、標準偏差を $\sigma_j(h) = \sqrt{\mu_j}$ として、 $\mu_j=y(x_j)$ を中心とすべきである。
しかし、実際にはこれらのパラメータを知らない。

[Definition of $\chi^2$ ]

先の定義で、 $\chi^2$ の定義は、Chapter11から、
$\chi^2 \equiv \sum_{j=1}^n \frac{[h(x_j)-NP(x_j)]^2}{\sigma_j(h)^2}$
である。ほとんどの実験では、ひとつの測定セット $f(x_j)$ しかないので、 $\sigma_j(h)$ の値は知らない。
幸運にも、これらの不定性は、明示的に測定することなく、直接データから評価できる。

Figure4.2のデータを考慮すると、 $x_j$ のそれぞれの値に対して、その値に対する母集団に比例するランダムサンプルを引きだしたことを観測した。
観測された頻度 $h(x_j)$ のゆらぎは、有限のアイテムの数のランダム選択を行う統計確率からきており、平均値として $y(x_j)$ をもつポアソン分布に従って分布している。
Figure4.2の頻度の分布 $y(x_j)$ は、ガウシアンであるが、それぞれの頻度の測定に対する確率関数はポアソン分布である。

ポアソン分布については、偏差 $\sigma_j(h)^2$ は、分布の平均 $y(x_j)$ と等しく、データから $\sigma_j(h)$ を、 $\sigma_j(h)=\sqrt{NP(x_j)} \simeq \sqrt{h(x_j)}$ と評価できる。
式(4.32)は、以下のように簡略化できる。
$\chi^2 \equiv \sum_{j=1}^n \frac{[h(x_j)-NP(x_j)]^2}{NP(x_j)} \simeq \sum_{j=1}^n \frac{[h(x_j)-NP(x_j)]^2}{h(x_j)}$

[Test of $\chi^2$ ]

式(4.32)(4.33)で定義されたように、 $\chi^2$ は、期待された頻度からの観測された頻度の散らばりを特徴づける統計値である。
観測された頻度が、予言された頻度 $h(x_j) = NP(x_j)$ と厳密に一致すると、 $\chi^2 = 0$ である。
確率の理解からは、これは、ある実験のあまり有り得ない結果である。
(4.32)の分子は、観測の広がりであり、分母は期待される広がりの値である。
よく一致しているとすると、データの平均的な広がりは、期待される広がりに対応しいい、それぞれの頻度から約1の寄与があると考えられる。
つまり、分布全体に対しては、 $\chi^2 \simeq n$ である。
これはほぼ正しく、実際に、真の $\chi^2$ の期待される値は、
$<\chi^2> = \nu = n- n_c$
である。ここで、 $\nu$ は自由度で、サンプル頻度の数nから確率関数 $NP(x_j)$ で記述するデータから計算される制限やパラメータの数 $n_c$ を引いたものと等しい。
このサンプルでは、 $NP(x_j)$ が分布 $h(x_j)$ と完全に独立に選択されていても、分布の全イベント数に対応する規格化ファクターNがあり、 $\chi^2$ の期待される値は最も良くても $<\chi^2> = n - 1$ である。

計算した $\chi^2$ の値が、データの期待された分布とコンシステントである確率を評価するために、 $\chi^2$ がどのように分布しているかを知っていなければならない。
もし、 $\chi^2$ の値が、合理的に高い確率に対応しているとすると、仮定した分布の確からしさが得られる。

reduced chi-squareを $\chi_{\nu}^2 \equiv \chi^2/\nu$ と定義し、 $<\chi_{\nu}^2> = 1$ を期待値とすることは便利だ。
$\chi_{\nu}^2$ の値が、1よりも大き過ぎる場合、仮定した分布から大きくずれているか、貧弱な測定、不定性の間違った設定、確率関数の間違った選択が考えられる。
あまりにも小さな値というのも受け入れ難く、実験に何かの誤解があるのかもしれない。
$\chi^2,\chi_{\nu}^2$ の特定の値を得る確率を考えるより、計算した値以上の $\chi_{\nu}^2$ の値を観測する確率を決定するために、積分テストを使う。
これは、平均からどのくらいずれているかという確率を考えるのと同様である。

TableC.4は、仮定した確率分布から描かれたデータ点のランダムなサンプルが、自由度 $\nu$ の実験で観測される値以上の $\chi^2$ の値となる確率を与えている。

確率が合理的に1に近ければ、仮定した分布がデータ点の広がりをよく記述していることがわかる。
確率が小さければ、仮定した分布が母集団を表してないか、データサンプルが母集団を表してないかである。
テストには、YES-NOといった答えはないが、現実的には、 $\chi_{\nu}^2 \simeq 1$ で0.5くらいの確率を期待するべきだ。
なぜなら、統計的に、 $\chi^2$ の観測される値は時間の半分という標準を超えるべきだからである。
しかし、ほとんどのケースでは、確率は、合理的に大きいか、非合理的に小さいかであり、テストは公平に結論がでる。
さらなる議論は、Chapter11で行う。

Example1.2(4.1)をTable4.2で再び考慮する。
データと予言される分布が一致することをテストするために、母集団の平均値と標準偏差から、 $x_j$ のそれぞれの値で $y(x_j)=NP(x_j)$ を計算した(column3)。
データの平均値と標準偏差からも計算した(column6)。
不定性 $\sigma_j$ も同じように計算した(column4,7)。
さらに、 $\chi^2$ への寄与である $[h(x_j)-NP(x_j)]/\sigma_j$ がcolumn5,8にある。

母集団の11のデータ点の比較のために、1つの制限を使ったので、 $\nu = 11 - 1 = 10$ である。
TableC.4で内挿して、10の自由度で $\chi_{\nu}^2 \geq 1.30$ を得る確率は、23％である。
データの平均と標準偏差を使った場合、平均値と標準偏差という追加の２つの制限がある。
なので、 $\nu = 11 - 3 = 8$ であり、8自由度で、 $\chi_{\nu}^2 \geq 0.98$ となるのは45％の確率である。

[Generalization of the $\chi^2$ Test]

一般的には母集団は分かっていないので、先に述べたような方法で $\sigma_j(h)$ を求めることはできず、データそのものから求める必要がある。
すなわち、Table4.2のcolumn4,7をcolumn2のルートで置き変える必要がある。

これまでの例では、シンプルな確率関数に基づいているが、 $\chi^2$ テストは、よく一般化されて、いろんな種類の実験で入手されるデータとモデルの予言を比較される。
測定の不定性は、機器の問題だったり統計的な問題だったりするし、式(4.32)の分母の $\sigma_j(h)^2$ は、ポアソン分布よりもガウシアン分布を表しているかもしれない。
実際に、ヒストグラムのいくつかのbinは、小さいカウントで、テストの統計的な応用は厳密には正しくない。
なぜなら、 $\chi^2$ の計算にガウシアン統計を仮定しているからである。
しかし、テストは、データの質を示す方法を提供してくれ、統計的な精度を考えるなら、小さいカウントのbinがガウシアン統計を満たすようにマージできる。

$\chi^2$ テストのもうひとつの応用は、２つのデータが、同じ母集団をもっているかどうかということをひかくすることである。
いま、2つの分布 $g(x_j),h(x_j)$ を測定して、その2つが同じ母集団をもつ確率を $P(x_j)$ とする。
明らかに、2つの分布に別々に $\chi^2$ テストを適用して、それぞれの分布が考えた確率 $P(x_j)$ と関連していない確率を考えられる。
しかし、母集団とは独立に、直接的なテストを行うことができる。
$\chi^2 = \sum_{j=1}^n\frac{[g(x_j)-h(x_j)]^2}{\sigma^2(g)+\sigma^2(h)}$
分母は、 $g(x_j)-h(x_j)$ の偏差である。
前の例のように、 $\chi^2$ の期待値は、分子の2つの分布に依存する。
もし、2つの分布が、互いに完全に独立に得られていれば、自由度は $n$ であり、 $<\chi^2>=n$ である。
もし、片方が他方に規格化されていれば、自由度は1減って $n-1$ となる。
再び、負のセンスで $\chi^2$ 確率を解釈する。
もし、 $\chi^2/\nu$ の値が大きく、TableC.4の確率が小さければ、2つの分布は異なる分布から得られているということである。
しかし、 $\chi^2$ が小さく、高い確率だとしても、2つの分布は同じ分布から得られているという結論とはならない。
異なっているが非常に似た分布があり、データが2つの違いを検出するのに十分感度が高くない確率がある。

[Constraints and Degrees of Freedom]

(4.34)は、自由度$$\nu$と $\chi^2$ の期待値 $<\chi^2>$ を定義する。
制限と $\chi^2$ テストの自由度の関係をはっきりするために、 $x_j$ と $h_j$ の間に線形関係を示すと期待されるデータセットを考える。
$y_j = A + B x_j$
明らかに、 $x$ の二つの値で $y$ の2つの測定値が2つのパラメータを定義しなくてはならない。
そのため、系には２つの制限 $n_c=2$ がありい、テストを適用するには、3つの測定 $n=3$ が必要である。
これらの環境下では、 $j=1,j=2$ が $A,B$ を計算するのにつかわれるとすると、式(4.32)は、
$\chi^2 = (h_3-y_3)^2/\sigma_3^2(h)$
となり、
$<\chi^2>=n-n_c=3-2=1$
と期待できる。同様に、 $n=4$ であれば、自由度は2となる。
もちろん、一般には、２つのパラメータを決めるのに、2つの点だけを計算するわけではないく、最小２乗フィットを使うべきだ。
しかし、同様の原理は成り立つ。

Chapter 5 Monte Carlo Techniiques
上へ

「Chapter 4 Estimates of Mean and Errors(DRaEA)」をウィキ内検索

最終更新：2014年04月23日 15:29

みなのお勉強の部屋

メニュー

リンク

他のサービス

更新履歴

Chapter 4 Estimates of Mean and Errors(DRaEA)