「3. 時計メーカーを選ぶ話」の編集履歴(バックアップ)一覧に戻る

3. 時計メーカーを選ぶ話 - (2008/08/19 (火) 13:03:23) のソース

2 つの標本の分散(不偏分散) が異なっているとき、その違いが偶然に生じうる程度のものであるか、あるいは偶然に生ずるとはいえない程度のものであるかはどのように判断すべきか?

**分散比$$F$$
分散の比較はその値で行ってもいいが、統計学では2 つの分散の比の大きさ、分散比$$F$$を利用する。ポイントは「1 つの母集団から抽出された2 つの標本の分散比はどのように分布するか」、すなわち分散比F は偶然によってどのような分布となるかという点にある。

**$$F$$分布
同じ母集団から2 つの標本を抽出した場合、その標本間の分散比$$F$$は$$F$$分布に従う。$$F$$分布は、分散比を計算するときに分子にした標本の自由度、分母にした標本の自由度という2 つの情報によって決定される。分子の自由度は第一自由度、分母の自由度は第二自由度と呼ばれることが多い。

**$$F$$分布表
多くの統計学の教科書に付録として付いているF 分布表は、「それ以上の分散比が出現する確率が○○ % となるF の値」が2 つの自由度の組み合わせと対応させてまとめてある。○○の部分は5 や1(片側検定用) のほか、2.5 や0.5(両側検定用) の場合もある。
F 分布表には片側のF 値しか書いてない片側検定も両側検定もF 値は1 つしか書いていない。これは2 つの標本の分散のうち小さいものを分母に、大きいものを分子にとると約束すると、F値は必ず1 より大きくなるためである。

**分子分母を勝手に入れ替えてもいいの?
例えば第一自由度2、第二自由度1 のF 分布での上側5% 点(=それ以上のF 値が出現する確率が5% となる点) は200 である。これの分母分子を入れ替え、第一自由度1、第二自由度2 の下側5% 点(=それ以下のF 値が出現する確率が5% となる点) を計算すると、0.005、つまり1/200 となる。つまり、$$F_1/F_2$$ が200 以上となる確率と、$$F_2/F_1$$ が1/200 以下となる確率は等しく、分散の大きい方を分母にして「F 値がより大きくなる確率」に注目しようが、分散の小さいほうを分母にして「F 値がより小さくなる確率」に注目しようが結果は変わらないということである。

**F 分布表なんか引いた覚えがないんだけど?
現在ではコンピュータを用いてF 分布の密度関数は簡単に計算できる。つまり、第一自由度、第二自由度、F 値の3 つの情報を与えれば、「そのF 値より大きなF 値が出る確率はいくらなのか?」という情報が即座に得られる。「そのF 値より小さなF 値が出る確率はいくらなのか?」についても同様である。よって、現在ならばF 分布を引く必要はおろか、大きな分散を分母に持ってくるといった細工すら不要となっている。

**計算例:A 社、B 社の分散比較
A 社の分散:500
B 社の分散:116.6
A 社の自由度:4
B 社の自由度:3
ここから2 種類のF 値が計算できる。

$$F_1=A_{var}/B_{var}=4.29$$

$$F_2=B_{var}/B_{var}=0.23$$

($$A_{var}$$,$$B_{var}$$ はそれぞれA 社とB 社の不偏分散)
ここから2 種類の「確率」が計算できる。

第一自由度4、第二自由度3 のF 分布で、4.29 より小さいF 値が出る確率。
$$pF(4.29, 4, 3) = 0.87$$
ここで1-0.87=0.13 は「4.29 より大きいF 値が出る確率」を意味する。

第一自由度3、第二自由度2 のF 分布で、0.23 より小さいF 値が出る確率。
$$pF(0.23, 3, 4) = 0.13$$

ここで2 つの「確率」が意味するものは同じである。すなわち、「観測されたF 値より“離れた”F値が観測される確率が0.13 である」ということである。