第15回 独立性の検定(適合度検定)の利用
独立と従属
- 2つの事象A、Bに対して、BはAに影響を受けずAとは無関係に生起する、またAもBに影響を受けずBとは無関係に生起する、という関係のとき、「AとBは独立である」という。
- 「独立」とは、「2つの物事には相互に関連が無い」ことを意味し、独立でないときを「従属」という。
- 「従属」は、「2つの物事は相互に関連している」ことを意味する。
条件付き確率 P(B|A)
- 事象Aの確率をP(A)で表す。
- P(B|A)は「事象Aが起こったという条件のもとでBが起こる確率」である。
- 2つの事象A,Bが「統計的に独立」であれば、P(B|A)=P(B)になるので、
が成り立つ。
例題1
ある意見項目の男女別賛否は下記のとおりであった。
|
賛成 |
反対 |
| 男 |
185 |
172 |
| 女 |
150 |
138 |
賛否の比率に男女差ありといえるか、独立性の検定をしなさい。
考察
|
賛成 |
反対 |
計 |
| 男 |
185 |
172 |
357 |
| 女 |
150 |
138 |
288 |
| 計 |
335 |
310 |
645 |
となり、P(男)=357/645、P(女)=288/645、P(賛成)=335/645、P(反対)=310/645、となる。
今、「性別」と「賛否」が統計的に独立であると仮定すると、
- P(賛成の男)=P(男)P(賛成)
- P(賛成の女)=P(女)P(賛成)
- P(反対の男)=P(男)P(反対)
- P(反対の女)=P(女)P(反対)
が成り立つことになる。これに基づき、上の確率に人数645を掛けると、2つの変量が独立な場合に、期待される人数が得られる。
これで期待度数表を作成する:
|
賛成 |
反対 |
計 |
| 男 |
 |
 |
357 |
| 女 |
 |
 |
288 |
| 計 |
335 |
310 |
645 |
この2表を、カイ2乗検定で判定するのである。
計算方法
例として、下記のような状況を考える。
|
A |
B |
C |
D |
| 1 |
|
賛成 |
反対 |
計 |
| 2 |
男 |
185 |
172 |
357 |
| 3 |
女 |
150 |
138 |
288 |
| 4 |
計 |
335 |
310 |
645 |
セル番地を記載すると下記のようになる。
|
A |
B |
C |
D |
| 1 |
A1 |
B1 |
C1 |
D1 |
| 2 |
A2 |
B2 |
C2 |
D2 |
| 3 |
A3 |
B3 |
C3 |
D3 |
| 4 |
A4 |
B4 |
C4 |
D4 |
今回は、合計が入っている、D2,D3,B4,C4,D4のセルのみ使用して期待度数表を作成する。
具体的には、
|
賛成 |
反対 |
| 男 |
D2*B4/D4 |
D2*C4/D4 |
| 女 |
D3*B4/D4 |
D3*C4/D4 |
となることから、変わらない部分に$を付けて、「=$D2*B$4/$D$4」とする。
練習問題1
ある資格試験の合格のために受験教育が効果があるか知りたい。
200人を無作為抽出して調べたところ、次の結果を得た。
受験教育に効果があるといえるか、危険率10%で検定せよ。
|
合格 |
不合格 |
| 受験教育を受けた |
40 |
20 |
| 受験教育を受けていない |
80 |
60 |
結論:
期待度数は次の通り
|
合格 |
不合格 |
合計 |
| 受験教育を受けた |
36 |
24 |
60 |
| 受験教育を受けていない |
84 |
56 |
140 |
| 合計 |
120 |
80 |
200 |
カイ二乗検定での確率は、=chiSQ.test(実現度数表,期待度数表) で求めて、0.2077121 を得る。
この結果が0.1より大きいので、受験教育に効果があるといえない。
練習問題2
671名を無作為抽出して、あるテレビ番組Mの視聴について調べたところ、下記の結果を得た。
Mの視聴は年齢層に関連があるといえるか、危険率1%で検定せよ。
|
若年層 |
中年層 |
壮年層 |
| Mを見てない |
211 |
175 |
205 |
| Mを見ている |
16 |
38 |
26 |
結論:
期待度数は次の通り
|
若年層 |
中年層 |
壮年層 |
合計 |
| Mを見てない |
199.935 |
187.605 |
203.459 |
591 |
| Mを見ている |
27.064 |
25.395 |
27.541 |
80 |
| 合計 |
227 |
213 |
231 |
671 |
カイ二乗検定での確率は、=chiSQ.test(実現度数表,期待度数表) で求めて、0.0020945 を得る。
この結果が0.01より小さいので、仮説(Mの視聴と年齢層に関連が無い)は誤りである。
すなわち、年齢層で違いがあるといえる。
練習問題3
ある予防注射の効果を調べるために、400人を無作為抽出して次の結果を得た。
予防接種は効果があるといえるか。危険率5%で検定せよ。
|
非発病者 |
発病者 |
| 予防注射を受けた |
130 |
148 |
| 予防注射を受けていない |
42 |
80 |
結論:
期待度数は次の通り
|
非発病者 |
発病者 |
合計 |
| 予防注射を受けた |
119.54 |
158.46 |
278 |
| 予防注射を受けていない |
52.46 |
69.54 |
122 |
| 合計 |
172 |
228 |
400 |
カイ二乗検定での確率は、=chiSQ.test(実現度数表,期待度数表) で求めて、0.0217619 を得る。
この結果が0.05より小さいので、予防注射に効果があると言える。
練習問題4
ある会社で販売している製品は3社A,B,Cから納入されたものである。
この製品から631個を無作為抽出して、納入した会社と不良品の数を調べたところ、下記の結果を得た。
不良品は会社A,B,Cに関連があるといえるか。危険率5%で検定せよ。
|
会社A |
会社B |
会社C |
| 良品 |
211 |
175 |
205 |
| 不良品 |
8 |
19 |
13 |
結論:
期待度数は次の通り
|
会社A |
会社B |
会社C |
合計 |
| 良品 |
205.117 |
181.702 |
204.181 |
591 |
| 不良品 |
13.883 |
12.298 |
13.819 |
40 |
| 合計 |
219 |
194 |
218 |
631 |
カイ二乗検定での確率は、=chiSQ.test(実現度数表,期待度数表) で求めて、0.0366441 を得る。
この結果が0.05より小さいので、会社によって不良品数に差があることが分かる。
会社Aと会社Bは期待より多くの不良品を出していることが分かる。
以上のように、解釈できるように試験の準備をしておいてほしい。
最終更新:2018年01月23日 18:19