回帰直線の計算~確率・正規分布
復習問題
下のデータは、年収(千円)と書籍購入額(千円)の資料である。すでに、平均まで計算してある。以下の問に答えよ。
| 名前 |
年収(x) |
書籍購入額(y) |
x^2 |
xy |
y^2 |
| A |
6,352 |
231 |
40,347,904 |
1,467,312 |
53,361 |
| B |
3,225 |
102 |
10,400,625 |
328,950 |
10,404 |
| C |
8,956 |
373 |
80,209,936 |
3,340,588 |
139,129 |
| D |
8,234 |
377 |
67,798,756 |
3,104,218 |
142,129 |
| E |
2,350 |
35 |
5,522,500 |
82,250 |
1,225 |
| F |
7,455 |
185 |
55,577,025 |
1,379,175 |
34,225 |
| G |
7,128 |
252 |
50,808,384 |
1,796,256 |
63,504 |
| H |
3,039 |
65 |
9,235,521 |
197,535 |
4,225 |
| I |
6,204 |
132 |
38,489,616 |
818,928 |
17,424 |
| J |
4,981 |
158 |
24,810,361 |
786,998 |
24,964 |
| 合計 |
57,924 |
1910 |
383,200,628 |
13,302,210 |
490,590 |
| 平均 |
5,792 |
191 |
38,320,063 |
1,330,221 |
49,059 |
(1)年収xと書籍購入額yの散布図を描きなさい。
この分布状態からすると、強い正の相関がありそうですね。(年収の多い人ほど、書籍購入額が多い)
(意味のわからない人は復習してね!点が直線に乗っているのが見えませんか?)
(2)平均値と標準偏差、共分散を求めよ。
問題の表の値から
(3)xとyの相関係数
すなわち、高い相関があることが分かります。
(4)回帰直線を求め、年収が500万円の書籍購入額を予測する。
年収xから書籍購入額yを予測するので、xによるyの回帰直線

を求める。
これは、
で求めることができる。ゆえに、
より、
がわかります。これより、

(千円)として、

となり、予測される書籍購入額は153.84(千円)です。
近似式の貢献度(p.70 第5章.データから予測する)
テキストのp.73からp.74を読んでください。
決定係数(相関係数の2乗)は、線形単回帰(直線による近似)によって、データの何%の説明が付いたかを表すものになります。
ゆえに、相関係数の2乗の値が高いほど、良い近似ができている、すなわち、データ分布が直線に近い(すなわち、相関が高い)ことになるわけです。
上の
練習問題の場合、0.9136の2乗ですから、0.8347で、約83.5%程度の説明ができている(寄与している)ことになります。
実際に上で求めた回帰直線を引いてみました。まず、計算表です。
そして、グラフにしてみました。
かなり良い近似ができていますね。
上のグラフでx=5000のところに破線を引き、回帰直線に当たったところ(縦線⇒横線)が予測値(153.84)です。
正規分布の話は、次回にまとめます。
質問や感想があればどうぞ。
- 何でも良いので質問して下さい。 -- 小西 (2015-06-29 14:03:47)
- とにかく計算問題ができるように、練習をしておいてください。 -- 小西 (2015-07-13 14:23:18)
最終更新:2015年08月02日 02:23