アットウィキロゴ

回帰直線の計算~確率・正規分布


復習問題

下のデータは、年収(千円)と書籍購入額(千円)の資料である。すでに、平均まで計算してある。以下の問に答えよ。
名前 年収(x) 書籍購入額(y) x^2 xy y^2
A 6,352 231 40,347,904 1,467,312 53,361
B 3,225 102 10,400,625 328,950 10,404
C 8,956 373 80,209,936 3,340,588 139,129
D 8,234 377 67,798,756 3,104,218 142,129
E 2,350 35 5,522,500 82,250 1,225
F 7,455 185 55,577,025 1,379,175 34,225
G 7,128 252 50,808,384 1,796,256 63,504
H 3,039 65 9,235,521 197,535 4,225
I 6,204 132 38,489,616 818,928 17,424
J 4,981 158 24,810,361 786,998 24,964
合計 57,924 1910 383,200,628 13,302,210 490,590
平均 5,792 191 38,320,063 1,330,221 49,059

(1)年収xと書籍購入額yの散布図を描きなさい。

この分布状態からすると、強い正の相関がありそうですね。(年収の多い人ほど、書籍購入額が多い)
(意味のわからない人は復習してね!点が直線に乗っているのが見えませんか?)

(2)平均値と標準偏差、共分散を求めよ。
問題の表の値から
  • 年収xの平均
\bar{x}=5792
  • 書籍購入額yの平均
\bar{y}=191
  • xの分散
V_x=\frac{1}{n}\sum x^2-\bar{x}^2=38320063-5792^2=4772799
  • xの標準偏差
s_x=\sqrt{V_x}=\sqrt{4772799}=2184.7
  • yの分散
V_y=\frac{1}{n}\sum y^2-\bar{y}^2=49059-191^2=12578
  • yの標準偏差
s_y=\sqrt{V_y}=\sqrt{12578}=112.2
  • 共分散
C_{xy}=\frac{1}{n}\sum xy-\bar{x}\bar{y}=1330221-5792 \times 191=223949

(3)xとyの相関係数
r_{xy}=C_{xy} \div (s_x s_y)=223949 \div (2184.7 \times 112.2)=0.9136
すなわち、高い相関があることが分かります。

(4)回帰直線を求め、年収が500万円の書籍購入額を予測する。
年収xから書籍購入額yを予測するので、xによるyの回帰直線y=ax+bを求める。
これは、
a=C_{xy} \div V_x
b=\bar{y}-a \times \bar{x}
で求めることができる。ゆえに、
a=223949 \div 4772799=0.04692
b=191-0.04692 \times 5792=-80.76
より、
y=0.04692 x-80.76
がわかります。これより、x=5000(千円)として、
y=0.04692 \times 5000-80.76=153.84となり、予測される書籍購入額は153.84(千円)です。

近似式の貢献度(p.70 第5章.データから予測する)

テキストのp.73からp.74を読んでください。
決定係数(相関係数の2乗)は、線形単回帰(直線による近似)によって、データの何%の説明が付いたかを表すものになります。
ゆえに、相関係数の2乗の値が高いほど、良い近似ができている、すなわち、データ分布が直線に近い(すなわち、相関が高い)ことになるわけです。

上の練習問題の場合、0.9136の2乗ですから、0.8347で、約83.5%程度の説明ができている(寄与している)ことになります。
実際に上で求めた回帰直線を引いてみました。まず、計算表です。

そして、グラフにしてみました。

かなり良い近似ができていますね。
上のグラフでx=5000のところに破線を引き、回帰直線に当たったところ(縦線⇒横線)が予測値(153.84)です。

正規分布の話は、次回にまとめます。


質問や感想があればどうぞ。

  • 何でも良いので質問して下さい。 -- 小西 (2015-06-29 14:03:47)
  • とにかく計算問題ができるように、練習をしておいてください。 -- 小西 (2015-07-13 14:23:18)
名前:
コメント:

最終更新:2015年08月02日 02:23