■回帰
2変数のデータ(X, Y)(対)の並びがあった時、それぞれの対の間を通る直線を引く。
- 回帰線は2変数XとYをつなぐ平均線である。
- 回帰線上方のプラスの残差(residual diviation)と下方のマイナスの残差は相殺して総和がゼロになる。
- 残差の二乗の総和は最小である。
- 回帰線は2変数の平均の座標(X~, Y~)を通る。
- 回帰方程式: Y = a + bX
- 正規方程式:
- ΣY = na + bΣX
- ΣXY = aΣX + bΣX^2
- 簡便公式:
- b = Σxy÷Σx^2
- a = Y~ - bX~
ただし簡便公式は平均が割り切れない時は精度が落ちる。
■回帰線のまわりの分散
- 実際のデータは回帰線に乗らない(こともある)
- 残差の分散具合を見ると、回帰線の信頼度が判る
- 回帰線のまわりの分散: Sy^2
- 回帰線のまわりの標準偏差: Sy
Sy^2はXを加味しているが、σy^2はXは全く関与しないYだけの分散である。
0≦Sy^2≦σy^2 ⇔
0 ≦Sy^2 / σy^2≦ 1
- 0ならばYにXが関係している
- 1ならばYにXは関係していない
■決定係数、相関係数
- r^2 = 1 - Sy^2 / σy^2
- (coefficient of determination)
- r = √{1 - Sy^2 / σy^2}
- (coefficient of correlation)
- 簡便公式
- r = Σxy ÷ √{Σx^2×Σy^2}
- r = Σxy ÷ {n×σx×σy}
- (x,yはX,Yの偏差)
相関係数が0に近ければYはXで説明されない、1に近ければ説明できる。
2変数の相関を見る時には、時間(タイムラグ)が関与していないか要注意。
散布図に時間の順序を書き入れてみるとよい。散らばりが減るかも知れない。
最終更新:2007年03月21日 13:38