アットウィキロゴ
 

■回帰
2変数のデータ(X, Y)(対)の並びがあった時、それぞれの対の間を通る直線を引く。
  1. 回帰線は2変数XとYをつなぐ平均線である。
  2. 回帰線上方のプラスの残差(residual diviation)と下方のマイナスの残差は相殺して総和がゼロになる。
  3. 残差の二乗の総和は最小である。
  4. 回帰線は2変数の平均の座標(X~, Y~)を通る。

  • 回帰方程式: Y = a + bX
  • 正規方程式:
    • ΣY = na + bΣX
    • ΣXY = aΣX + bΣX^2
  • 簡便公式:
    • b = Σxy÷Σx^2
    • a = Y~ - bX~

ただし簡便公式は平均が割り切れない時は精度が落ちる。

■回帰線のまわりの分散
  • 実際のデータは回帰線に乗らない(こともある)
  • 残差の分散具合を見ると、回帰線の信頼度が判る
  • 回帰線のまわりの分散: Sy^2
  • 回帰線のまわりの標準偏差: Sy

Sy^2はXを加味しているが、σy^2はXは全く関与しないYだけの分散である。

0≦Sy^2≦σy^2 ⇔
0 ≦Sy^2 / σy^2≦ 1
  • 0ならばYにXが関係している
  • 1ならばYにXは関係していない

■決定係数、相関係数
  • r^2 = 1 - Sy^2 / σy^2
    • (coefficient of determination)
  • r = √{1 - Sy^2 / σy^2}
    • (coefficient of correlation)
  • 簡便公式
    • r = Σxy ÷ √{Σx^2×Σy^2}
    • r = Σxy ÷ {n×σx×σy}
    • (x,yはX,Yの偏差)

相関係数が0に近ければYはXで説明されない、1に近ければ説明できる。


2変数の相関を見る時には、時間(タイムラグ)が関与していないか要注意。
散布図に時間の順序を書き入れてみるとよい。散らばりが減るかも知れない。

最終更新:2007年03月21日 13:38