概要
2変量の関係性の指標である共分散と相関係数について扱います。
このページは数列のシグマ表記がわかる人向けになります。
このページは数列のシグマ表記がわかる人向けになります。
共分散
世の中には、身長と体重や数学の点数と物理の点数などのように、片方の変量が増えたらもう片方も増えそうな事象があります。
逆に、数学の点数と国語の点数などのように、片方の変量が増えたらもう片方が減りそうな事象もあります。
このように2変量の関係性を掴む概念である共分散(
)を紹介します。
逆に、数学の点数と国語の点数などのように、片方の変量が増えたらもう片方が減りそうな事象もあります。
このように2変量の関係性を掴む概念である共分散(
正の相関、負の相関
片方が増えるともう片方も増えるデータを正の相関がある、片方が増えるともう片方が減るデータを負の相関があるといいます。
定義
この定義から,両方の平均を上回っているまたは両方の平均を下回っているデータが多いほどプラスになり,どちらか一方が上回っているデータが多いほどマイナスになります。
つまり、
と言うことである。
共分散が正なら正の相関があり,負なら負の相関があると言えます.
一個一個引いて掛けるのがめんどくさいので、もうちょい楽な方法がある。
共分散が正なら正の相関があり,負なら負の相関があると言えます.
一個一個引いて掛けるのがめんどくさいので、もうちょい楽な方法がある。
定理
※ここでの
とする。正式な記法ではないことにご注意ください。
定義を変形すると得られる。
| + | 求め方 |
相関係数
共分散は単位に依存するため、値の大きさだけでは関係の強さを比較できません。
そこで、共分散を標準偏差で割って単位の影響をなくしたものを相関係数といいます。
そこで、共分散を標準偏差で割って単位の影響をなくしたものを相関係数といいます。
ここで,
、
はそれぞれの標準偏差です。
性質
相関係数の値が1や−1に近いほど、2つのデータの関係が強いことを意味します。
逆に、0に近いほど関係が弱く、ほとんど関連性がないといえます。
逆に、0に近いほど関係が弱く、ほとんど関連性がないといえます。
練習問題**
1. 次のデータについて、共分散
を求めなさい。
| + | 解答 |
2. 次のデータについて、相関係数
を求めなさい。
| + | 解答 |
3. 共分散
のとき、X と Y の関係についてどのように言えるか。
(※「独立」と同じ意味になるとは限らない点に注意)
(※「独立」と同じ意味になるとは限らない点に注意)
| + | 解答 |
4.
のとき、どのような関係があるといえるか。
(正の相関/負の相関/相関なし のいずれかを選べ)
(正の相関/負の相関/相関なし のいずれかを選べ)
| + | 解答 |
5. 共分散が
、標準偏差が
、
のとき、相関係数
を求めよ。
| + | 解答 |