概要
高校のデータの分析や統計学で扱う分散と標準偏差について扱います。
数列のシグマ表記を使用しますので見方がわからない人は参照してください。
数列のシグマ表記を使用しますので見方がわからない人は参照してください。
分散と標準偏差
分散
ある高校の定期試験で、数学と家庭科の平均点がどちらも70点だったとします。
この時数学はかなり点が低い人と高い人が混在し、家庭科では皆平均点付近に集中している可能性があります。
このよう平均値という情報から2つの試験はどちらも同じような試験だったと判定することはできません。
この場合2つの試験では散らばり具合が異なります。
散らばりの大きさの指標があると図にしなくてもわかるので便利です。
そこで分散というものが使われます。
この時数学はかなり点が低い人と高い人が混在し、家庭科では皆平均点付近に集中している可能性があります。
このよう平均値という情報から2つの試験はどちらも同じような試験だったと判定することはできません。
この場合2つの試験では散らばり具合が異なります。
散らばりの大きさの指標があると図にしなくてもわかるので便利です。
そこで分散というものが使われます。
まず、それぞれのデータと平均値の差を求めます。
次にこれらの平均値を求めてみましょう。
次にこれらの平均値を求めてみましょう。
あるデータ
の平均値との差は
で求めるとよいでしょう。
では、これらの平均値は
ここで
は定数ですから
になってしまいます。
これでは情報を得ることができません。
ここでなぜただの引き算だと平均が0になるかというと、
そこで、平均値とデータの差
それらの和の平均値こそが分散で
平均偏差
分散では2乗することで数を正の数に統一していましたが、2乗すると平均値から遠く離れた値との差が大きく開いてしまいます。
そこで絶対値をとったものを平均偏差といいます。
そこで絶対値をとったものを平均偏差といいます。
平均偏差=![]()
標準偏差
分散だと2乗しているので例えば身長のデータは
で表されますが、分散は
になってしまいます。
そこで分散の平方根をとることで単位を
などにそろえたものを標準偏差といます。
そこで分散の平方根をとることで単位を
標準偏差:![]()
