Library > 数学 > 統計学 > Note1_データの整理方法

基本・キーワード羅列...その1...1変数

平均:算術平均、幾何平均、調和平均、中央値、最頻値、最大値、最小値、Mid-Range、変動係数、重み付け平均、中央値、最頻値
分散:標本分散、不偏分散、
偏差:標準偏差、平均偏差、4分位偏差
指標:歪度、尖度、エントロピー

平均

平均とは、ある指標(キョリ)を定めたときほかの任意のデータとの差が小さくなる値

算術平均(標本平均、平均値)

\bar{x}=\frac{x_1+x_2+\dots  +x_n}{n}

性質として、「平均値は、平方損失の期待損失を最小化する」。

幾何平均

\bar{x_g}= {}^n\sqrt{x_1 x_2 \dots x_n}

調和平均

\bar{x_h} = \frac{1}{\frac{1}{n}(\frac{1}{x_1}+\frac{1}{x_2}+\dots +\frac{1}{x_n})}

中央値(Median、メディアン、メデアン)

確率分布f(θ)が与えられたとき、以下の等号を満たすαが中央値。

\int^{\alpha}_{-\infty}f(\theta)=\int^{+\infty}_{\alpha}f(\theta)

性質として、「中央値は、絶対損失の期待損失を最小化する」。
信号処理の世界では中央値フィルタを経由後、変化しない信号をルート信号という。

再度検証してみる。

損失関数を
L(\theta,\alpha)=|\theta-\alpha |

とする。リスク関数は、
R(\alpha)=\int^{\infty}_{-\infty} L(\theta,\alpha)
=\int^{\infty}_{-\infty}|\theta-\alpha |f(\theta) d\theta
=-\int^{\alpha}_{-\infty}(\theta-\alpha)f(\theta)d\theta+\int^{\infty}_{\alpha}(\theta-\alpha)f(\theta)d\theta
=-\int^{\alpha}_{-\infty}\theta f(\theta)d\theta+\alpha\int^{\alpha}_{-\infty}f(\theta)d\theta+\int^{\infty}_{\alpha}\theta f(\theta)d\theta-\alpha \int^{\infty}_{\alpha}f(\theta)d\theta
=\alpha\{ \int^{\alpha}_{-\infty}f(\theta)d\theta-\int^{\infty}_{\alpha}f(\theta)d\theta\}-\{\int^{\alpha}_{-\infty}\theta f(\theta)d\theta- \int^{\infty}_{\alpha}\theta f(\theta)d\theta\}
αで微分すると、(第一項目は、一項、二項に微分で分かれる。第二項は、三項目に微分でそうなる)

\frac{d R(\alpha)}{d\alpha}= \{ \int^{\alpha}_{-\infty}f(\theta)d\theta-\int^{\infty}_{\alpha}f(\theta)d\theta \} + \alpha \{ f(\alpha) -(-f(\alpha))\} - \{\alpha f(\alpha) -(-\alpha f(\alpha))\}
= \int^{\alpha}_{-\infty}f(\theta)d\theta-\int^{\infty}_{\alpha}f(\theta)d\theta=0
つまり、これは、中央値だ!!

最頻値(Mode)

性質として、「最頻値は、0-1型単純損失の期待損失を最小化する」。

最大値

最小値

Mid-Range

  • 最小値と最大値の平均値のことである。

変動係数

  • 標準偏差/平均

重み付き平均

\bar{x_w}=w_1 x_1+w_2 x_2+\dots  +w_n x_n\\ ,w_1 + w_2 + \dots +w_n = 1

α刈り込み平均(α-trimmed mean)

n個の観測値を、大小順に並べる。そこから、大きい値と小さい値を除いて([nα]のサンプル数だけを用いて)、平均値を計算する。それにより、はずれ値を除外することができる。

標本平均、幾何平均、調和平均の関係

\bar{x} \geq \bar{x_g} \geq \bar{x_h}

分散

データのばらつき散らばり具合を表す指標

標本分散(standard variance)

s_x^2=\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2 =\frac{1}{n} \sum_{i=1}^n x_i^2 -\bar{x}^2

不偏分散(unbiased variance)

u_x^2=\frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2

標本分散と不偏分散の違いとは?

実は、分散を推定する際、標本分散の計算は、不偏推定になっていない。標本分散で推定した場合、不偏分散に比べて、真値からのずれがある。


アプローチその1
 S=\sum_{i=1}^n (x_i-\bar{x})^2 
としたとき
 E(S)=(n-1)\sigma^2 
証明
(x_i -\mu) = (x_i-\bar{x})+(\bar{x}-\mu)
この両辺を二乗して、i=1~i=nまでの和を取ると、
\sum_{i=1}^n (x_i -\mu)^2 
=\sum_{i=1}^n (x_i-\bar{x})^2 + \sum_{i=1}^n (\bar{x}-\mu)^2 + 2(\bar{x}-\mu) \sum_{i=1}^n (x_i-\bar{x})
第三項は0なので
=\sum_{i=1}^n (x_i-\bar{x})^2 + \sum_{i=1}^n (\bar{x}-\mu)^2 

ここで、両辺の期待値を取ると、
E(\sum_{i=1}^n (x_i -\mu)^2 )=\sum_{i=1}^n E(x_i -\mu)^2  = \sum_{i=1}^n V(x_i) =n \sigma^2
E(\sum_{i=1}^n (\bar{x}-\mu)^2) = \sum_{i=1}^n E(\bar{x}-\mu)^2 = \sum_{i=1}^n V(\bar{x}) = \sum_{i=1}^n \frac{\sigma^2}{n}=\sigma^2 

このため、
E(\sum_{i=1}^n (x_i-\bar{x})^2) = n \sigma^2 -\sigma^2 =(n-1)\sigma^2

アプローチその2

モーメント,積率関数


偏差

標準偏差

\sqrt{s_x^2}=s_x

平均偏差

\frac{1}{n} \sum_{i=1}^n |x_i-\bar{x}|

4分位偏差

  • データを順番にならべ、データ全体で、小さいほうから、1/4の値をQ_1、大きいほうから1/4の値をQ_3、中央値をQ_2とすると、

Q=\frac{1}{2}(Q_3-Q_1)

そのほかの指標

歪度

対称性からのずれを計る指標。

\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^3/{s_x^3}

尖度

正規分布からどれほど離れているか計る指標。

\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^4/{s_x^4}-3

エントロピー

尤度

アラン分散

価格指数

ライパイレス式

  • 加重算術平均

パーシェ式

  • 加重調和平均

フィッシャー式

  • ライパイレス式、パーシェ式の幾何平均が、フィシャー式。

基本・キーワード羅列...その2...多変数

相関:共分散、重相関係数、偏相関係数
順位相関係数:スピアマンの順位相関係数、ケンドールの順位相関係数

相関係数

共分散

重相関係数

偏相関係数

順位相関係数

スピアマンの順位相関係数

ケンドールの順位相関係数

比較するための尺度

尤度比

オッズ

ダイバージェンス(KL情報量)

確率分布間の独立性を計る指標としてgood。

χ^2統計量

ヘリンジャー距離

一般化情報量

L1ノルム

L2ノルム

Chernoff距離

Bhattacharyya 距離

  • Chernoff距離の特別な場合。

Mahalabinos距離

  • 主成分分析の主成分得点のユークリッド距離で出せる
  • 参考:多変量解析ハンドブックp227

このコラムの参考文献

統計
  • 小西,北川,"情報量規準",朝倉書店
  • 基礎統計学Ⅰ(統計学入門),東京大出版
    • Mid-Range、変動係数の存在を教えてくれた。
応用
  • 棟安,田口,"非線形ディジタル信号処理"
最終更新:2019年12月24日 19:47