Library/数学/統計学/Note1_データの整理方法 - kuni_memo @ ウィキ

Library > 数学 > 統計学 > Note1_データの整理方法

基本・キーワード羅列...その１...１変数
基本・キーワード羅列...その２...多変数
このコラムの参考文献

基本・キーワード羅列...その１...１変数

平均：算術平均、幾何平均、調和平均、中央値、最頻値、最大値、最小値、Mid-Range、変動係数、重み付け平均、中央値、最頻値
分散：標本分散、不偏分散、
偏差：標準偏差、平均偏差、４分位偏差
指標：歪度、尖度、エントロピー

平均

平均とは、ある指標(キョリ)を定めたときほかの任意のデータとの差が小さくなる値

算術平均(標本平均、平均値)

$\bar{x}=\frac{x_1+x_2+\dots +x_n}{n}$

性質として、「平均値は、平方損失の期待損失を最小化する」。

幾何平均

$\bar{x_g}= {}^n\sqrt{x_1 x_2 \dots x_n}$

調和平均

$\bar{x_h} = \frac{1}{\frac{1}{n}(\frac{1}{x_1}+\frac{1}{x_2}+\dots +\frac{1}{x_n})}$

中央値（Median、メディアン、メデアン）

確率分布f(θ)が与えられたとき、以下の等号を満たすαが中央値。

$\int^{\alpha}_{-\infty}f(\theta)=\int^{+\infty}_{\alpha}f(\theta)$

参考URL
- http://tsujimotter.hatenablog.com/entry/2013/11/17/201051

性質として、「中央値は、絶対損失の期待損失を最小化する」。
信号処理の世界では中央値フィルタを経由後、変化しない信号をルート信号という。

再度検証してみる。

損失関数を


とする。リスク関数は、

αで微分すると、（第一項目は、一項、二項に微分で分かれる。第二項は、三項目に微分でそうなる）



つまり、これは、中央値だ！！

最頻値（Mode）

性質として、「最頻値は、0-1型単純損失の期待損失を最小化する」。

最大値

最小値

Mid-Range

最小値と最大値の平均値のことである。

変動係数

標準偏差/平均

重み付き平均

$\bar{x_w}=w_1 x_1+w_2 x_2+\dots +w_n x_n\\$ $,w_1 + w_2 + \dots +w_n = 1$

α刈り込み平均（α-trimmed mean）

n個の観測値を、大小順に並べる。そこから、大きい値と小さい値を除いて（[nα]のサンプル数だけを用いて）、平均値を計算する。それにより、はずれ値を除外することができる。

標本平均、幾何平均、調和平均の関係

$\bar{x} \geq \bar{x_g} \geq \bar{x_h}$

分散

データのばらつき散らばり具合を表す指標

標本分散(standard variance)

$s_x^2=\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2 =\frac{1}{n} \sum_{i=1}^n x_i^2 -\bar{x}^2$

不偏分散(unbiased variance)

$u_x^2=\frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2$

標本分散と不偏分散の違いとは?

実は、分散を推定する際、標本分散の計算は、不偏推定になっていない。標本分散で推定した場合、不偏分散に比べて、真値からのずれがある。

アプローチその1


としたとき

証明

この両辺を二乗して、i=1～i=nまでの和を取ると、


第三項は0なので


ここで、両辺の期待値を取ると、



このため、

アプローチその2

モーメント,積率関数

偏差

標準偏差

$\sqrt{s_x^2}=s_x$

平均偏差

$\frac{1}{n} \sum_{i=1}^n |x_i-\bar{x}|$

４分位偏差

データを順番にならべ、データ全体で、小さいほうから、1/4の値を $Q_1$ 、大きいほうから1/4の値を $Q_3$ 、中央値を $Q_2$ とすると、

$Q=\frac{1}{2}(Q_3-Q_1)$

そのほかの指標

歪度

対称性からのずれを計る指標。

$\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^3/{s_x^3}$

尖度

正規分布からどれほど離れているか計る指標。

$\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^4/{s_x^4}-3$

エントロピー

尤度

アラン分散

価格指数

ライパイレス式

加重算術平均

パーシェ式

加重調和平均

フィッシャー式

ライパイレス式、パーシェ式の幾何平均が、フィシャー式。

基本・キーワード羅列...その２...多変数

相関：共分散、重相関係数、偏相関係数
順位相関係数：スピアマンの順位相関係数、ケンドールの順位相関係数

相関係数

共分散

重相関係数

偏相関係数

順位相関係数

スピアマンの順位相関係数

ケンドールの順位相関係数

比較するための尺度

尤度比

オッズ

ダイバージェンス（KL情報量）

確率分布間の独立性を計る指標としてgood。

χ^2統計量

ヘリンジャー距離

一般化情報量

L1ノルム

L2ノルム

Chernoff距離

Bhattacharyya 距離

Chernoff距離の特別な場合。

Mahalabinos距離

主成分分析の主成分得点のユークリッド距離で出せる
参考：多変量解析ハンドブックp227

このコラムの参考文献

統計

白旗慎吾,"統計解析入門",共立出版
鷲尾泰俊,"推定と検定",共立出版
松原望,"入門ベイズ統計",
tsujimotterさんのサイト：http://tsujimotter.hatenablog.com/entry/2013/11/17/201051
- 中央値、最頻値の意味を教えてくれた。

小西,北川,"情報量規準",朝倉書店

河田,"情報量と統計",統計数理35,1-57
- http://ismrepo.ism.ac.jp/dspace/bitstream/10787/1396/1/TS35-1_003.pdf

S. Jplad, etc,"A New Family of Bounded Divergence Measures and Application to Signal Detection"
- http://arxiv.org/abs/1201.0418

基礎統計学Ⅰ（統計学入門),東京大出版
- Mid-Range、変動係数の存在を教えてくれた。

応用

棟安,田口,"非線形ディジタル信号処理"

「Note1_データの整理方法」をウィキ内検索

最終更新：2019年12月24日 19:47

kuni_memo @ ウィキ

Utility

Menu

Recent(50)

リンク