「Library/数学/統計学/Note1_データの整理方法」の編集履歴(バックアップ)一覧はこちら
追加された行は緑色になります。
削除された行は赤色になります。
#navi(Library/数学/統計学)
#contents
*基本・キーワード羅列...その1...1変数
平均:算術平均、幾何平均、調和平均、中央値、最頻値、最大値、最小値、Mid-Range、変動係数、重み付け平均、中央値、最頻値
分散:標本分散、不偏分散、
偏差:標準偏差、平均偏差、4分位偏差
指標:歪度、尖度、エントロピー
**平均
平均とは、ある指標(キョリ)を定めたときほかの任意のデータとの差が小さくなる値
***算術平均(標本平均、平均値)
$$\bar{x}=\frac{x_1+x_2+\dots +x_n}{n}$$
性質として、「平均値は、平方損失の期待損失を最小化する」。
***幾何平均
$$\bar{x_g}= {}^n\sqrt{x_1 x_2 \dots x_n}$$
***調和平均
$$\bar{x_h} = \frac{1}{\frac{1}{n}(\frac{1}{x_1}+\frac{1}{x_2}+\dots +\frac{1}{x_n})}$$
***中央値(Median、メディアン、メデアン)
確率分布f(θ)が与えられたとき、以下の等号を満たすαが中央値。
$$\int^{\alpha}_{-\infty}f(\theta)=\int^{+\infty}_{\alpha}f(\theta)$$
-参考URL
--http://tsujimotter.hatenablog.com/entry/2013/11/17/201051
性質として、「中央値は、絶対損失の期待損失を最小化する」。
信号処理の世界では中央値フィルタを経由後、変化しない信号をルート信号という。
再度検証してみる。
損失関数を
$$L(\theta,\alpha)=|\theta-\alpha |$$
とする。リスク関数は、
$$R(\alpha)=\int^{\infty}_{-\infty} L(\theta,\alpha)$$
$$=\int^{\infty}_{-\infty}|\theta-\alpha |f(\theta) d\theta$$
$$=-\int^{\alpha}_{-\infty}(\theta-\alpha)f(\theta)d\theta+\int^{\infty}_{\alpha}(\theta-\alpha)f(\theta)d\theta$$
$$=-\int^{\alpha}_{-\infty}\theta f(\theta)d\theta+\alpha\int^{\alpha}_{-\infty}f(\theta)d\theta+\int^{\infty}_{\alpha}\theta f(\theta)d\theta-\alpha \int^{\infty}_{\alpha}f(\theta)d\theta$$
$$=\alpha\{ \int^{\alpha}_{-\infty}f(\theta)d\theta-\int^{\infty}_{\alpha}f(\theta)d\theta\}-\{\int^{\alpha}_{-\infty}\theta f(\theta)d\theta- \int^{\infty}_{\alpha}\theta f(\theta)d\theta\}$$
αで微分すると、(第一項目は、一項、二項に微分で分かれる。第二項は、三項目に微分でそうなる)
$$\frac{d R(\alpha)}{d\alpha}= \{ \int^{\alpha}_{-\infty}f(\theta)d\theta-\int^{\infty}_{\alpha}f(\theta)d\theta \} + \alpha \{ f(\alpha) -(-f(\alpha))\} - \{\alpha f(\alpha) -(-\alpha f(\alpha))\}$$
$$= \int^{\alpha}_{-\infty}f(\theta)d\theta-\int^{\infty}_{\alpha}f(\theta)d\theta=0$$
つまり、これは、中央値だ!!
***最頻値(Mode)
性質として、「最頻値は、0-1型単純損失の期待損失を最小化する」。
***最大値
***最小値
***Mid-Range
-最小値と最大値の平均値のことである。
***変動係数
-標準偏差/平均
***重み付き平均
$$\bar{x_w}=w_1 x_1+w_2 x_2+\dots +w_n x_n\\$$
$$,w_1 + w_2 + \dots +w_n = 1$$
***α刈り込み平均(α-trimmed mean)
>
n個の観測値を、大小順に並べる。そこから、大きい値と小さい値を除いて([nα]のサンプル数だけを用いて)、平均値を計算する。それにより、はずれ値を除外することができる。
<
***標本平均、幾何平均、調和平均の関係
$$\bar{x} \geq \bar{x_g} \geq \bar{x_h} $$
**分散
データのばらつき散らばり具合を表す指標
***標本分散(standard variance)
$$s_x^2=\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2 =\frac{1}{n} \sum_{i=1}^n x_i^2 -\bar{x}^2$$
***不偏分散(unbiased variance)
$$u_x^2=\frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2$$
***標本分散と不偏分散の違いとは?
>
実は、分散を推定する際、標本分散の計算は、不偏推定になっていない。標本分散で推定した場合、不偏分散に比べて、真値からのずれがある。
<
----
アプローチその1
$$ S=\sum_{i=1}^n (x_i-\bar{x})^2 $$
としたとき
$$ E(S)=(n-1)\sigma^2 $$
証明
$$(x_i -\mu) = (x_i-\bar{x})+(\bar{x}-\mu)$$
この両辺を二乗して、i=1~i=nまでの和を取ると、
$$\sum_{i=1}^n (x_i -\mu)^2 $$
$$=\sum_{i=1}^n (x_i-\bar{x})^2 + \sum_{i=1}^n (\bar{x}-\mu)^2 + 2(\bar{x}-\mu) \sum_{i=1}^n (x_i-\bar{x})$$
第三項は0なので
$$=\sum_{i=1}^n (x_i-\bar{x})^2 + \sum_{i=1}^n (\bar{x}-\mu)^2 $$
ここで、両辺の期待値を取ると、
$$E(\sum_{i=1}^n (x_i -\mu)^2 )=\sum_{i=1}^n E(x_i -\mu)^2 = \sum_{i=1}^n V(x_i) =n \sigma^2$$
$$E(\sum_{i=1}^n (\bar{x}-\mu)^2) = \sum_{i=1}^n E(\bar{x}-\mu)^2 = \sum_{i=1}^n V(\bar{x}) = \sum_{i=1}^n \frac{\sigma^2}{n}=\sigma^2 $$
このため、
$$E(\sum_{i=1}^n (x_i-\bar{x})^2) = n \sigma^2 -\sigma^2 =(n-1)\sigma^2$$
----
アプローチその2
----
**モーメント,積率関数
----
**偏差
***標準偏差
$$\sqrt{s_x^2}=s_x $$
***平均偏差
$$\frac{1}{n} \sum_{i=1}^n |x_i-\bar{x}|$$
***4分位偏差
-データを順番にならべ、データ全体で、小さいほうから、1/4の値を$$Q_1$$、大きいほうから1/4の値を$$Q_3$$、中央値を$$Q_2$$とすると、
$$Q=\frac{1}{2}(Q_3-Q_1)$$
**そのほかの指標
***歪度
対称性からのずれを計る指標。
$$\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^3/{s_x^3} $$
***尖度
正規分布からどれほど離れているか計る指標。
$$\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^4/{s_x^4}-3 $$
***エントロピー
***尤度
***アラン分散
**価格指数
***ライパイレス式
-加重算術平均
***パーシェ式
-加重調和平均
***フィッシャー式
-ライパイレス式、パーシェ式の幾何平均が、フィシャー式。
*基本・キーワード羅列...その2...多変数
相関:共分散、重相関係数、偏相関係数
順位相関係数:スピアマンの順位相関係数、ケンドールの順位相関係数
**相関係数
***共分散
***重相関係数
***偏相関係数
**順位相関係数
***スピアマンの順位相関係数
***ケンドールの順位相関係数
**比較するための尺度
***尤度比
***オッズ
***ダイバージェンス(KL情報量)
>
確率分布間の独立性を計る指標としてgood。
<
***χ^2統計量
***ヘリンジャー距離
***一般化情報量
***L1ノルム
***L2ノルム
***Chernoff距離
***Bhattacharyya 距離
-Chernoff距離の特別な場合。
***Mahalabinos距離
-主成分分析後のユークリッド距離で出せるらしい
----
*このコラムの参考文献
統計
-白旗 慎吾,"統計解析入門",共立出版
-鷲尾泰俊,"推定と検定",共立出版
-松原望,"入門ベイズ統計",
-tsujimotterさんのサイト:http://tsujimotter.hatenablog.com/entry/2013/11/17/201051
--中央値、最頻値の意味を教えてくれた。
-小西,北川,"情報量規準",朝倉書店
-河田,"情報量と統計",統計数理35,1-57
--http://ismrepo.ism.ac.jp/dspace/bitstream/10787/1396/1/TS35-1_003.pdf
-S. Jplad, etc,"A New Family of Bounded Divergence Measures and Application to Signal Detection"
--http://arxiv.org/abs/1201.0418
-基礎統計学Ⅰ(統計学入門),東京大出版
--Mid-Range、変動係数の存在を教えてくれた。
応用
-棟安,田口,"非線形ディジタル信号処理"
#navi(Library/数学/統計学)
#contents
*基本・キーワード羅列...その1...1変数
平均:算術平均、幾何平均、調和平均、中央値、最頻値、最大値、最小値、Mid-Range、変動係数、重み付け平均、中央値、最頻値
分散:標本分散、不偏分散、
偏差:標準偏差、平均偏差、4分位偏差
指標:歪度、尖度、エントロピー
**平均
平均とは、ある指標(キョリ)を定めたときほかの任意のデータとの差が小さくなる値
***算術平均(標本平均、平均値)
$$\bar{x}=\frac{x_1+x_2+\dots +x_n}{n}$$
性質として、「平均値は、平方損失の期待損失を最小化する」。
***幾何平均
$$\bar{x_g}= {}^n\sqrt{x_1 x_2 \dots x_n}$$
***調和平均
$$\bar{x_h} = \frac{1}{\frac{1}{n}(\frac{1}{x_1}+\frac{1}{x_2}+\dots +\frac{1}{x_n})}$$
***中央値(Median、メディアン、メデアン)
確率分布f(θ)が与えられたとき、以下の等号を満たすαが中央値。
$$\int^{\alpha}_{-\infty}f(\theta)=\int^{+\infty}_{\alpha}f(\theta)$$
-参考URL
--http://tsujimotter.hatenablog.com/entry/2013/11/17/201051
性質として、「中央値は、絶対損失の期待損失を最小化する」。
信号処理の世界では中央値フィルタを経由後、変化しない信号をルート信号という。
再度検証してみる。
損失関数を
$$L(\theta,\alpha)=|\theta-\alpha |$$
とする。リスク関数は、
$$R(\alpha)=\int^{\infty}_{-\infty} L(\theta,\alpha)$$
$$=\int^{\infty}_{-\infty}|\theta-\alpha |f(\theta) d\theta$$
$$=-\int^{\alpha}_{-\infty}(\theta-\alpha)f(\theta)d\theta+\int^{\infty}_{\alpha}(\theta-\alpha)f(\theta)d\theta$$
$$=-\int^{\alpha}_{-\infty}\theta f(\theta)d\theta+\alpha\int^{\alpha}_{-\infty}f(\theta)d\theta+\int^{\infty}_{\alpha}\theta f(\theta)d\theta-\alpha \int^{\infty}_{\alpha}f(\theta)d\theta$$
$$=\alpha\{ \int^{\alpha}_{-\infty}f(\theta)d\theta-\int^{\infty}_{\alpha}f(\theta)d\theta\}-\{\int^{\alpha}_{-\infty}\theta f(\theta)d\theta- \int^{\infty}_{\alpha}\theta f(\theta)d\theta\}$$
αで微分すると、(第一項目は、一項、二項に微分で分かれる。第二項は、三項目に微分でそうなる)
$$\frac{d R(\alpha)}{d\alpha}= \{ \int^{\alpha}_{-\infty}f(\theta)d\theta-\int^{\infty}_{\alpha}f(\theta)d\theta \} + \alpha \{ f(\alpha) -(-f(\alpha))\} - \{\alpha f(\alpha) -(-\alpha f(\alpha))\}$$
$$= \int^{\alpha}_{-\infty}f(\theta)d\theta-\int^{\infty}_{\alpha}f(\theta)d\theta=0$$
つまり、これは、中央値だ!!
***最頻値(Mode)
性質として、「最頻値は、0-1型単純損失の期待損失を最小化する」。
***最大値
***最小値
***Mid-Range
-最小値と最大値の平均値のことである。
***変動係数
-標準偏差/平均
***重み付き平均
$$\bar{x_w}=w_1 x_1+w_2 x_2+\dots +w_n x_n\\$$
$$,w_1 + w_2 + \dots +w_n = 1$$
***α刈り込み平均(α-trimmed mean)
>
n個の観測値を、大小順に並べる。そこから、大きい値と小さい値を除いて([nα]のサンプル数だけを用いて)、平均値を計算する。それにより、はずれ値を除外することができる。
<
***標本平均、幾何平均、調和平均の関係
$$\bar{x} \geq \bar{x_g} \geq \bar{x_h} $$
**分散
データのばらつき散らばり具合を表す指標
***標本分散(standard variance)
$$s_x^2=\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2 =\frac{1}{n} \sum_{i=1}^n x_i^2 -\bar{x}^2$$
***不偏分散(unbiased variance)
$$u_x^2=\frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2$$
***標本分散と不偏分散の違いとは?
>
実は、分散を推定する際、標本分散の計算は、不偏推定になっていない。標本分散で推定した場合、不偏分散に比べて、真値からのずれがある。
<
----
アプローチその1
$$ S=\sum_{i=1}^n (x_i-\bar{x})^2 $$
としたとき
$$ E(S)=(n-1)\sigma^2 $$
証明
$$(x_i -\mu) = (x_i-\bar{x})+(\bar{x}-\mu)$$
この両辺を二乗して、i=1~i=nまでの和を取ると、
$$\sum_{i=1}^n (x_i -\mu)^2 $$
$$=\sum_{i=1}^n (x_i-\bar{x})^2 + \sum_{i=1}^n (\bar{x}-\mu)^2 + 2(\bar{x}-\mu) \sum_{i=1}^n (x_i-\bar{x})$$
第三項は0なので
$$=\sum_{i=1}^n (x_i-\bar{x})^2 + \sum_{i=1}^n (\bar{x}-\mu)^2 $$
ここで、両辺の期待値を取ると、
$$E(\sum_{i=1}^n (x_i -\mu)^2 )=\sum_{i=1}^n E(x_i -\mu)^2 = \sum_{i=1}^n V(x_i) =n \sigma^2$$
$$E(\sum_{i=1}^n (\bar{x}-\mu)^2) = \sum_{i=1}^n E(\bar{x}-\mu)^2 = \sum_{i=1}^n V(\bar{x}) = \sum_{i=1}^n \frac{\sigma^2}{n}=\sigma^2 $$
このため、
$$E(\sum_{i=1}^n (x_i-\bar{x})^2) = n \sigma^2 -\sigma^2 =(n-1)\sigma^2$$
----
アプローチその2
----
**モーメント,積率関数
----
**偏差
***標準偏差
$$\sqrt{s_x^2}=s_x $$
***平均偏差
$$\frac{1}{n} \sum_{i=1}^n |x_i-\bar{x}|$$
***4分位偏差
-データを順番にならべ、データ全体で、小さいほうから、1/4の値を$$Q_1$$、大きいほうから1/4の値を$$Q_3$$、中央値を$$Q_2$$とすると、
$$Q=\frac{1}{2}(Q_3-Q_1)$$
**そのほかの指標
***歪度
対称性からのずれを計る指標。
$$\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^3/{s_x^3} $$
***尖度
正規分布からどれほど離れているか計る指標。
$$\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^4/{s_x^4}-3 $$
***エントロピー
***尤度
***アラン分散
**価格指数
***ライパイレス式
-加重算術平均
***パーシェ式
-加重調和平均
***フィッシャー式
-ライパイレス式、パーシェ式の幾何平均が、フィシャー式。
*基本・キーワード羅列...その2...多変数
相関:共分散、重相関係数、偏相関係数
順位相関係数:スピアマンの順位相関係数、ケンドールの順位相関係数
**相関係数
***共分散
***重相関係数
***偏相関係数
**順位相関係数
***スピアマンの順位相関係数
***ケンドールの順位相関係数
**比較するための尺度
***尤度比
***オッズ
***ダイバージェンス(KL情報量)
>
確率分布間の独立性を計る指標としてgood。
<
***χ^2統計量
***ヘリンジャー距離
***一般化情報量
***L1ノルム
***L2ノルム
***Chernoff距離
***Bhattacharyya 距離
-Chernoff距離の特別な場合。
***Mahalabinos距離
-主成分分析の主成分得点のユークリッド距離で出せる
-参考:多変量解析ハンドブックp227
----
*このコラムの参考文献
統計
-白旗 慎吾,"統計解析入門",共立出版
-鷲尾泰俊,"推定と検定",共立出版
-松原望,"入門ベイズ統計",
-tsujimotterさんのサイト:http://tsujimotter.hatenablog.com/entry/2013/11/17/201051
--中央値、最頻値の意味を教えてくれた。
-小西,北川,"情報量規準",朝倉書店
-河田,"情報量と統計",統計数理35,1-57
--http://ismrepo.ism.ac.jp/dspace/bitstream/10787/1396/1/TS35-1_003.pdf
-S. Jplad, etc,"A New Family of Bounded Divergence Measures and Application to Signal Detection"
--http://arxiv.org/abs/1201.0418
-基礎統計学Ⅰ(統計学入門),東京大出版
--Mid-Range、変動係数の存在を教えてくれた。
応用
-棟安,田口,"非線形ディジタル信号処理"