Library > 数学 > 統計学 > Note1_データの整理方法

「Library/数学/統計学/Note1_データの整理方法」の編集履歴(バックアップ)一覧はこちら

Library/数学/統計学/Note1_データの整理方法 - (2019/12/24 (火) 19:47:03) の1つ前との変更点

追加された行は緑色になります。

削除された行は赤色になります。

#navi(Library/数学/統計学) #contents *基本・キーワード羅列...その1...1変数 平均:算術平均、幾何平均、調和平均、中央値、最頻値、最大値、最小値、Mid-Range、変動係数、重み付け平均、中央値、最頻値 分散:標本分散、不偏分散、 偏差:標準偏差、平均偏差、4分位偏差 指標:歪度、尖度、エントロピー **平均 平均とは、ある指標(キョリ)を定めたときほかの任意のデータとの差が小さくなる値 ***算術平均(標本平均、平均値) $$\bar{x}=\frac{x_1+x_2+\dots +x_n}{n}$$ 性質として、「平均値は、平方損失の期待損失を最小化する」。 ***幾何平均 $$\bar{x_g}= {}^n\sqrt{x_1 x_2 \dots x_n}$$ ***調和平均 $$\bar{x_h} = \frac{1}{\frac{1}{n}(\frac{1}{x_1}+\frac{1}{x_2}+\dots +\frac{1}{x_n})}$$ ***中央値(Median、メディアン、メデアン) 確率分布f(θ)が与えられたとき、以下の等号を満たすαが中央値。 $$\int^{\alpha}_{-\infty}f(\theta)=\int^{+\infty}_{\alpha}f(\theta)$$ -参考URL --http://tsujimotter.hatenablog.com/entry/2013/11/17/201051 性質として、「中央値は、絶対損失の期待損失を最小化する」。 信号処理の世界では中央値フィルタを経由後、変化しない信号をルート信号という。 再度検証してみる。 損失関数を $$L(\theta,\alpha)=|\theta-\alpha |$$ とする。リスク関数は、 $$R(\alpha)=\int^{\infty}_{-\infty} L(\theta,\alpha)$$ $$=\int^{\infty}_{-\infty}|\theta-\alpha |f(\theta) d\theta$$ $$=-\int^{\alpha}_{-\infty}(\theta-\alpha)f(\theta)d\theta+\int^{\infty}_{\alpha}(\theta-\alpha)f(\theta)d\theta$$ $$=-\int^{\alpha}_{-\infty}\theta f(\theta)d\theta+\alpha\int^{\alpha}_{-\infty}f(\theta)d\theta+\int^{\infty}_{\alpha}\theta f(\theta)d\theta-\alpha \int^{\infty}_{\alpha}f(\theta)d\theta$$ $$=\alpha\{ \int^{\alpha}_{-\infty}f(\theta)d\theta-\int^{\infty}_{\alpha}f(\theta)d\theta\}-\{\int^{\alpha}_{-\infty}\theta f(\theta)d\theta- \int^{\infty}_{\alpha}\theta f(\theta)d\theta\}$$ αで微分すると、(第一項目は、一項、二項に微分で分かれる。第二項は、三項目に微分でそうなる) $$\frac{d R(\alpha)}{d\alpha}= \{ \int^{\alpha}_{-\infty}f(\theta)d\theta-\int^{\infty}_{\alpha}f(\theta)d\theta \} + \alpha \{ f(\alpha) -(-f(\alpha))\} - \{\alpha f(\alpha) -(-\alpha f(\alpha))\}$$ $$= \int^{\alpha}_{-\infty}f(\theta)d\theta-\int^{\infty}_{\alpha}f(\theta)d\theta=0$$ つまり、これは、中央値だ!! ***最頻値(Mode) 性質として、「最頻値は、0-1型単純損失の期待損失を最小化する」。 ***最大値 ***最小値 ***Mid-Range -最小値と最大値の平均値のことである。 ***変動係数 -標準偏差/平均 ***重み付き平均 $$\bar{x_w}=w_1 x_1+w_2 x_2+\dots +w_n x_n\\$$ $$,w_1 + w_2 + \dots +w_n = 1$$ ***α刈り込み平均(α-trimmed mean) > n個の観測値を、大小順に並べる。そこから、大きい値と小さい値を除いて([nα]のサンプル数だけを用いて)、平均値を計算する。それにより、はずれ値を除外することができる。 < ***標本平均、幾何平均、調和平均の関係 $$\bar{x} \geq \bar{x_g} \geq \bar{x_h} $$ **分散 データのばらつき散らばり具合を表す指標 ***標本分散(standard variance) $$s_x^2=\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2 =\frac{1}{n} \sum_{i=1}^n x_i^2 -\bar{x}^2$$ ***不偏分散(unbiased variance) $$u_x^2=\frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2$$ ***標本分散と不偏分散の違いとは? > 実は、分散を推定する際、標本分散の計算は、不偏推定になっていない。標本分散で推定した場合、不偏分散に比べて、真値からのずれがある。 < ---- アプローチその1 $$ S=\sum_{i=1}^n (x_i-\bar{x})^2 $$ としたとき $$ E(S)=(n-1)\sigma^2 $$ 証明 $$(x_i -\mu) = (x_i-\bar{x})+(\bar{x}-\mu)$$ この両辺を二乗して、i=1~i=nまでの和を取ると、 $$\sum_{i=1}^n (x_i -\mu)^2 $$ $$=\sum_{i=1}^n (x_i-\bar{x})^2 + \sum_{i=1}^n (\bar{x}-\mu)^2 + 2(\bar{x}-\mu) \sum_{i=1}^n (x_i-\bar{x})$$ 第三項は0なので $$=\sum_{i=1}^n (x_i-\bar{x})^2 + \sum_{i=1}^n (\bar{x}-\mu)^2 $$ ここで、両辺の期待値を取ると、 $$E(\sum_{i=1}^n (x_i -\mu)^2 )=\sum_{i=1}^n E(x_i -\mu)^2 = \sum_{i=1}^n V(x_i) =n \sigma^2$$ $$E(\sum_{i=1}^n (\bar{x}-\mu)^2) = \sum_{i=1}^n E(\bar{x}-\mu)^2 = \sum_{i=1}^n V(\bar{x}) = \sum_{i=1}^n \frac{\sigma^2}{n}=\sigma^2 $$ このため、 $$E(\sum_{i=1}^n (x_i-\bar{x})^2) = n \sigma^2 -\sigma^2 =(n-1)\sigma^2$$ ---- アプローチその2 ---- **モーメント,積率関数 ---- **偏差 ***標準偏差 $$\sqrt{s_x^2}=s_x $$ ***平均偏差 $$\frac{1}{n} \sum_{i=1}^n |x_i-\bar{x}|$$ ***4分位偏差 -データを順番にならべ、データ全体で、小さいほうから、1/4の値を$$Q_1$$、大きいほうから1/4の値を$$Q_3$$、中央値を$$Q_2$$とすると、 $$Q=\frac{1}{2}(Q_3-Q_1)$$ **そのほかの指標 ***歪度 対称性からのずれを計る指標。 $$\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^3/{s_x^3} $$ ***尖度 正規分布からどれほど離れているか計る指標。 $$\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^4/{s_x^4}-3 $$ ***エントロピー ***尤度 ***アラン分散 **価格指数 ***ライパイレス式 -加重算術平均 ***パーシェ式 -加重調和平均 ***フィッシャー式 -ライパイレス式、パーシェ式の幾何平均が、フィシャー式。 *基本・キーワード羅列...その2...多変数 相関:共分散、重相関係数、偏相関係数 順位相関係数:スピアマンの順位相関係数、ケンドールの順位相関係数 **相関係数 ***共分散 ***重相関係数 ***偏相関係数 **順位相関係数 ***スピアマンの順位相関係数 ***ケンドールの順位相関係数 **比較するための尺度 ***尤度比 ***オッズ ***ダイバージェンス(KL情報量) > 確率分布間の独立性を計る指標としてgood。 < ***χ^2統計量 ***ヘリンジャー距離 ***一般化情報量 ***L1ノルム ***L2ノルム ***Chernoff距離 ***Bhattacharyya 距離 -Chernoff距離の特別な場合。 ***Mahalabinos距離 -主成分分析後のユークリッド距離で出せるらしい ---- *このコラムの参考文献 統計 -白旗 慎吾,"統計解析入門",共立出版 -鷲尾泰俊,"推定と検定",共立出版 -松原望,"入門ベイズ統計", -tsujimotterさんのサイト:http://tsujimotter.hatenablog.com/entry/2013/11/17/201051 --中央値、最頻値の意味を教えてくれた。 -小西,北川,"情報量規準",朝倉書店 -河田,"情報量と統計",統計数理35,1-57 --http://ismrepo.ism.ac.jp/dspace/bitstream/10787/1396/1/TS35-1_003.pdf -S. Jplad, etc,"A New Family of Bounded Divergence Measures and Application to Signal Detection" --http://arxiv.org/abs/1201.0418 -基礎統計学Ⅰ(統計学入門),東京大出版 --Mid-Range、変動係数の存在を教えてくれた。 応用 -棟安,田口,"非線形ディジタル信号処理"
#navi(Library/数学/統計学) #contents *基本・キーワード羅列...その1...1変数 平均:算術平均、幾何平均、調和平均、中央値、最頻値、最大値、最小値、Mid-Range、変動係数、重み付け平均、中央値、最頻値 分散:標本分散、不偏分散、 偏差:標準偏差、平均偏差、4分位偏差 指標:歪度、尖度、エントロピー **平均 平均とは、ある指標(キョリ)を定めたときほかの任意のデータとの差が小さくなる値 ***算術平均(標本平均、平均値) $$\bar{x}=\frac{x_1+x_2+\dots +x_n}{n}$$ 性質として、「平均値は、平方損失の期待損失を最小化する」。 ***幾何平均 $$\bar{x_g}= {}^n\sqrt{x_1 x_2 \dots x_n}$$ ***調和平均 $$\bar{x_h} = \frac{1}{\frac{1}{n}(\frac{1}{x_1}+\frac{1}{x_2}+\dots +\frac{1}{x_n})}$$ ***中央値(Median、メディアン、メデアン) 確率分布f(θ)が与えられたとき、以下の等号を満たすαが中央値。 $$\int^{\alpha}_{-\infty}f(\theta)=\int^{+\infty}_{\alpha}f(\theta)$$ -参考URL --http://tsujimotter.hatenablog.com/entry/2013/11/17/201051 性質として、「中央値は、絶対損失の期待損失を最小化する」。 信号処理の世界では中央値フィルタを経由後、変化しない信号をルート信号という。 再度検証してみる。 損失関数を $$L(\theta,\alpha)=|\theta-\alpha |$$ とする。リスク関数は、 $$R(\alpha)=\int^{\infty}_{-\infty} L(\theta,\alpha)$$ $$=\int^{\infty}_{-\infty}|\theta-\alpha |f(\theta) d\theta$$ $$=-\int^{\alpha}_{-\infty}(\theta-\alpha)f(\theta)d\theta+\int^{\infty}_{\alpha}(\theta-\alpha)f(\theta)d\theta$$ $$=-\int^{\alpha}_{-\infty}\theta f(\theta)d\theta+\alpha\int^{\alpha}_{-\infty}f(\theta)d\theta+\int^{\infty}_{\alpha}\theta f(\theta)d\theta-\alpha \int^{\infty}_{\alpha}f(\theta)d\theta$$ $$=\alpha\{ \int^{\alpha}_{-\infty}f(\theta)d\theta-\int^{\infty}_{\alpha}f(\theta)d\theta\}-\{\int^{\alpha}_{-\infty}\theta f(\theta)d\theta- \int^{\infty}_{\alpha}\theta f(\theta)d\theta\}$$ αで微分すると、(第一項目は、一項、二項に微分で分かれる。第二項は、三項目に微分でそうなる) $$\frac{d R(\alpha)}{d\alpha}= \{ \int^{\alpha}_{-\infty}f(\theta)d\theta-\int^{\infty}_{\alpha}f(\theta)d\theta \} + \alpha \{ f(\alpha) -(-f(\alpha))\} - \{\alpha f(\alpha) -(-\alpha f(\alpha))\}$$ $$= \int^{\alpha}_{-\infty}f(\theta)d\theta-\int^{\infty}_{\alpha}f(\theta)d\theta=0$$ つまり、これは、中央値だ!! ***最頻値(Mode) 性質として、「最頻値は、0-1型単純損失の期待損失を最小化する」。 ***最大値 ***最小値 ***Mid-Range -最小値と最大値の平均値のことである。 ***変動係数 -標準偏差/平均 ***重み付き平均 $$\bar{x_w}=w_1 x_1+w_2 x_2+\dots +w_n x_n\\$$ $$,w_1 + w_2 + \dots +w_n = 1$$ ***α刈り込み平均(α-trimmed mean) > n個の観測値を、大小順に並べる。そこから、大きい値と小さい値を除いて([nα]のサンプル数だけを用いて)、平均値を計算する。それにより、はずれ値を除外することができる。 < ***標本平均、幾何平均、調和平均の関係 $$\bar{x} \geq \bar{x_g} \geq \bar{x_h} $$ **分散 データのばらつき散らばり具合を表す指標 ***標本分散(standard variance) $$s_x^2=\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2 =\frac{1}{n} \sum_{i=1}^n x_i^2 -\bar{x}^2$$ ***不偏分散(unbiased variance) $$u_x^2=\frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2$$ ***標本分散と不偏分散の違いとは? > 実は、分散を推定する際、標本分散の計算は、不偏推定になっていない。標本分散で推定した場合、不偏分散に比べて、真値からのずれがある。 < ---- アプローチその1 $$ S=\sum_{i=1}^n (x_i-\bar{x})^2 $$ としたとき $$ E(S)=(n-1)\sigma^2 $$ 証明 $$(x_i -\mu) = (x_i-\bar{x})+(\bar{x}-\mu)$$ この両辺を二乗して、i=1~i=nまでの和を取ると、 $$\sum_{i=1}^n (x_i -\mu)^2 $$ $$=\sum_{i=1}^n (x_i-\bar{x})^2 + \sum_{i=1}^n (\bar{x}-\mu)^2 + 2(\bar{x}-\mu) \sum_{i=1}^n (x_i-\bar{x})$$ 第三項は0なので $$=\sum_{i=1}^n (x_i-\bar{x})^2 + \sum_{i=1}^n (\bar{x}-\mu)^2 $$ ここで、両辺の期待値を取ると、 $$E(\sum_{i=1}^n (x_i -\mu)^2 )=\sum_{i=1}^n E(x_i -\mu)^2 = \sum_{i=1}^n V(x_i) =n \sigma^2$$ $$E(\sum_{i=1}^n (\bar{x}-\mu)^2) = \sum_{i=1}^n E(\bar{x}-\mu)^2 = \sum_{i=1}^n V(\bar{x}) = \sum_{i=1}^n \frac{\sigma^2}{n}=\sigma^2 $$ このため、 $$E(\sum_{i=1}^n (x_i-\bar{x})^2) = n \sigma^2 -\sigma^2 =(n-1)\sigma^2$$ ---- アプローチその2 ---- **モーメント,積率関数 ---- **偏差 ***標準偏差 $$\sqrt{s_x^2}=s_x $$ ***平均偏差 $$\frac{1}{n} \sum_{i=1}^n |x_i-\bar{x}|$$ ***4分位偏差 -データを順番にならべ、データ全体で、小さいほうから、1/4の値を$$Q_1$$、大きいほうから1/4の値を$$Q_3$$、中央値を$$Q_2$$とすると、 $$Q=\frac{1}{2}(Q_3-Q_1)$$ **そのほかの指標 ***歪度 対称性からのずれを計る指標。 $$\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^3/{s_x^3} $$ ***尖度 正規分布からどれほど離れているか計る指標。 $$\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^4/{s_x^4}-3 $$ ***エントロピー ***尤度 ***アラン分散 **価格指数 ***ライパイレス式 -加重算術平均 ***パーシェ式 -加重調和平均 ***フィッシャー式 -ライパイレス式、パーシェ式の幾何平均が、フィシャー式。 *基本・キーワード羅列...その2...多変数 相関:共分散、重相関係数、偏相関係数 順位相関係数:スピアマンの順位相関係数、ケンドールの順位相関係数 **相関係数 ***共分散 ***重相関係数 ***偏相関係数 **順位相関係数 ***スピアマンの順位相関係数 ***ケンドールの順位相関係数 **比較するための尺度 ***尤度比 ***オッズ ***ダイバージェンス(KL情報量) > 確率分布間の独立性を計る指標としてgood。 < ***χ^2統計量 ***ヘリンジャー距離 ***一般化情報量 ***L1ノルム ***L2ノルム ***Chernoff距離 ***Bhattacharyya 距離 -Chernoff距離の特別な場合。 ***Mahalabinos距離 -主成分分析の主成分得点のユークリッド距離で出せる -参考:多変量解析ハンドブックp227 ---- *このコラムの参考文献 統計 -白旗 慎吾,"統計解析入門",共立出版 -鷲尾泰俊,"推定と検定",共立出版 -松原望,"入門ベイズ統計", -tsujimotterさんのサイト:http://tsujimotter.hatenablog.com/entry/2013/11/17/201051 --中央値、最頻値の意味を教えてくれた。 -小西,北川,"情報量規準",朝倉書店 -河田,"情報量と統計",統計数理35,1-57 --http://ismrepo.ism.ac.jp/dspace/bitstream/10787/1396/1/TS35-1_003.pdf -S. Jplad, etc,"A New Family of Bounded Divergence Measures and Application to Signal Detection" --http://arxiv.org/abs/1201.0418 -基礎統計学Ⅰ(統計学入門),東京大出版 --Mid-Range、変動係数の存在を教えてくれた。 応用 -棟安,田口,"非線形ディジタル信号処理"

表示オプション

横に並べて表示:
変化行の前後のみ表示: