平均:算術平均、幾何平均、調和平均、中央値、最頻値、最大値、最小値、Mid-Range、変動係数、重み付け平均、中央値、最頻値 分散:標本分散、不偏分散、 偏差:標準偏差、平均偏差、4分位偏差 指標:歪度、尖度、エントロピー
平均とは、ある指標(キョリ)を定めたときほかの任意のデータとの差が小さくなる値
性質として、「平均値は、平方損失の期待損失を最小化する」。
確率分布f(θ)が与えられたとき、以下の等号を満たすαが中央値。
性質として、「中央値は、絶対損失の期待損失を最小化する」。 信号処理の世界では中央値フィルタを経由後、変化しない信号をルート信号という。 再度検証してみる。 損失関数を とする。リスク関数は、
αで微分すると、(第一項目は、一項、二項に微分で分かれる。第二項は、三項目に微分でそうなる) つまり、これは、中央値だ!!
性質として、「最頻値は、0-1型単純損失の期待損失を最小化する」。
n個の観測値を、大小順に並べる。そこから、大きい値と小さい値を除いて([nα]のサンプル数だけを用いて)、平均値を計算する。それにより、はずれ値を除外することができる。
データのばらつき散らばり具合を表す指標
実は、分散を推定する際、標本分散の計算は、不偏推定になっていない。標本分散で推定した場合、不偏分散に比べて、真値からのずれがある。
アプローチその1
としたとき
証明 この両辺を二乗して、i=1~i=nまでの和を取ると、 第三項は0なので ここで、両辺の期待値を取ると、 このため、
アプローチその2
対称性からのずれを計る指標。
正規分布からどれほど離れているか計る指標。
相関:共分散、重相関係数、偏相関係数 順位相関係数:スピアマンの順位相関係数、ケンドールの順位相関係数
確率分布間の独立性を計る指標としてgood。
統計
応用