講義ノート用

基礎統計1

基礎統計1 - (2009/05/21 (木) 19:21:04) のソース

__TOC__
=1.1次元データの要約(4/9)=
次元とは

<math>x_1,x_2,\cdots,x_n</math>:1次元データ

<math>(x_1,y_1),\cdots,(x_n,y_n)</math>:2次元データ

要するに考えているデータの組


統計の二つの方法　　

;図や表(度数分布、ヒストグラム)
;数値解析


==(1)度数分布表とヒストグラム==
詳細はプリント

ポイント:

単峰か？　No→複数の現象が影響しているので、適当に標本を限定して単純化する。(例、寿命と年齢の関係における男女)

↓Yes

中心(モード)

↓

歪み:右に歪んでいる（右に裾野が広がる)

↓

はずれ値の有無

==(2)データ分布の中心の指標==

;平均 : <math>\bar{x}=\frac{1}{n}\sum_{i=1}^n x_i</math>
;メディアン : データを大きさの順に並べて<math>x_{(1)}\le x_{(2)}\le \cdots \le x_{(n)}</math>とおく。<math>Md= \begin{cases} x(\frac{n+1}{2}) & n:odd \\ \frac{x(\frac{n}{2})+x(\frac{n}{2}+1)}{2} & n:even \end{cases}</math>
すなわち、メディアンの値を境にヒストグラムの左右の面積（標本の数）は等しくなる。
;モード:最も度数が高い階級値（最頻値)

===最小２乗値===
全てのデータを数直線上に置き、すべての点からの距離の和が最少となる値。

定理
 与えられたデータ<math>x_1,x_2,\cdots,x_n</math>に対して、関数<math>f(c)</math>を次の様に定義すれば、
 <math>f(c)=(x_1-c)^2+(x_2-c)^2+\cdots+(x_n-c)^2=\sum_{i=1}^n (x_i-c)^2</math>
 これは<math>c=\bar{x}</math>において最小となる。

証明
 <math>A=\sum_{i=1}^n x_i^2,B=\sum_{i=1}^n x_i</math>とおく。<math>\bar{x}=\frac{b}{n}</math>であることに留意する。
 <math>f(c)=\sum_{i=1}^n x_i^2 - 2c \sum_{i=1}^n x_i +nc^2=nc^2 -2 Bc+A</math>
 <math>\ \ =n(c-\frac{B}{n})^2 +A - \frac{B^2}{n}</math>
 が得られ、<math>c=\frac{B}{n}=\bar{x}</math>で最小となることがわかる。

===各中心の関係===
右に歪んだ分布では <math> Mo<Md<\bar{x}</math>
 
左右対称の分布では <math> Mo\risingdotseq Md \risingdotseq \bar{x}</math>

==(3)データのちらばりの指標==
;分散:<math>S^2=\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2</math>
この値は数値解析には大きすぎるためデータ解析には用いられないが、数学的な考察をする際は頻繁に用いられる。
この式の意味は、平均からの各標本の距離の平均値である。
また、最小２乗値により、平均からの距離を取ることには妥当性がある。
;標準偏差:<math>S=\sqrt{S^2}</math>
この値は主に、データ解析に用いる。特に後に述べる標準化という操作と組み合わせて用いる。
さらに重要な性質
 <math>\bar{x}\pm 2S</math>の範囲に95%のデータが入っている。

また、<math>\bar{x}\pm kS</math>で表わされる区間のことをkシグマ区間という。

参考に最下部の添付ファイル 1.pngを参照せよ。

==(4)標準化==
標準化とは、各データを適当に一次変換<math>z_i=a+bx_i</math>をほどこすことで、平均を0、標準偏差を1にし、異なるデータ群でも、容易に比較ができるようにすることである。すなわち、例えば、ヒトの身長のデータは平均はせいぜい170程度、標準偏差も２桁以下となるが、日本人の平均預金のデータではそれよりはるかに大きな平均、標準偏差になる。ところが、このままでは標準偏差を見てもいったいどれほどデータがばらついているのかわからない。そこで標準化を施す。数学的な記述は

<math>x_i=\bar{x}+z_i・S</math>

あるいは

<math>z_i=\frac{x_i - \bar x }{S}</math>

このことは、
定理
 <math>y_i=ax_i+b</math>において
 1.<math>\bar{y}=a\bar{x}+b</math>
 2.<math>s_y^2=a^2 S_x^2,S_y=|a|S_x</math>

によって確かめられる。

さらに、それぞれの証明は、

証明
 1.<math>\bar{y}=\frac{1}{n}\sum_{i=1}^n y_i=\frac{1}{n}\sum_{i=1}^n (ax_i+b)=a\frac{1}{n}\sum_{i=1}^n x_i+n\sum_{i=1}^n b =a\bar{x}+b</math>
 2.<math>S_y^2=\frac{1}{n}\sum_{i=1}^n (y_i-\bar{y})^2=\frac{1}{n}\sum_{i=1}^n (ax_i+b-(a\bar{x}+b))^2</math>
 <math>=a^2\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2=a^2 S_x^2</math>


=2.2次元データの要約(4/16)=
==(1)散布図==
ある２次元データ<math>(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)</math>について、たとえば、横にx軸、縦にy軸を取って、各データをプロットしたものを散布図という。

==(2)相関係数==
散布図を見れば、xとyの相関は主観的には容易に想像が着く。しかし、実際どれほどの相関があるのかを客観的に調べるために次のような指標を用いる。

;共分散:<math>S_{xy}=\frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})</math>

この式の意味は、x、yの平均からの偏差積の平均値である。読み方としては、

 <math>S_{xy} >0</math>のとき正の相関
 <math>S_{xy} <0</math>のとき負の相関

となる。ただし、単位が元のデータにそろっていないし、xとyの因果関係までは説明していないことに注意。

;相関係数:<math>r_{xy}=\frac{S_{xy}}{S_x S_y}=\frac{1}{n} \sum_{i=1}^n (\frac{x_i-\bar{x}}{S_x})(\frac{y_i-\bar{y}}{S_y})</math>

この式の意味は、xの標準化とyの標準化の積の平均値である。読み方としては、

 <math> 0<r_{xy} \le 1</math>のとき正の相関
 <math> r_{xy} \approx 0</math>のとき無相関
 <math> -1 \le r_{xy} <0</math>のとき負の相関

となる。これは無次元量で、値が常に<math>-1 \le r_{xy} \le 1</math>の間にあるため、異なるデータ間での比較も可能である。
また、<math>r_{xy} = \ps 1 </math>となるとき、すべてのデータが同一直線状にある。これはコーシー・シュワルツの不等式で導ける。

==(3)回帰直線==
これは、２次元データが実際に、どういう相関関係にあるのかを調べるためのものである。簡単にいえば、すなわち、すべてのデータから近いような直線（回帰直線)を探すのである。
すべてのデータyは、

<math>y_i=a +bx_i +d_i (i=1,2,\cdots,n)</math>

によって表せる。このときdを誤差項という。また、a,bは回帰係数と言う。

;a,bの求め方:回帰直線の定義により、誤差項が最も小さくなるようにa,bを設定すればよい。

すなわち、<math>d_i^2,d_2^2,\cdots,d_n^2</math>が最小となればよい。

上の式を変形して、<math>d_i=y_i-(a+bx_i)</math>

なので、

<math>f(a,b)=\sum_{i=i}^n\{ y_i-(a+bx_i) \} ^2</math>

が最小となればよい。

<math>f(a,b)=\sum_{i=1}^n \{ (y_i-\bar{y}) + (\bar{y}-a-b\bar{x})-b(x_i-\bar{x}) \} ^2</math>

これを展開すると、

<math>\sum_{i=1}^n(x_i-\bar{x})=0,\sum_{i=1}^n(y_i-\bar{y})=0</math>

なので、

<math>f(a,b)=\sum_{i=1}^n(y_i-\bar{y})^2 + n(\bar{y}-a-b\bar{x})^2+b^2\sum_{i=1}^n(x_i-\bar{x})^2-2b\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})</math>

<math>=nS_y^2 +n(\bar{y}-a-b\bar{x})^2+nS_x^2-2nS_xy</math>

<math>=n \bigg( S_y^2 - \frac{S_{xy}^2}{S_x^2} \bigg) +n(\bar{y}-a-b\bar{x})^2 +nS_x^2 \bigg( b-\frac{S_{xy}}{s_x^2} \bigg) ^2</math>

これが最小となるのは、

<math>\bar{y}-a-b\bar{x}=0, b-\frac{S_{xy}}{s_x^2}=0</math>

のときで、つまり、

<math>a=\bar{y}-b\bar{x}</math>

<math>b=\frac{S_{xy}}{S_x^2}</math>

となる。

=3.確率==

定義などの基礎的なことはめんどくさいので割愛する。事象Aが起こる確率を<math>P(A)</math>などと表すこととする。全事象を<math>\omega</math>と表すこととする。

==(1)条件付確率==

事象Bが起きたうえでの事象Aが起きる確率を<math>P(A|B)</math>と表す。

===乗法公式===

<math>P(A|B)=\frac{P(A\cup B)}{P(B)}</math>

===全確率の公式===
<math>B1,B2,\dots,B_k</math>を互いに排反とする。