1. パン屋のインチキをあばく話に戻す - 基礎統計学講座 @ ウィキ

とりあえずレジメの[[PDFファイル>http://www39.atwiki.jp/stat_semi?cmd=upload&act=open&pageid=22&file=2-1.pdf]]をアップしておきます。内容は近日中に、それはもうすぐに追加します。

----
**米をパンに切り替えたら血圧が下がるのか？
白米に比べライ麦パンなどはカリウムを多く含むため、血圧上昇の予防になる。パンでなくとも玄米でも可。

**ヒストグラム
「横軸にパンの重さをとり、縦軸にパンの数をとって(p38)」描いた次にようなグラフをヒストグラムと呼ぶ。
#image(1.png)
図1.ヒストグラム

本文中では60、70、80…グラムのパンの重さを数えたと書いてあるが、実際にはパンの重さがそのような調度の値だけをとるということはありえない。本文中表10(p39)は正しくは次のような形となる。
|階級(g)|階級値(パンの重さ、g)|度数(個数、個)|
|55-65|60|1|
|65-75|70|15|
|75-85|80|23|
|85-95|90|27|
|95-105|100|20|
|105-115|110|12|
|115-125|120|2|
このように、ある代表値(階級値)を中心とするある範囲(階級)に含まれるデータの個数(度数)をまとめた表を度数分布表と呼ぶ。

図1に点線で示したのはパンの数を無限大、階級幅を無限小にしたときのヒストグラムで、この曲線により示される分布を正規分布、Gauss分布などと呼ぶ。

データの切捨ての余蘊亜人為操作が加わると、本文中表12(p40)のように切断された分布となる。これは切断正規分布と呼ばれる。

コントロールできない偶然の誤差は結果として正規分布を生じやすい。これを逆に利用し、正規性を調べることで偶然でない誤差を探すこともできる。

**資料と母集団
「パン屋が売っている全体のパン(p44)」のように、全ての対象の集まりを母集団と呼ぶ。そして、「A老人が買った100切れのパン｣のように母集団から抽出された集まりを資料、または標本と呼ぶ。

母集団の概念を使って仮設検定を説明すると、仮説検定と言うのは、「ある資料がある母集団から抽出されたものとみなすことができるかどうか」を調べているということができる。

**分布の代表値
平均値は分布がどこを中心としているかを述べるのに便利なパラメータであるが、同じ平均値でも分布が同じとは限らない。
#image(2.png)
図2．2つの正規分布

図2はいずれも平均値が0の正規分布であるが、明らかに形が違う。とがった分布は平均に近い値が出やすく、平らな分布は出にくい。バラつかない分布とばらついた分布と言い換えることもできる。「バラつき」を測る測度が必要である。そこで、次の式で定義される母分散$$\sigma^2$$を導入する*1。

$$\sigma^2 = \frac{1}{n}\sum^n_{i=1}(x_i-m)^2$$

$$n$$は母集団を構成するデータの数、$$x_i$$は個々のデータ、$$m$$は母平均値である。母分散は「母平均から個々のデータまでの距離の二乗」の平均値である。二乗ではイメージがしにくいので、それの平方根を取って標準偏差$$\sigma$$を定義する。

$$\sigma = \sqrt{\sigma^2}$$

正規分布の形は平均値$$m$$と標準偏差$$\sigma$$(または母分散)の2つの情報があれば完全に決定される。

**正規分布の基準化
正規分布曲線を計算によって求めるのは多少骨が折れる。そのため、正規分布するデータに適当な変換を施して、何か1つの基準となる正規分布に変換できれば便利である。そうすれば、我々はその基準となる正規分布について値を計算しさえすればよい。

まずは平均値を0にする。これには、個々のデータ全てから母平均を引けばいい。

$$X_i = x_i - m$$

こうして作られた$$X_i$$というデータの集まりは平均が0の分布となる。

次に、標準偏差を1にする。これは、それぞれの$$X_i$$を標準偏差$$\sigma$$で割ればいい。

$$u_i = \frac{X_i}{\sigma}$$

こうして作られた$$u_i$$というデータの集まりは標準偏差が1の分布となる。

この一連の作業を施せば、どんな分布でも(正規分布でありさえすれば)平均が0、標準偏差が1の正規分布となる。この正規分布を基準正規分布、もしくは標準正規分布と呼ぶ。そして、今と逆の操作を施せば標準正規分布からもとの分布を作ることが可能である。

標準正規分布には「基準正規分布について、その中心ゼロから、ある距離以上にある値が出現する確率(p59)」をまとめた数表が作成されており、多くの統計学の教科書に付録として載っている。よって、
+ある基準値を考える。
+その基準値を正規化する。
+正規分布表を調べる。
+「ある基準値」以下(もしくは以上)の値が出現する確率がわかる！
しかしながら、現在ではコンピュータを使ってあらゆる平均値、標準偏差の正規分布曲線を簡単な操作によって計算できる。そのため、正規分布表を引くことはおろか、基準化という作業すら不要な場合がほとんどである。

**$$m$$と

----
$$*1$$ ここで$$\sum$$という記号は、記号以降の数式中にある記号の下で指定された数字(ここでは$$i$$)を下で指定された数値(ここでは1)から記号の上で指定された数値(ここでは$$n$$)まで1ずつ増やして全てのパターンの数式を作り、その総和を計算するという操作を略記したものと約束する。例えば、$$\sum^n_{i=1}x_i=x_1 + x_2 + ... + x_n$$といった具合。$$x_1, x_2$$などの下付き数値は添え字と呼び、単に$$x_1$$と$$x_2$$が別物であることを区別する数値である(ただし値が同一の場合はありうる)。
復元してよろしいですか？
基礎統計学講座 @ ウィキ

1. パン屋のインチキをあばく話

メニュー

更新履歴