意思決定論
まとめ1
1 ヒストグラム、パレート図
ヒストグラム:データ分布を表すグラフで、階級を定め、階級に属するデータ数を棒グラフで表したもの。
パレート図:データの降べき順に並ぶヒストグラムに 累積度数の折れ線グラフを追加した複合グラフ
ABC分析:A、B、Cの3つのグループにわけて、項目の重要度を管理する方法。
2 クロス集計とピポットテーブル
ピポットテーブル: データベース形式、正規化は不要
クロス集計:質問項目をかけ合わせて集計する手法
クロス集計をエクセルで作るものをピポットテーブルという。
3 検定:比較の検定
①帰無仮説「条件固定できる仮説」、対立仮説「本来検証したい仮説」
②H0もとで、観測結果以上になる確率を計算←p値
③p値<αなら棄却,p値>=αなら棄却できない。
α=有意水準
BINOM.DIST(x,n,p,false):注目する結果が起こる確率がpである試行をn回繰り返したときに、注目する結果がx回起こる確率
BINOM.DIST(x,n,p,true):注目する結果が起こる確率がpである試行をn回繰り返したときに、注目する結果がx回以下起こる確率
5 2検定
独立性の検定:2つの要因は独立であるかどうかを検定する。
①帰無仮説H0「2つの要因は独立」対立仮説H1「2つの要因は独立でない」
②行・列の合計値から各セルの期待値を求める。
③X2=∑{(元データ-期待値)2/期待値}を求める。∑の対象はすべてのセル。
④X2が自由度(行の要素数-1)×(列の要素数-1)のX2分布に従うことを利用し検定
⑤X2棄却域に入ればH0は棄却され、H1が支持→「2つの要因は独立でない」と言える
X2棄却域に入らない場合H0は棄却できず
→「2つの要因は独立でないとは言い切れない」という結論になる。
CHISQ.DIST.RT(値x,自由度n):自由度nのX2分布において、値xからの右側の確率pを求める
X2分布:定義域が非負の実数
連続分布
パラメータは1つ、自由度n
size(20){期待値 = 行方向の合計 × 列方向の合計 ÷ 総合計}
6 等分散の検定
等分散の検定:2つの標本A,Bの分散σA2, σB2が等しいと言えるか検定
①帰無仮説H0「σA2=σB2」を立てる。
対立仮説H1「σA2≠σB2」「σA2>σB2」「σA2<σB2」
②検定統計量F=VA/ VBまたはVB/ VAを求める。
VA, VBは標本AとBの標本分散
③検定統計量F=VA/ VBが自由度(nA-1,nB-1)のF分布に従うことを利用し検定
④検定統計量Fより値が大きくなる確率P(P値)が有意水準より小さければ
帰無仮説H0は棄却され、対立仮説H1は支持される。
P値が有意水準より大きければ帰無仮説H0棄却できない。
F分布:定義域が非負の実数
連続分布
パラメータは2つ、自由度n1,n2.
分散分析:3つ以上の母集団の平均がすべて等しいといえるかどうか検定する。
分散分析では[データ全体の分散]を2種類の分散に分割して考える。
[データ全体の分散] = [要因による分散] + [誤差による分散]
7 分散分析
二元配置:2つの要因のそれぞれについて、各水準の平均が異なるかどうか検定する。
[データ全体の分散] = [要因1による分散] + [要因2による分散] + [誤差による分散]
交互作用:2つ以上の要因がある場合、ある要因の効果が別の要因の水準によって異なるという、要因同士の組み合わせの効果があることがある。
繰り返しのある二要因の分散分析では以下の二種類の分散に分割して考える。
[データ全体の分散] = [複数要因による分散] + [誤差による分散]
次に[複数要因による分散]を3種類に分割
[複数要因による分散] = [要因1による分散] + [要因2による分散] + [交互作用による分散]
全体としては
[データ全体の分散] = [要因1による分散] + [要因2による分散]
+ [交互作用による分散] + [誤差による分散]
8 散布図
二組のデータ系列に関係があるか調べるには散布図が便利
相関係数:二組のデータに関する直線的な相関関係の強さを示す数値のこと。
9 重回帰分析
単回帰分析:1つの説明変数Xによって、被説明変数Yを予測する分析
説明変数が複数の場合は重回帰分析といい、総称して回帰分析と呼ぶ。
重関係R:すべての変数による相関係数の絶対値
変数が3種類以上の時は「重相関」という
決定係数R2:決定係数は、相関係数の2乗
補正決定係数R2:決定係数は持つ問題点を補正したもの。
1に近いほど相関が強い
10 判別分析
判別分析:いくつかのグループに分けられたデータがあるとき、それらの特徴を表す変数から属するグループを判別する方法。
グループ数が2の場合は、重回帰分析を用いて判別分析をすることができる。
11 重回帰分析の応用
「20代/30代/40代/50代」を数値化する場合
「20代」「30代」「40代」という変数とつくり、各データがそれぞれに該当するときに1、そうでないときに0とする。50代以上の場合は、全てが0になる。
まとめ2
回帰分析
複数のデータ郡があるときに、それらに相関関係があるかを検定できる。
相関関係がある場合
データ郡が2つのとき
単回帰分析によって一方のデータ(説明変数[X])からもう一方のデータ(被説明変数[Y])を推測することができる。
データ郡が3つ以上のとき
重回帰分析によって、複数のデータ(説明変数[X1,X2,…])から特定のデータ(被説明変数[Y])を推測することができる。
被説明変数が数値ではない定性的データである場合は、判別分析を行う。2つの定性的データに分けるときは一方を1、もう一方を0にし定量的データとして判別する。
説明変数の1つのカテゴリ内に定性的データがある場合は、それぞれのデータごとに判別を行う。
相関関係がない場合
【独立性の検定】
複数のデータが独立しているかどうかをχ^2検定をする。この検定を行う際はデータの組み合わせによる期待値を求めなければならない。
【分散分析】
3つ以上のデータ群に関して、「データ全体の分散」が「要因による分散」と「誤差による分散」に分け、すべての母集団の分散比を調べることで平均が等しいかどうかを検定する。
さらに、「誤差による分散」にデータ群間の交互作用が存在するのかどうかも検定できる。
【母集団の平均の差を検定】
2つのデータ群がある場合は、その母集団の平均に差があるかどうかを検定する。
2データの標本の平均にt検定を行う。
【平均が等しい2つの母集団の検定】
平均が等しい2つの母集団があるとき、標本の結果が可能性としてあり得るかどうかを検定できる。
その他
【ピボットテーブル】
Excelでは、あるデータをデータベース形式にしたものをピボットテーブルといい、それを利用して作成されたグラフをピボットグラフという。
最終更新:2016年01月20日 19:52