AIとか機械学習とか、それらのコンテストとかのwiki

トップページ

2012-03-09T22:34:26+09:00

機械学習の勉強まとめ各種AI系のコンテストとか用の勉強初心者なのでいろいろと迷走してたり間違ってたり考えればわかる最低限くらいを纏めてるはず &link_edit(編集)

機械学習/k-mean

2012-03-09T21:43:15+09:00

概要はk-meansで画像をググるとよくわかる。 n次元の点をクラスタリングする。まずn個の点を適当にクラスタリング。１、n個の点を一番近い基準点にクラスタリングする。２、各基準点をクラスタリングされた点の重心に移動する。３、１に戻る。 [[ソース>>http://www18.atwiki.jp/machinelearning/pages/30.html]] 中心(0,0),(0,10),(10,0),(10,10)の半径5の円内に点を適当に置く。それをクラスタリング。 &link_edit(編集)

機械学習/ID3/ソース

2012-03-09T21:41:31+09:00

remain,set

rem_label){ Node node; node.label=type[data[remain[0]][3]]; if(sz(rem_label)==0) return node; bool ok=false; rep(i,sz(remain)-1){ if(data[remain[i]][3]==data[remain[i+1]][3]) continue; ok=true; break; } if(!ok) return node; pair best=MP(1e100,*rem_label.begin()); each(it,rem_label){ map > > mp; rep(i,sz(remain)){ mp[data[remain[i]][*it]].F++; mp[data[remain[i]][*it]].S[data[remain[i]][3]]++; } double sum=0; each(it0,mp){ double d=0; each(it1,it0->S.S){ double p=(double)it1->S/it0->S.F; d-=p*log(p); } sum+=d*((double)it0->S.F/sz(remain)); } best=min(best,MP(sum,*it)); } node.label=label[best.S]; rem_label.erase(best.S); map > mp; rep(i,sz(remain)) mp[data[remain[i]][best.S]].pb(remain[i]); each(it,mp) node.child.pb(MP(it->F,make(it->S,rem_label))); return node; } void print(Node node,int depth=0){ rep(i,depth) cout<<" "; cout<"< s; vector

vec; rep(i,3) s.insert(i); rep(i,7) vec.pb(i); node=make(vec,s); print(node); }

機械学習/k-mean/ソース

2012-03-09T21:41:13+09:00

//C++ #include #include #include #include #include #include #include #include #include #include #include #include #include #include #include #include using namespace std; #define li long long int #define rep(i,to) for(li i=0;i<((li)(to));++i) #define pb push_back #define sz(v) ((li)(v).size()) #define bit(n) (1ll<<(li)(n)) #define all(vec) (vec).begin(),(vec).end() #define each(i,c) for(__typeof((c).begin()) i=(c).begin();i!=(c).end();i++) #define MP make_pair #define F first #define S second #define MAX 40000 double X[4]={0,0,10,10}; double Y[4]={0,10,0,10}; li cluster[MAX]; pair center[4]; pair points[MAX]; int main(){ rep(i,MAX) points[i]=MP(rand()%7-3.0+X[i%4],rand()%7-3.0+Y[i%4]); rep(i,4) center[i]=MP(rand(),rand()); rep(i,MAX) cluster[i]=i%4; bool updated=true; while(updated){ updated=false; rep(i,4){ double sumX=0,sumY=0; li cnt=0; rep(j,MAX)if(cluster[j]==i){ sumX+=points[j].F; sumY+=points[j].S; cnt++; } if(cnt==0) continue; center[i]=MP(sumX/cnt,sumY/cnt); } rep(i,MAX){ pair best=MP(1e100,-1); rep(j,4){ double dx=points[i].F-center[j].F; double dy=points[i].S-center[j].S; best=min(best,MP(hypot(dx,dy),j)); } if(cluster[i]!=best.S) updated=true; cluster[i]=best.S; } } rep(i,4){ cout<

機械学習/ID3

2012-03-09T21:11:51+09:00

教師有り学習アルゴリズムパラメーターから属するカテゴリを判別する。与えられたデータから決定木を作成する原理としてはオッカムの剃刀に基づく。つまり少ない仮定で導かれる事実は優れている。なので情報量が多い分岐を上に持ってくればいい。つまり分岐後の平均情報量が少なくなるようにする。　逐次改善が行えない。パラメーターが連続的だと使えない。 C4.5を要勉強 [[ID3のソース>>http://www18.atwiki.jp/machinelearning/pages/28.html]] 入力は以下。種類を推定する足：目：口：種類２：２：１：虫じゃない６：２：１：虫２：０：１：虫じゃない６：０：１：虫４：２：１：虫じゃない２：８：４：虫９：９：９：宇宙人答えは足->目になるはず。 &link_edit(編集)

機械学習/重回帰分析/多重共線性

2012-03-08T19:03:37+09:00

多重共線性重回帰分析において関連性の高い要素が入るとバグる。例えば理科に対する、数学と国語の関係を考える。数学が上がると理科が上がるのは明らか。しかし、そのせいで国語が上がると理科が下がりかねない。この時は、数学か国語の一方を取り除けばいい。けど、数学と国語の和と、数学と国語の差に変形してもいい。ただ信頼性は落ちるのでサンプル数を増やす必要があるらしい。 &link_edit(編集)

機械学習/重回帰分析

2012-02-19T07:20:29+09:00

多次元の点が渡されるのでそれについての関係を考えるどれらがどんな感じで関係してるかを求める関係しそうな変数を自分で決める。線形回帰でそれらについての関数を求める。そしてどれとどれが関係が深いかとかを調べる。例えば 0.1*a+1*b+1000*c=z とかだったらcとzの関係が深そう。 (2.0001

統計/正規分布

2012-02-18T23:57:38+09:00

正規分布は測定誤差の分布 f(o):誤差がoになる確率以下の性質を満たす。 -∫f(o)do=1となる。 -f(Y-y[0])*f(Y-y[1])*f(Y-y[2])‥[y:測定値]:これがY=(yの算術平均)で極値 &link_edit(編集)

統計/標準偏差とか

2012-02-18T11:18:36+09:00

観測平均をX,観測値を各xとする。真の平均をY,観測平均を各yとする。 Nを観測数、nを計算に使う数。分散　　　:Σ(X-x)^2/n 不変分散　:Σ(X-x)^2/(n-1) 標準偏差　:sqrt(Σ(X-x)^2/(n-1)) 標準誤差　:sqrt( (N-n)/(N-1) )*(標準偏差/sqrt(n)) 分散　　　:離れてる度。絶対値だと不連続で不便なので２乗するらしい不変分散　:離れてる度。基準点が影響力がないので1を引いてる標準偏差　:離れてる度。分散を1次元に直す。標準誤差　:標本数Nからn個選んだ時の統計量のばらつき。基本的に2乗するのとかはノリらしい。そのうえで性質を発見して利用してるのかな? (Y-y)/(標準偏差/sqrt(n))は自由度(n-1)のt分布になる。なのでN=∞で(Y-y)/(標準誤差)が自由度(n-1)のt分布 ∫(Y-y)/(標準誤差)dy=0.95になるのが95%信頼区間かな？ t分布の値は表を見よう。 [[モンテカルロによる円周率の分布解析プログラム>>http://www18.atwiki.jp/machinelearning/pages/19.html]] &link_edit(編集)