ゼミの記録です。ご指導いただいた内容、発表する内容などを書き込みます。
こちらの.bmpファイをご覧ください。
画像は荒いですが、このようにshapefileの各地区のデータの図を矢印でつないでおります。関数はセミナー資料の,2月4日セミナー資料「地図に矢印書き込み関数.txt 」の中にあります関数「fun」です。
今回の例では、地図は「shape.poly(埼玉県川口市北部)」、折れ線グラフのデータは「bgwr.v[1:40,num](BGWRモデルの分散不均一パラメータ)」です。
どんなデータのどんなグラフでも矢印でつなぐ関数はこちら。
「par()のこと」 の内容も踏まえて、 参考文献:「Sによるデータ解析」(p.54-p.55) 渋谷 政昭 (著), 柴田 里程 (著);共立出版
の関数を参考に、「uin」の部分を修正しただけですが・・・。
自分の作った関数との答えあわせのため、Rのパッケージ「spgwr」の中の関数「gwr」の中身を紹介。
自分の作った描画機能の紹介。修正の指示を頂きました。
プログラムの修正により、MCMCステップの計算時間が「30sec/step」だったのが、「1sec/step」になりました◎
プログラムの修正ポイントはfor(i in 1:239)の中では「計算」を無くすこと。239通りの計算要素はすべてforの外で計算して行列に置いておく。
計算要素のコマンドでの作り方は去年の7月ごろT2先生に一度ヒントをもらっていたので、それを参考に作りました。
あとは論文紹介。Jeremy Mennis先生による「Mapping the Results of Geographically Weighted Regression」。
GWRモデルの推定パラメータの色分けについて。私の色分けの仕方は悪い例でした。
修士論文の構成、打ち切りガウス関数を重みに用いたGWRモデルの解析結果の発表。 修士論文には、結果の良かった打ち切りGWRモデルを載せることに。 紀要のチェックをして頂いた。引き続き論文作成。
BGWRモデルの推定をしましたが、GWRモデルとほぼ変わらない結果となりました。
決定係数、残差二乗和、パラメータのp値、残差のMoran'I統計量、すべてGWRモデルとほぼ変わらない値。
今回、外れ値とみなした空き巣発生率は約35件(平均約4件)であるが、この外れ値の地区に対して大きなdown-weightをかけているわけではないことが分かっている。 てこ比とBGWRモデルの関係を解析して、来週発表しようかなと思っています。
あと、BGWRの計算コストが非常に高い!(のかな?) 1100(MCMCの回数)*239(地区の数)=269000回ループを回すのに4時間かかっている。
よりよいプログラムを考えないといけないかな(先生にかなり助けて頂いているが)。
紀要のチェックをしていただいた。たくさん修正があり、先生に申し訳なかった。修士論文ではこんなに修正されないよう頑張らなくては。
とりあえず、紀要が終わればTEXで困ったことのページが増えそうです。
偏相関係数を、GWRのパラメータが正になった地区負になった地区で層別して調べてみると明らかな差があった。
戸建の影響を取り除くと相関係数の値が変化しているのはパラメータが正の地区(資料1枚目:-0.03⇒-0.14)、あまり変化がないのが負の地区(資料2枚目:-0.41⇒-0.39)。
(セミナー資料)
先生にご指摘いただいたのは各地区のパラメータの有意水準を見ること。ただ、それでもパラメータが正であると示唆される地区はあるので、その地区は何か戸建以外の他の要因があるかもしれない。3日後のゼミまでにできる限り調査、まとめをすること!
紀要の赤入れ。要修正。
GWRモデルで老人化率の係数が正になった地区、どうやら一戸建ての影響が強かったみたいだ。先生にご指導いただいた。
実際、一戸建ての影響を取り除いた空き巣と老人化率の偏相関係数は負、または0になっていた。
なお、偏相関係数はRのパッケージ「Rcmdr」が必要であった。tryoさんより、Rコマンダーの相関行列計算のところに偏相関係数の計算を選択できる機能が付いていることも初めて知った。
来週は総まとめを論文にして提出予定。
埼玉県川口市のデータ解析のまとめ。今回発表したのは大雑把にまとめたもの。
結論。
x(説明変数)とy(被説明変数)の関係は地域によって違うかもしれない。このxとyの関係の空間的な変動をGWRモデルは捕らえてより正確な推定値を与えてくれる。
残差二乗和は大きく減っております。
さて、今回は平成18年度川口市のデータでしたが、千葉県市川市のデータは過去三ヵ年そろっておりGWRのパラメータの三ヵ年の変移などを見ていくと面白いと思い研究中であります。次回ゼミで発表することを目標に。
同級生の発表練習。地価公示の推定には非常に興味があるので、犯罪データと平行して地理的加重回帰法で推定してみようかな・・・(論文には書かないけど)。
先週発表の「CookのD」などでGWRモデル推定における影響力の大きさ等を見てきたが、修士論文で用いる予定である岡山市空き巣データは、交番管轄ごとのデータでありそれぞれの属性の面積が大きい。つまり空間的な従属性は小さくなる。
理想としては少なくとも町丁字別のデータを用いて解析したい(今年の金曜セミナーでもご指摘頂いた)。
そこで、今回偶然ネットで見つけた埼玉県川口市犯罪データ。さっそくcsvファイルに保存し、shapefileをダウンロードし、私の作った関数を用いて解析。
単回帰では残差にかなりの空間的な集積性があったが、GWRモデルの推定により残差が有意水準1パーセントで(空間的に)独立なモデルを構築できた。
なお、BGWRも推定したがGWRから目立った良化は見受けられなかった。
パラメータの空間分布をみると、川口市中心部と北東部でパラメータの符号が逆になっており興味深い結果を得た。
今回、何より収穫だったのは市役所の「防犯対策課」、あるいはそれに準ずる組織が犯罪データをHP上で公開している事実を知ったことである。
もしも、岡山市の町丁字別データが手に入ればすぐにでも解析してみよう。
そして、今までの交番管轄ごとのデータとの比較を行ってみたい。
前回発表した「ベイズ・アプローチ」は外れ値の影響を和らげるもの(down-weightによって)。では、 各地区の値を推定する際に、強い影響を与えている地区はどこなのか?それを「てこ比」「CookのD」 を用いて分析した。
二つとも金曜セミナーで発表した内容であるが、「感度分析」(田中豊先生が世界的な権威)については 私の勉強不足。今回発表した内容では「てこ比」「CookのD」のどちらの結果をみて結論を言えば良いのか わからないまま発表した。
ただ、BGWRで結果の出た「columbus市」と、結果の出なかった「岡山市」の原因は「てこ比」「CookのD」 を分析することで見えてきた。
この内容が修士論文に載せれる内容かどうかは別として、興味深い内容である。
てこ比などを通して、「ベイズ・アプローチ」の作用をローカルに見る。これが次回ゼミまでの目標。
このpptはかなり内容が拙いものです。内容がまとまり次第pdfにまとめてアップいたします。
岡山市、倉敷市の「空き巣発生率 vs. 低層共同住宅割合」の偏相関係数(老人化率の影響を除いた)の結果 と自分の考察の発表。
BGWRのコマンドが完成した。MCMCをしてくれるコマンドです。計算コストはまだ高いと思う。 このコマンドについても発表します。
結果、やはり岡山市空き巣データ(平成16年度)にベイズ・アプローチ(BGWR)を試みてもGWRとほとんど差異は なかった。
一方、コロンバス市犯罪データにBGWRを試みることによって残差のMoran'Iは0に近く なり、つまり誤差がより独立な空間回帰モデルを構築することが出来た。
私の作ったBGWRのコマンドでは、要修正の箇所があった。修正箇所、修正方法の詳細はメモ(R)に 記す。
「研究まとめ:岡山市、倉敷市空き巣データの空間回帰モデリング」の発表。BGWRがあまり良くない理由も分かってきた。
論文「ベイズ地理的加重回帰モデルの地価推定モデルへの適用」(著:古谷知之.2004)の紹介。この論文だとGWRおよびBGWRを691地点の地価公示データに適用させている。自分の使っているデータの10倍。地区ごとの、回帰係数の空間分布 の解釈の仕方は非常に参考になった。
でも、自分の使っている62個のデータでも解析できるようにやってみなければ。
今まで研究してきた犯罪を用いたデータをまとめているので、その報告。あと、空間自己回帰モデル(SARモデル)の尤度関数でわからないところがあったので先生に質問。確率変数が何なのかという意識が欠けていた。これからは気をつけなくては。
今後は岡山市、倉敷市の空き巣データで3つのモデル(OLS、SAR、GWR)を構築して、まとめる。できれば、GWRのベイズアプローチも。
ゼミのあと気づきましたが、SARの最尤推定のRのコマンドを間違っていたので修正。GWR>SAR>OLSな感じになりそう。
今はいい成果が出ていないけど、研究経過を発表予定。
あと、時間があれば[人口数=beta0+beta1*世帯数]のモデルをGWRを行うとどうなるかの発表。なぜ人口数、世帯数なのか。
1.町丁字データとして存在
2.(当然だが)強い正の相関がある
3.推定パラメータbeta1の解釈と、空間分布の予測がしやすい。
今回は人口数と世帯数の相関が比較的強い地区(赤い地区)が郊外に、相関が比較的弱い地区(黄色い地区)が市中心部に来るのではないか。
この結果になりました。ちなみに決定係数はどの地区も95%以上、中には99%の地区も。
GWRモデルのおもしろいとこって、やっぱり説明変数と被説明変数の関係自体が空間的に変動しているところを図示して考察するところにあるのではないか。
もちろんGWRモデルの推定結果が悪いと、考察のとき「この分布を考察してもいいん?」って疑いたくなるけど。
二次の連結性を示す重みが完成した。この重みを使うことによって前回結果の悪かった岡山市中心部が良化することを期待したが・・・、そう簡単に良くはなってくれまへん。 決定係数の比較(第20回セミナーのjpegファイルを参照)
BGWRモデルの事前確率分布の解釈は間違っていなかった。 あとは、ハイパーパラメータを変えつつ論文の結果に近づけるように研究を続ける。
それができたら、BGWRを岡山のデータに当てはめて解析。
平行して過去三ヵ年&倉敷市(or 静岡市)。地域分析が出来ることを示せる論文を目指す。 (「決定係数を良くする」、「外れ値に頑健なBGWRをする」)
前回セミナーの2について考えたところ、当該地区に接している地区(一次の連結性)のみを推定に用いる方法を提案した。
しかし、岡山市中心部では推定結果が悪く、その対策として推定する地区によって高次の連結性の地区を推定に用いる手法を研究してみる。
そこで、先生からご指導いただいた方法として、一次の連結性の地区までの距離と二次の連結性の地区までの距離の差を考慮したモデルにしてみることにした。
なんとか9月20日には計算できるようにRのコマンドを書き上げたい!!!
1.shapefile切り出しの方法の発表 改善の余地がある。 より良いシステムに。
2.GWRで裾切りガウスカーネル関数を用いたときに、決定係数が悪化する地区があったのでそれに対する自分の解釈、解釈に至ったデータの紹介と説明。 やはり、推定に用いる地区の選び方が悪い。今週の研究のひとつはこの対策。
3.参考文献、ホームページの発表。慶応大学の古谷研究室のホームページには参考文献、ホームページが掲載されておりそれも参考に。
4.SDAMの紹介 空間データ分析マシン(SDAM)の紹介。フリーソフトウェア。かなり気に入っているソフト。
GWRなど実装しており、計算をRSTATサーバーを通してRで行い、その結果をGIS機能により図示してくれる。
使用者は、解析したいデータが属性値として入っているshapefileを各自で用意する必要がある。
来週のセミナーではこのマシンの実行例も発表したい。
カーネル密度関数による重みの「裾切り」をした結果と、決定係数の変化の発表。
どこまで近くの地区の値を推定に用いるかは、「裾切り」範囲ごとのCVスコアを比較して求めた。
また、GWRの解析結果も自分なりに解釈はできた。
やはり、地域の性格が犯罪の誘発度に大きく関わってくるようだ。
今後の研究課題として、地域の性格をいろんな角度から分析していく。
また、「裾切り」により決定係数が悪化した地区もあるので、その原因究明、対策をする。
次回、ゼミで発表予定。
関数「GWR」で解析を行ったところ・・・、地区ごとの決定係数がひどい値に↓
先生から、属性値が0になってる地区(あるいは周辺の地区)の推定をするときの影響を調べるようにご指導いただいた。
その結果、現在のカーネル関数のバンド幅だと、一番遠い地区でも結構強い重み付けをしているので、もっとバンド幅を狭めた方がいいと感じた。
来週は、自分なりに考えたバンド幅の狭め方と、解析結果の発表をしたい!
あと、今回はプレゼンがひどかった。こんなプレゼンしてたらだめだ。 来週はしっかりした発表をしないと。
岡山市過去3ヵ年の、GWR解析結果の比較。また、自分で作った関数「GWR」のデモ。 過去3ヵ年の解析のために必要であった「岡山市町丁字年齢別データ」の編集用プログラムの発表。
関数「GWR」で欲しい機能はある程度備わった。しかし、解析結果の表示の流れが不自然。既存の関数「gwr」(パッケージspgwr)の流れを参考に修正。
以前よりの課題であった、岡山市郊外を含んで解析か含まず解析か・・・という問題。「郊外」の定義は曖昧なので岡山市が現在の姿になるまでの合併の経緯を参考に、地域を絞ってGWRの解析を行う。⇒ 解釈が行いやすいのではないか。
「岡山市町丁字年齢別データ」の編集プログラムは後輩に受け渡すことができるように、使いやすくわかりやすく。
平成17年度のデータは手に入れており、過去4ヵ年のデータで、より小地域でGWR解析を行う! データさえ用意できれば、解析をすぐに行える環境は整った(つもり)♪
今夏の目標:岡山市の空き巣抑止力、誘発度のパラメータ空間分布の結果を元に、街の発達、性格の経緯を見出す。
ある程度自分の欲しい機能(パラメータの空間分布可視化、t統計量など)を備えたRの関数「GWR」、最適バンド幅を見つける関数「GWRCV」、倉敷市の解析結果の発表。
「GWRCV 」は、まだまだ無駄が多いところをご指摘、修正していただいた。
倉敷市の結果から、空き巣には「住宅の種類」が関わっていることが、感覚的に示唆された。
発表資料のTEXファイル、図が見にくい。修正を。
倉敷市交番管轄ごとのshapefileを作ったが、高梁川が交番管轄に入っているなど、要修正。
自分で作った「R」の関数の発表。関数の内容は、空間回帰モデルの一つである地理的加重回帰法の回帰パラメータを計算する関数。
次回は、描画機能も備えた関数の発表と空き巣「発生率」を用いた解析結果のまとめを報告の予定。
さらに、倉敷市のデータについても岡山市と同様の解析を行い、岡山市との地域比較が出来れば(まだ研究中)。
倉敷市は大好きな街なのでやる気まんまん☆
空き巣の誘発度、抑制力の空間分布パターンに面白い結果が出てくるかな?