Today's Access -
Yesterday's Access -
研究日誌の修士2年生編。
就活も終わって残りのモラトリアムに全力を尽くしながらの研究覚書。
2011/11/30(WED)
なんかここんとこ体調が優れないというか、絶えず眠い。
最近の土日をずっと外出したりで過ごしているせいだろうか。とにかく研究に対するモチベーションがあがらないのだ。
そろそろやらなければって焦るけど、体はついていかず。ってことを言うてる場合じゃないんやけどな。
とにかく体調を整えよう。
で、今日やったこと。
- 全プログラムのリファクタリング
- 特に、ニュース記事回帰について重点的に
- 各プログラムは、また動作を確認してもうちょいわかりやすくしたいもんですな
というわけで、ほとんどなんもしてないのと一緒やな。
次回につながるという意味ではなにかしたことにはなるのか。が、とりあえず次でEasyAdaptもMKLも実装を済ませたい。
で、明日やること。
- EasyAdaptの実装
- MKLの実装
- 学習データ、テストデータの作成メソッド
- 学習アルゴリズムの実装
では、明日がんばろう。ちょっと休む気でもいたけど、ま、明日の気分次第ってことで。
2011/11/22(TUE)
研究は続けていたが、日誌書いてなかった。久々に書いてみる。
この20日間ほどで大分研究は進んだような進んでないような。修論の落としどころには確実に進んではいると信じてる。
で、今日やったこと。
- 現行モデルでの再実験完了
- 全ニュースデータを用いた場合での予測モデルについて精度が上がっている(極少し)
- これを検証するための方策を検討
- t検定による
- 各銘柄で有意差を持っているか
- どれくらいよくなっているor悪くなっている
- 何が原因?
- よくなったor悪くなったものの共通点は?
まああんまり進んでないのは時間かけてないからでしょうがない。
とりあえずt検定はできるようになったようで、ちょっと動かしてみたところ、全ニュースデータにおいての結果に有意差は半分以上の銘柄で見られたようだ。
今度はそれについて検証していかなければ。その検証のための結果出力のプログラムも書かなければ。
で、明後日やること。
- t検定による評価を進める
- どのパターンのどの銘柄で有意差があったorなかったか
- tfidfのプログラムを進める
ちょっとずつ落としどころに進んでいる気がするのはなんか結果が出てきてるからなんだろうな。
でも、この時期に出てる結果はたぶんなんかするための布石にしかならんのだろうな。個人的にもこんなもんで終わりたくない気もするけど、どこまで踏み込むのが、公私のバランスを考えたときに、適切なのかってのがわからん。とりあえずプログラムをきっちり組んでいくことだな。あとちょい。がんばるべ。
2011/11/1(TUE)
今日から11月だー。と世間では大騒ぎですが、俺は個人的にもっと大騒ぎしたいくらいやばい状況になったみたい。
まあ想定内ですが。これからがだるそうだ。
で、今日やったこと。
- ニュースのみによる回帰
- 回帰のためのデータ整理プログラム完成
- ニュース回帰の部分は一応完成したが、まだバグが残ってるようなので、要調整
- 一度動かした所、散々とかいうレベルの話ではない
- 回帰などまったくできていない様子
- やはり、参考文献のように、数値とテキストの高い関連性が明白かつ、欠損値なしでないのが痛すぎるようで
まあやったことはこんだけ。
今日はみんなでお茶会しようだのなんだのと画策してそちらに労力がいったので、時間はあまりとってなかったがそれなりに進んだのではなかろうか。と思っておく。
それにしても、予備実験段階だが、非道い結果。
明日調整して、全部の結果がちゃんと出るようにしなければ。
で、明日やること。
- ニュース回帰をできるように
- バグやエラーで動かない部分を修正
- 結果がでれば、その検証
- 結果を踏まえて今後の方針を今までで行く理由づけ
実は一番大事なのは3番目。これをするために今の実験やってるのにこれで見通しが全く立たないとなれば…。
まあ俺の指導教員の先生は、これから研究変えようなんてバカなことは言わんと思うが、誰かの一声だけが怖い。
そのための理由づけが必要だ。
現行モデルでの実験やり直しが急務。
2011/10/31(MON)
今日は学祭の看板のデザインを決定した。Simple is best!っちゅーことで。
研究もそこそこに。先週の進捗報告会で課題は色々頂いたので、やるべきと思うものを順序よくやっていきたいと思う。
また、学会発表をするにはある程度の目処が立たないといけないが、その申し込み締切りが結構近い。
近日中に目処が立つかが、その境目だ。
まあ、出せんかったら出せんかったでいいんですがw
で、今日やったこと。
- 株価をニュース記事のみで回帰するプログラム
- 株価をQ形式に
- トレーニングデータの出力、仕分けのプログラム
- ニュース記事の再整形
- 実験手法を考えて実験設定
- PCAの成分分析
まあこれまで書いてたプログラムのおかげで、そんなに苦労せずに次のを書けてる。
だが、もうちょっとだけかかりそうな予感。
まあがんばるしかねえや。
で、明日やるとこ。
- 株価をニュース記事で回帰するプログラムの続き
- 10-foldクロスバリデーションをニュース記事でできるように
まあ要するに続き。やるだけや。
2011/10/20(THU)
今日で最初の本実験をすることができた。が、思った通り最悪な結果。
とりあえず、今日やったこと。
- 各種バグを取り除く
- 実験結果評価プログラムを作成
- 評価結果を一つのファイルにまとめる
- 分析対象候補を抽出
- 実験開始
- 全て最悪な結果
- 上下の精度は10%ほど
- 誤差においても、SVRのほうが低い場合のほうが多い
想定内といえば、そうだがまあ想定していた中で最も悪い結果の一つではなかろうか。
ニュース回帰項が予測精度を下げている場合が多く見受けられる。ニュース回帰の部分での過学習が起きているようだ。
ただ、SVRのほうはそこそこの汎用性を持っているらしく、それだけでもそこそこ株価時系列の軌跡を追うことはできている。だからこそ、ニュース回帰によって邪魔されている部分があるとわかる。
上記では、ニュース回帰の過学習としたが、実際にそうであるかは断定できない。あくまで推測。が、それにしてもトレーニングデータによるテスト部分はSVRの少し外れた部分を全てほぼ完璧なまでに修正しているところから見て、過学習を起こしているように思うのだ。
まだまだ詳細な分析は終わっていないし、そもそもどんな分析をすべきかも考えきっていないので、明日はその当たりから考えていきたいと思う。
というわけで、明日やること。
- 実験結果の分析
- 分析方法、方針から考える
- 分析結果をできるだけ、文章や数値として保存しておく
- 今後の戦略を考える
まあこうなるんだろう。
つーか結果悪すぎるから、ベースラインもクソもないな。
今日はなんか朝から疲労困憊やし、明日や明日~。
2011/10/19(WED)
結構久しぶりの日誌だ。が、研究はしていた。ほとんどがバグ除去とデータの作り直しだったので、書く気にもなってなかった。
で、今日はちょっとプログラム書いたから書いてみた。
ここんとこでは一番研究した日なのではなかろうか。
で、今日やったこと。
- 予測結果の評価プログラム作成
- 平均二乗誤差と平均絶対誤差のメソッドを改良
- 評価対象範囲を日付で指定できるように
- 評価出力を一つのファイルにまとめる
- 全銘柄の誤差の平均を出力するように
- 株価の上下についての評価メソッドを作成
- 予測値は四捨五入
- 上下についての精度、precision、recall、F値を算出
- トレーニングデータでテストした結果を評価したところ、ちゃんと出力できているよう
- 株式売買戦略について少し調べる
- 今回の実験で必要かちょっと怪しいと思い始める
- 売買タイミングをいつと定義するかが最重要
- それによって利益が大きく変わる
- が、予測値が終値である以上、売買タイミングは、大引け直前か
ちょっと考えることもしたりで、今日は研究っぽいことした。
ちょっと売買タイミングについてと、戦略は考え物だが、進捗報告までには決めたいところ。
で、明日やること。
- ニュースデータ生成完了を確認して、実験準備
- 売買戦略を考える
それにしても最近先生にずっと放置されている。
好き勝手できるのはいいけど、研究室で研究する意味がわからんという気が大きくなるばかり。
教科書の多くは図書館で手に入るし、論文はネットから入手。払った学費分のお金があるなら、そこそこのパソコンは買えるし、ソフトは基本フリーのもんばっかりでも事足りる。でもって先生には助言が期待できない。
研究室の唯一の利点は、同期や先輩後輩と議論できること。これはでかいが、なんか金返せという気が出てくる。50万分も学校から何かを享受した気がしないもんで。
と文句言っててもしょうがない。50万円×2年で修了証を買えるって思うことにする。前から思ってたけど。しっくりはこないよね。
ま、結局研究するしかないんですが。畜生。
2011/10/7(FRI)
ずっと研究日誌書いてなかったのか。研究してなかったから当たり前か…。
今日も言うほどやってないけど、まあまあやったような気もするから書いておく。
で、今日やったこと。
- リファクタリング
- 全ニュースを使った処理がメモリ14gでも実行不可であった
- 仕様を見直し処理を変更することで、メモリ1gでも実行可能に
- 具体的には、arffからcsvへの変換時に、すべてのデータ列を変換して保持していたためデータ量が膨大に膨れ上がった
- これをやめ、最後のcsvへの保存時に一時的に生成し、あとで保持しないように
- データの日付保持部分でのバグ発覚
- arffのコメント部に日付を持たしていたが、%で区切るとしていて他のものを区切っている場合があった
- 対処済み
- 修論の緒論を書く
- 前半部分がほとんど参考論文と同じなのだが、大丈夫だろうか…
バグとりは大変なのだが、それにしても今日もあんまりやってないねぃ。
来週こそは!と思うが、その前に英語をがんばらねば。
だがしかし、研究もやばいので早く進めよう。
で、来週やること。
- ニュース記事の処理を確認して、ニュース回帰を行う
- SVRのパラメータ設定
- 実験パターン作成
- 修論書き進める
- ベースライン決める
毎回同じこと書いてるよな。
これが本筋だからしょうがないか。着実に進めましょう。
2011/9/30(FRI)
今日は雑誌会で久々のコメンテーターやったり、誰かが妄言を言ったり、なんだかなーってな日だった。
研究はというと、スローペースで進めてて、久々の研究であんまり集中できてない。
ただ、着実に進めてはいるので、進捗はある。
で、今日やったこと。
- NewsDataManager
- 業種系と全体系のデータ処理メソッドを整備
- 動作確認はまだ
- NewsRegression
- 業種系と全体系のデータ処理メソッドを整備
- 動作確認はまだ
- TrainingDataManager
- 実験データパターンの整備を進める
- 欠損値処理部を業種、全体でのメソッドを整備
- 動作確認はまだ
全然動作させられてないじゃないか・・・orz
まあ動かすと重いからしょうがないといえばそうなんだが。帰りに回して帰る予定ではある。
また、今週はPCAを行い、トップを含む業種別と全体でのものが完了し、ちゃんと動くことも確認。それと同時並行で、修論の雛形の作成を開始。
こちらは、今まで書いていた研究案を元に書いただけなのでまだまだな部分が多い。当面の目標は、1章と2章ではあるが、できるところをどんどん進めていくほうがいいだろうな。
とりあえず、時間はないのだ。
で、来週やること。
- 各実験パターンの整備を進める
- 修論の雛形を進める
- SVRのパラメータ調整
やることは多い。時間はない。英語もせな。もっと遊びたい。模擬店の準備もある。
忙しいことだ。
最終更新:2011年11月30日 19:14