修士編(4月~)

Today's Access -
Yesterday's Access -

研究日誌の修士2年生編。
就活をしながらする手抜きな研究の覚書。

2011/9/9(FRI)

今日は雑誌会もあり、短時間で集中しなければならなくて、結構やれた。
やっぱりある程度の時間を置くと頭が整理されて、今日はすっきりデータを整理することができたようだ。
置きすぎると忘れるけどw

で、今日やったこと。

  • NewsRegressionの改修
    • 現在のディレクトリ構成を反映したプログラムに
    • 使うデータのパターンで、使うデータを処理することができるように
    • Aを計算したあと、適切なディレクトリへコピーするように
  • TrainingDataManagerのリファクタリング
    • 変更したディレクトリ構成に対応
    • pattern1_1_1について動作を確認
  • TestWithHalf
    • 整理したデータで実験をしてみる
    • ちゃんと出力されていた

とりあえず、実験ができるようになりました。よかったよかった。
今後は各実験パターンに対応させていくことが必要になる。それとSVRのパラメータについても決定していかなければ。

で、次回やること。

  • 各実験パターンに合わせた各クラスにおけるメソッドの作成
  • SVRのパラメータ決定

というわけで、今日で一旦休憩。
8月はこのために頑張ってきたといっても過言ではない。さて、死なないように気をつけます。


2011/9/7(WED)

今日はなんか久々の研究。
先週から体調を崩し、旅行先ではゲロったりで、結局研究が予定より進んでいない。先生の言う進捗よりは今は進んでいるが、今後消化されればすこしまずいかもしれんな。

で、今日やったこと。

  • ディレクトリ構成の見直し
    • デバッグも含めて、諸々修正
    • 現在動作確認中->うまくいけばそのままデータを利用する
  • SVRの改変
    • パラメータ決定時の確認していたスコアが、トレーニングデータで訓練して、トレーニングデータでテストしていたものなので意味なし
    • 10-foldCVを行い、スコアを算出するように改変
    • まだパラメータ調整はしていない

やっぱり書いてみると、ほとんどなんも進んでないように見える。実際は色々確認作業が大変で、なかなか進まないのにも理由はあるけど、関係ないよな。ふぅ。
とにかくできるだけ進めるしかない。

で、明日やること。

  • データをD集めてみる
    • GatherDatasなどの今後のデータ処理を実行していく
    • PCAが終わり次第
  • SVRのパラメータ調整

とにかく、旅行行くギリギリまで進めよう。旅行の準備はできるだけ早く済ませるようにしなければ。
そして、研究もできるだけ早く進めなければ。


2011/8/31(WED)

今日で8月も終わりで、プログラムも終わらせたい。
でも、まだまだやることがあって、終わっても追加されるだろうから適当に進めてる。着実に。

で、今日やったこと。

  • NewsDataManagerの修正
    • 回帰データ作成部分を更に整理
    • 新しいディレクトリ構造に合わせた出力に
      • 動作確認実行中
  • NewsRegressionの修正
    • 入出力ディレクトリを変更
  • TrainingDataの修正
    • 入出力ディレクトリを変更
    • 実験設定に合わせた出力をできるように

基本的に入出力ディレクトリの構造をちゃんと作っていくというかなり面白くない作業中。
というわけで、書いてみると上記のようになって、細かく書こうとすると、めんどいから書かない。
今前半部分を動かしてみてるので、今日やったことはまた今度確認することになるとして、ゼミ旅行に行く前に動かせるところまで作りたい。
旅行中に動いて、結果出してくれてるとうれしいのだが。

で、明日やること。

  • 動作確認の経過観察
  • 実験設定に合わせたメソッドの調整
  • SVRのパラメータ調整

明日は動作確認で時間かかりそうなら、SVRのパラメータをひたすら調整してもいいかも。
まあ明日学校行くか怪しいけど…。体調的に。


2011/8/29(MON)

今日は混乱してしまった。
実験パターンに合わせてディレクトリ構成を再構築していたらプログラムがわけわからんことに…。
まあ一応整理はついたようなのだが。

で、今日やったこと。

  • 提案モデルの実験環境を一応完成
  • ニュース記事のマネジメントプログラムを修正
    • 主にディレクトリ構成を変更
      • 実験設定5パターンのためのデータ生成
      • configの設定変更とそれに伴う、プログラム内の変数変更、修正

書いてしまえば、こんなもの。内容的にはそこそこの手術になってて、ややこしいことこの上ない。
とりあえず、現在動作試験中で、これが終わり次第、実験パターン用のデータ生成メソッドに取りかかれるか。

で、明日やること。

  • 動作確認の経過観察
  • 動作確認出来次第、実験設定用の5パターンのメソッド作成
  • SVRのパラメータ設定

まあ、明日は旅行の準備をする予定なので、そんなに進まないと思うが。
一応、8月中にモデルまで一通りできたので、目標は達成していると思うが、やることはまだまだ山積みなわけで。
とりあえず、今週も頑張って進めなければ。


2011/8/26(FRI)

今日はちょっと集中することができていたらしい。時間を忘れている部分があったので。
まあ順調と言えば順調なのでよし。

で、今日やったこと。

  • 株価データを扱う部分を半分完成
    • 分割データに対する回帰で、Qデータを作るまでを完成
    • SVRは各種パラメータ(C,N,L,gamma)を調整できるように改変
    • パラメータは、対話式で標準入力により設定できるように
    • SVRの評価メソッド(平均絶対誤差)を追加
    • 過去に遡った長期間の株価データを扱えるようにコードを再構築
      • ニュース記事が存在する日付と同じだけある株価データを元にして処理を行う
      • 分割時にはテストデータがニュースと同じ日付のあるデータと同じものになるように
  • 実験用にデータマネジメントプログラムを作成開始
    • 研究ノート上で実験設定を確認
      • 総数42
    • それぞれの実験設定にあったデータ選定を行い、まとめるプログラム


今日は細かいことを色々していたので、全部は書ききれてないけど、おおまかにやったことはこんなもん。
来週一応予備実験ができるかくらいまでは持っていかなければ。ちょっと想定よりも進捗が遅い。サボリ癖が付いてしまったのが問題かもしれんな。ちくしょう。

で、来週やること。

  • ニュース記事の処理を確認
  • 実験できるようにすることを第一に
    • モデルの微調整
    • 実験データマネジメント

旅行まで時間もないし、その準備も考えなあかんな。
そのためにも計画どおりきっちり進めていきましょう。


2011/8/24(WED)

今日はやろうと思ってたプログラムはそこそこできた。
が、ちょっとややこしくなって混乱している。ちょっと考えとプログラムを整理して、やるべきことを見分けなければ。

で、今日やったこと。

  • Yのデータの欠損値処理プログラムを作成
    • 欠損値の処理をしたデータを保存するまで
  • ニュースデータによる回帰を試験するプログラムを作成
    • まだ、指定したデータについて標準出力しているだけなので、今後二乗誤差とか出せるようにしてもいいかも
  • 各種リファクタリング
    • StockPriceRegression
      • SVRを改変し、学習時のパラメータを様々設定できるように
      • 予備実験部分と、データ作成部分を明確に分離(SVRとSVRForREに)
    • データを作り直す過程で、コメントなどをそれぞれのコードに追加
    • 必要ないコードやデータを削除

こうやって見ると、全然進んでない…。ちょっと考えを整理しなければ。
ただ、今日一番の収穫として、SVRのデータ入力時のデータの扱いをオプションで指定できると分かったこと。
そもそも、回帰してみたものの精度が悪すぎで、gammaをいくら調整しても全く漸近しなかった。これを是正するためにパラメータを設定できるようにするなどリファクタリングした。

今後するべきは、
  • 訓練とテストに分割したデータを使ってテストできる環境を整える
ってことであるはずで、その後に実際の運用時を想定した学習形態を取らせればいい。
が、頭がそっちに行ってしまったりで、混乱してる。

今日はやめにして、明日整理することにする。

で、明日やること。

  • 訓練とテストに分割したデータを使う環境を整える
    • StockPriveRegressionのSVRを移植する、など

上記につきる。最悪でもこれを今月中に終わらせなければ。


2011/8/23(TUE)

今日はがんばれなかった。
朝から行かないとやはりダメらしい。薄々気づいてはいたが。

でもとりあえず、進めることは進めた。ちょっと結果も出たし。

で、今日やったこと。

  • モデル構築
    • 一時的なものを完成
      • 入力データ固定
      • トレーニングデータそのもので予備実験ができるように
      • ほぼその通りに出力できていた
        • どこまで汎用性があるかが問題だ…
  • 足りないプログラムを把握
    • ニュースデータの訓練とテストの分割
    • Yの時点での欠損値処理をしたファイル処理
    • ニュースデータのみでの誤差時系列の回帰結果出力

まあ課題が見つかったのはいいこと。
それに、トレーニングデータでとはいえ、実験できたのは大きい。しかも思ってたより再現性が高くてビックリ…。
ただ、やはり突飛な変化には付いていけてない様子。そういえば、ガンマとか全然調整してなかったのにな。実験時にはそれもきっちりしてデータ生成しないと。

で、明日やること。

  • モデルの完成
    • 結果出力メソッド
    • エラー処理
  • 評価出力
  • 上記の足りないプログラムを完成

実験に関してはどれだけ汎用性が出せてるかがポイントなので、評価の部分もがんばらねば。
とりあえず、的外れしまくりな結果ではなくてほっとした。


2011/8/22(MON)

今日は朝からやってた。
やっぱり朝からやると、大分気分が乗って進みやすい。

で、今日やったこと。

  • ニュース記事回帰項の係数計算が完成
    • QとYのデータを照らし合わせた上で、octaveへ入力できる形に変換
      • ニュース記事がない日の欠損値処理メソッド作成
        • ゼロ詰め
        • 前日のを引用
        • 全体の平均
      • 回帰に使用するニュース記事は、予測したい日の前日のデータとするように
    • 外部プロセス呼び出しでoctaveを実行できるように
      • コマンドライン引数を使って、
        • 読み込むファイルの指定
        • 正則化パラメータの指定
  • ここまでの全体のプログラムの流れをまとめてみる
    • ちょっと見落としてる部分が発覚
      • 株価回帰時のモデルが未保存
      • 欠損値処理をもう一パターン
        • 前後の日の平均

やっぱり結構やったな。今週はこんな感じでがんばろう。

で、明日やること。

  • 見落としてた部分を先に作る
    • 株価回帰時のモデル保存
    • 欠損値処理をもう一パターン
  • モデル完成

大きなバグもなく進んでいるのはよいことだ。大分こういうのを組むのも慣れてきたようだが、未だに何がどういうのんかをメモしておかないと忘れる。
当たり前だが。メモしてるのも成果出てるってことかな。
明日もがんばろう。


2011/8/19(FRI)

最近ちょっと乗ってきてるな。
今日も寄り道はしてたけど、ちょっとがんばった。前よりは大分集中できるようになった。
旅行いくまではこれで進捗を稼がなくては。

で、今日やったこと。

  • ニュース記事処理について
    • featuresとforRegressionを合わせて主成分スコアを計算するクラスを完成
  • 株価回帰処理について
    • svrで回帰して、回帰結果と実際の株価を並べて出力するクラスを調整
    • RBFカーネルのガンマを標準入力によって納得いくまで入力やり直しできるように
  • ニュース記事回帰項の学習について
    • Aを計算するmファイルを完成
    • octaveを導入し、行列計算をローカルで行えるように
      • javaのコード内でも使えるように

こうやって書くとやっぱりやったこと少なく見えるな。ちくしょう。
考える時間が多いのが困るところか。もっとすっとコードが思い浮かばんもんか。

で、来週やること。

  • 株価回帰処理について
    • 全銘柄の株価の回帰結果と実際の株価を並べたデータをすべて出力できるように(Qを得る)
  • Aの計算を行う
  • モデルの完成

と、来週中も予備実験ができるように完成させることを目標に。
ちょっと来週一週間は研究優先でいきましょう。英語は自習でよく聞くようにすることにしてちょっとお休み。

では、来週は今週よりももうちょいがんばりましょう。


2011/8/18(THU)

今日はそれなりにやった。
だが、今日は書いてる時間がないので手短に。

今日やったこと。

  • 提案モデルの実装
    • モデルの株価回帰の項とニュース記事回帰の項で区別し、実装
    • 学習は別でやるように
      • 株価回帰は以前予備実験で使ったもの
      • ニュース記事回帰は、matlabを使って
  • トレーニングデータ作成部のリファクタリング、整理
    • コメントを書いていなかった部分を追加
    • 今後のトレーニングデータ作成について方針決定
      • まずは、データを二分割しての実験をする
        • 追々、順次更新->予測という実験形態にできるように
    • matlabで学習するためのデータ作成の方針を確認

今日は大体こんなもん。
明日またもう少しがんばる。

で、明日やること。

  • モデル実装の続き
  • matlabを使ってのニュース記事回帰の部分を作成
    • matlabのコード
    • 入力ファイル作成部

ちょっと気合入れましょう。うぃ。


2011/8/12(FRI)

やはりやる気がなかった俺。全然進んでない。こらマジであかんな。
最近遊びすぎやな、って危機感持ち始めたころに盆休みってタイミング悪いよな…。
盆開けたらちゃんとやる。

で、今日やったこと。

  • StockPriceRegressionにおいて
    • 株価回帰のために、NewsXmlからの変換を書かなければと思っていたら実は既に作っていたことが発覚
      • StockDataManager -> 実際にちゃんと使えるようにしていた事を確認
    • 回帰データ作成の実行部を修正
      • ただし、SVRのパラメータ設定部分をもう少しなんとかできるといいかも
    • 回帰結果のデータに日付を付与するように
  • StockDataManagerにおいて
    • 作ったデータをtrainとtestに任意の割合で分けるメソッドを作成

これは思った以上に進んでいない…。やべぇ…。

だがしかし、ちょっと問題に直面。
今後の研究に結構大きく関わってくるところになると思うのだが、訓練データとテストデータをどう扱うかを悩んでいる。

これまでの分類問題などであれば、データを単純にいくつかに分けるだけでよかったのだが、今回は時系列回帰であることから順番が大事になる。
ということは、どこまでを訓練データとし、どこからをテストデータにすればよいのか?
単純に分けるとすれば、ある一点で分割し、前半分でモデルを訓練し、後半でテストをする。これが一番シンプルでわかりやすい。
贅沢を言えば、ある一定まででモデルを訓練した後、一つ予測->結果を得る->その日の分も含めてモデルを再訓練->次の日を予測…ってのも考えられる。

悩むくらいなら両方やればいいんですけどね…。今はモチベーションがなかった。たぶんそんなに難しくないんだろう。たぶん。

で、次回やること。

  • 実験設定を決めて、データの作成メソッドを完成に近づける
    • 両方組んでもよし
  • ベースラインの決定

ベースライン決めるのも結構だるい。
とりあえず、盆休みはぐうたらしよう。ここんとこ出ずっぱりなので。体を休めるのも大事だよ…。


2011/8/11(THU)

今日は朝から行ったのにあんまり進んでないと思う。
昼間の集中力のなさはマジで反省すべき。研究室にいる間はきっちりやれよオレ。

で、今日やったこと。

  • ニュース記事に関するトレーニングデータ作成部分
    • 主成分スコア算出まで完成
      • 銘柄ごとの単語出現数データ読み込み、負荷因子量の読み込み、など
      • configによる制御の整理
  • 株価回帰部分の作成
    • トレーニングデータに必要な回帰データ作成部を作ってなかった…
    • 数年分のデータによる訓練データ作成部はそのまま使える
    • ニュース記事と同じ日付のデータを使ってのデータ作成部を現在制作中
      • 他のソースを流用すればそんなに難しくなさそう

やっぱりやったこと少ないな。
ちょっとプログラムを考えてた部分もあるけど、それよりも遊んでたことのほうが多い気がするんだよなぁ…。
明日は盆休み前最終日なので、ちょっとがんばろうかな。

で、明日やること。

  • 回帰データ作成部を完成
  • トレーニングデータ作成部を進める
  • ベースライン決める

本当はもっと進めばいい。プログラムやってるときに他のことあんまりしたくないからベースラインはまた今度になりそうな。
先生には急かされるやろうけど…。


2011/8/9(TUE)

登校をがんばった今日。
当然ながら、ではないがちょっと進んでいない。やってるうちに確認したり、書かなあかんコードがあったりで考えるほうに時間とられた。

で、今日やったこと。

  • matlabの出力結果の確認
    • 研究室の天才の力を借り、PCAの出力結果の行列は「行」のほうがひとつひとつの固有ベクトルであることを確認
  • トレーニングデータ作成部分について考察
    • ニュース記事に関するトレーニングデータを作るには
      • 入力は、PCAにより得た単語の負荷因子量、各日付各銘柄の単語の出現頻度、各日付の予測誤差(または各日付の株価と各日付の予測株価)
      • ニュース記事が存在しない日は特徴量どうする?
        • ニュースがない -> 単語はどれも出現してない -> 全部0に
    • テストデータとトレーニングデータに分けないと
    • 日付で入力するには?
      • データにちゃんと日付を入れておかないと
  • ニュース記事データを修正
    • 記事毎の表示であったものを、日付毎に
      • つまり、同じ日付のデータを一つにまとめる
  • PCAの結果確認プログラム
    • 主成分の負荷因子量を確認するものを作成
    • 主成分の中身は欲しいものがそこそこ入っている

こうして見ると、まだちゃんとやっていたようだ。明日はもうちょいがんばろう。

で、明日やること。

  • 実装続き
    • トレーニングデータ作成部分
  • ベースライン手法考える

実験のためにベースラインを考えなあかんのだが、組むのがだるいからやりたくないよなー、と。でもやらんと、ってことで簡単そうなものを選ばないと。
つーか、あの中でどれ選ぶって基準を考えないと。
どないしょ…。


2011/8/3(WED)

今日も最近にしたら結構進めた。というのも、これから自主休講が続くので仕方ないってだけだが。

で、今日やったこと。

  • 実装続き
    • ニュース記事処理部分完成
      • 回帰用データ作成のメイン関数の整備
      • 主成分分析で使用した属性(単語)の出現数だけを抽出し、PCAの結果から抽出したファイルと同形式に保存
      • 記事の日付を各ファイルで判別できるように修正
        • 最終生成物にも日付は入っている
      • 全箇所における動作確認

何が大変って、動作確認が一番つらい。
最終的に数字ばかりになるデータがちゃんと思い通りの場所に出力できているかを確認するのが一苦労。
しかも、ちょっと分かりにくいところもあったりでぎゃーってなってたが、なんとか確認取れました。
次は手法のキモに入っていくわけですが、モデルだけじゃなくて、最適化の式とかまで組まないといけないんだよね。うー。

で、明日以降にやること。

  • 実装続き
    • 提案モデルの実装

まあちょっとずつやっていきましょう。うー。


2011/8/2(TUE)

少しずつ研究の効率が上がっている感じ。
今日はかなり遅くに登校したので、その分頑張ったということにしておく。

で、今日やったこと。

  • 固有ベクトルのファイルに関する確認
    • 列と行のどっちが固有ベクトルになってるのか?
    • つーか、ちゃんと出力できてるかわからんくなってきたぞ…
  • 固有値、固有ベクトルのファイルがある前提での、回帰部分のプログラム
    • 主成分スコアの算出ができるようにファイルを変換
      • 採用する固有ベクトルを選定する部分を作成
      • 固有値1以上、寄与率、累積寄与率とあるが、今回は累積寄与率を採用
        • 固有値1以上がそもそもほぼない
        • 固有ベクトルが多すぎて、1つ当たりの寄与率が0.1以下
    • 銘柄毎にarffへ変換
    • 銘柄ごとのarffをwekaでカウント

最近の中ではかなり頑張れた。
ちょっとどうしようかというのを考える時期を過ぎて、どうしたらいいかが大体わかってきたからだろう。
明日は一日何もないので、ちょっとがんばろうか。
明日研究やり貯める。

で、明日やること。

  • matlabによる固有ベクトルの出力を確認
  • 実装続き

簡単に書くとこうなるか。まあとにかくやるべ。


2011/8/1(MON)

今日から8月。心機一転ちょっと頑張り始めた。
それにしてもモチベーションがあんまり上がってはいない。でも、大学院生でやること一応やってるからって自分の周りには社会人な人も多くて、なんか自分頑張ってないなってちょっと反省。遊びも大事やけど、やれる時間があるならやらねば。遊びも充実せんってもんよ。そんな人に顔向けもできません。

というわけで、今日やったこと。

  • プログラムの整理
    • サンプルなど現在は使わないプログラムであったりを整理
    • 各プログラムについて簡単なReadMeを作成
    • 株価の加工プログラムを一本化
  • 固有値、固有ベクトルのプログラム
    • matlabで処理したデータを一旦読み込むところまで作成
    • ただし、固有ベクトルのデータの方向を再度確認
      • 逆であれば、matlabのプログラムにおける転置を変更

まあダラダラやってたのでやったことは少ない。
明日も学校来るのは遅くなりそうなので、できることは少なくなりそうだが、まあできるだけ頑張りましょう。

で、明日やること。

  • 実装続き
    • 固有ベクトルのデータ方向確認
    • 固有値、固有ベクトルのわかりやすい形式で保存
    • トレーニングデータ作成

そんな人に顔向けできるように、頑張りましょう。


2011/7/27(WED)

今日はめずらしく朝早くに研究室に。
そのせいか、昼からのやる気ゼロ…。一応ちょっとは進めたけど、やる気あるときなら一時間かからずにできるだろうこと。
ま、今はしゃーないとしておこう。

で、今日やったこと。

  • 実装
    • pcaへのファイル変換プログラムを修正
      • NewsXmlからarffを作成するときに、一銘柄一文にまとめていたのをやめ、記事一つずつで記述するように
      • NewsXmlの中に、URLは違うのに記事内容が全く同じものが存在することを発見
        • cleanメソッドを作成し、是正済み
      • configまわりを追加、修正
      • PCAを試す
        • とりあえず動いている模様
        • 結果がしっかりしてるかは不明
  • サーベイ論文を読む
    • 基本的に、誰が何使ってる、しか言ってない
    • どれが優れていてなども言っていない
    • この研究分野がどんな傾向かを見極めることはできるので、今後の比較手法やベースラインを決めるのには役立つ
    • しかし、まださらっと読んだだけなので、今後まとめる必要アリ

一応やることはやってる感じだ。

で、明日やること。

  • 実装続き
    • 回帰部分のニュース記事加工
      • PCAの結果を元にする形で
  • サーベイ論文まとめる
    • どんな手法つかってるか、ベースライン、評価方法に関する部分を重点的に

やることはちょっとずつでも進めないとね。
実際は今のうちにさっさと進めておかないといけないんだが。9月は結構いない日あるからね。
がんばろっと。…いや、今はがんばらないw


2011/7/26(TUE)

今日は昨日よりはやった。
ちょっと進んだし。ファイル処理関係書いただけやけど。

で、今日やったこと。

  • 実装
    • matlabの実行スクリプトを整備
    • 実データを使ってのPCA用csvファイル作成試験
      • ちょっとバグもあったが修正済み
      • ただし、各銘柄の記事を一文にまとめるという仕様のままなので、変更が必要かも
    • ファイル処理系を整備
      • configの整理
      • main関数を整理

ああ、やったこと少ないw
まあいい。明日もこんな感じでまったりやるさ。9月に結構抜けるから今のうちにやっておくべきな気がするが。

で、明日やること。

  • 実装続き
    • 記事を一文にまとめてるあたりを修正
    • pca後のデータを用いる部分に着手
    • matlabを使う当たりの簡単にする方法を考える
  • サーベイ読む

と、書いたけど、明日はサーベイ読もうかな。
なんか英語はしゃべりたいけど、読みたい気はしない。全く、困ったもんだ。


2011/7/25(MON)

今日は短い時間だったが、最近では一番まともに研究していた日だった。
といっても以前に比べればまるで大したことのない量ではあるが。

で、今日やったこと。

  • 実装
    • 単語カウントのarffファイルからmatlab入力用のcsvファイルへの変換を実装
    • matlabの実行スクリプトを作成
      • 未完成
      • ファイル名の制御がまだ

あれ?やったこと少ない?
細かいことを色々進めたから大まかに言うとこうなるのか…。…そういうことにしとく。
まあ明日はもうちょいなんか進めようかと。

で、明日やること。

  • 英会話
  • 実装続き
    • matlabの処理完成
      • novaからのディレクトリマウントなども考える
      • 自分の処理が楽になるようなそんな

まあ明日も明日とてのんびりやるさ。


2011/7/20(WED)

研究いうほどの事をしてないけど、とりあえずやったこと書いとこうかと。
自分でもびっくりするぐらい研究に対するモチベーションが上がらんのだ。コーディングならもうちょいマシかと思ったのにね。
夏休みだからやる気がないのか、やる気がないから夏休みにするってのか、鶏が先か卵が先かみたいな。
……いや、この研究室に夏休みって概念ないから後者か。

で?今日やったこと?

  • 回帰分析についてちょこっと調べる
    • SVRに用いる説明変数と被説明変数について
      • 株価の対数の差を取ることで、分布が正規化されるだとかでよりよい回帰になるかも?
      • 特に、非線形回帰を線形回帰に変換する場合に利用されることがあるらしいが、全ての非線形関数が線型にならないことから利用できない可能性がある
      • ただし、過去数日間の分散を説明変数に使うなど、その他の可能性も考えられる
      • まあ、これは追加実験、追加実装でのお話
  • 実装
    • arffファイルから単語のカウントができることを確認
    • カウント後のarffファイルの読み込みクラスを作成


回帰分析についてはちょっと面白そうでいろいろ試してみる価値を考えられるから、追加実験は少し楽しくなりそうだの。
ただ、まずは提案手法についてある程度の結果を出さないといけないので、楽しみになるかどうかが怪しいもんだ。

で、明日やること。

  • 実装続き
  • 英会話の予習

今週は火曜日に英会話行かなかったので、ちょっと念入りにやらねければ。
実装も「やる気ねぇ~」とか言うてる場合じゃなくなってくるので、そろそろやらねば。


2011/7/15(FRI)

うっとおしい進捗報告会も終わり、今週は研究に対するモチベーションが最悪でした。
先週当たりから先生にも「あんまり進んでないね」と言われるあたりあまりうまく隠せてもいないようw
でも、今は他のことを優先すべきと考えるわけです。

で、今日やったこと。

  • 提案手法の実装
    • ニュース記事を扱う当たりの実装手順を確認
    • wekaでカウントをするために、arffファイルを作成するまでを作成
  • テキストを使わない株価予測手法について調べる
    • あんまり変わらない感じ
    • 特に論文自体が多くなく、もっと他の調べ方をしたほうがいいかもしらん
      • googleじゃなくて、参考文献たどるとか

ほんまやる気ない感じですな。
ただ、予想としては来週はもっとやる気がないと思うんだ。まあ、実装だけはさっさとやらんと。バグとか出たときのこと考えてね。

で、来週やること。

  • 実装の続き
  • テキストを使わない予測手法を更に調査

まあ気長にやる。



2011/7/12(TUE)

先週からほとんど進んでいない実装。
進んで行う遊び。残りわずかなモラトリアム。特に急かされてもいない研究。
何を優先させるかは、自明であったという事で。

で、今日やったこと。

  • 提案手法の実装
    • 実装に必要なものの確認
      • 既に組んでいたもの、新たに組む必要を確認
    • 訓練データの作成プログラム
      • 株価回帰は完成
      • ニュース記事の解析に関しては、まだまだ
        • 形態素解析は完成
        • 単語の取捨選択(フィルター)作成
        • 主成分分析部作成

進まなかった。あんまり。
先週進めてないのも、バレとったwあんな進捗報告じゃ当たり前かw

ちょっとやることを増やされたけど、許容範囲内か。
先生も探り探り言うてきてるのがなんか…。

で、明日やること。

  • 実装進める
  • テキストを使わない株価予測手法のサーベイ
  • 進捗報告会の資料作成

まったりやること進めつつ、いろんなことするのは悪くないな。
ということで、ここ1年の目標は、残りのモラトリアムを最高のものにすること。
がんばろ~。


2011/7/5(TUE)

今日から実装をじわじわ開始。
ミーティングでもコンポーネントはあるからやろうか、って感じだったので。

で、今日やったこと。

  • 提案手法の実装開始
    • 比較手法とか今まで作った部品を入れられるような形で
    • とりあえず、草案というかフレームのみ
  • 進捗報告会の準備
    • 来週木曜発表予定
  • 提案手法文書の追記
    • テキストの解析範囲について少々追加

今日は今日とて、やはりあまり進んでいない。
今はええか。
それ以外にやりたいことがあるので、それなりに進めて行きましょう。

で、明後日やること。

  • 提案手法の実装
  • 進捗報告会の準備

明日は会社の懇親会があるので、研究しない予定。
明後日はちょっとがんばろうか。朝も夕方も忙しいから集中せんと。

まずは、進捗報告会。
だりー。


2011/7/1(FRI)

今日は久々にコーディング。
なんか今は何進めたらいいかよくわからんので、提案手法をもう実装しようか、みたいな感じで。

他にもやったことはあるけど、とりあえず、今日やったこと。

  • キーワード抽出プログラム
    • 形態素解析(Sen)
      • 今後の使用に耐えるように、名詞(複合名詞)、動詞、形容詞を抽出できるように
      • まだもう少し試験してみたほうがいいかも
    • Yahoo!API
      • キーフレーズ抽出
      • 語の重要度を一緒に返してくれる、精度も○
      • ただし、名詞しか返ってこない
  • 提案手法の文書を加筆、修正
    • キーフレーズ抽出関連を追加、修正

まあ最近の感じで見ればやったほうか。まだまだ本調子じゃない。

で、来週やること。

  • 実装を進める
    • キーフレーズ抽出
    • 提案手法のフレーム
    • Matlab
  • 提案手法について詰める

早く実装を思いっきりしたくなってきたな。早く実験して、ゴリゴリ進めていきたいなー。


2011/6/28(TUE)

前回の進捗報告から1ヶ月とか、ちょっと戦慄した。ほとんど研究してねぇよ。俺一ヶ月もどうしたの!?
と、思ったけど、そういや就活してたわ。
一応提案手法も大分固まって来たので、進んではいるのかな。

で、今日やったこと。

  • キーワード抽出手法について調べる
    • やっぱり汎用的に使えそうなのはKeyGraphくらい
    • あとは、特殊ケースでの話で今回の短いニュース記事を対象にするには微妙そう
    • KeyGraph以外でつかえそうなのは、
      • 形態素解析と複合語生成
      • Yahoo!APIのキーフレーズ抽出APIの利用
  • キーフレーズ抽出APIを試す
    • webにあったサンプルを利用してみる
    • tfidfによる単語のスコアも返ってくるので、なにかに使えるかもしれない
  • 提案手法文書を追加修正
    • 提案手法の誤差関数の解を追記
    • キーワード抽出についてKeyGraphを使わないあたりのことを追加

やる気ないなりにできてはいるのか。
とりあえず、色々試して、今後の実装に役立つように進めていきたいと思う。

で、明日やること。

  • キーワード抽出について考察
    • モデルに使う場合に、なにをどう使うかを1から考える
      • KeyGraphを使わない
      • 主成分分析は?などなど

基本はこれだけ。
関連して文書修正したり、いろんなこと調べたりは前からのこと。
6月も終わるし、提案手法を早く固めてとりあえず実装したい。

でも、なんかキーワード抽出以外はノータッチな感じがするので、実装進めてやろうかと思い始めた。
Matlabを勉強するとかしててもいいかもしれないな。


2011/5/27(FRI)

今日は特に研究という研究はしてないけど、一応メモ程度に。

今日やったことは!

  • 組み上げたSVRを使って色々な株価を回帰してみる
    • 3つほどパラメータを簡単に設定して、出力してみるところまで
  • 読んだ論文についてまとめようと思ったけど、以前読んだのとそう変わらんものだったので簡単に
    • 要点としては、文書から抽出した特長量を説明変数として被説明変数を価格として回帰してるところ
  • 提案手法を考える
    • ほとんどパクリになってるので、もうちょい考えたい
    • 式の簡略化とか、学習アルゴリズムのあたり

まあこんなもんか。
進捗報告の体をなすために今日はこれくらいでよしとした。
本当は明日の面接対策をするための日にしてたんだけど、やっぱり丸一日もなんかしてることはないっちゅーのw
とりあえず、これから(PM11:00)ちょっと対策を見直して寝ますか。

そして、今後やること。

  • 論文を読み進める
    • 先生にオススメされたやつ
    • KeyGraph
  • 提案手法を考える

といっても、来週はうまくいけば忙しくなって研究やってられんかもしれんのよな。
忙しくなればいいのに。


2011/5/26(THU)

今日はそこそこプログラム進んだ。
その代わり、面接対策してない。夜はそれに専念せねば。

で、今日やったこと。

  • SVRのプログラムを完成
    • csvのファイルをarff形式へ変換
    • arffファイルをプログラム内部で半分にして訓練とテストを行うように
    • SVRのパラメータ設定はconfigからできるように
    • トレーニングに使う特徴量をできるだけ容易に変化させられるような設計に
  • 銘柄ごとのCSVファイルにするプログラムを再作成
    • 間違って消したので…

今日はなかなかプログラムしたな。ちょっと進度が遅い気もするけど、こんなもんだろうか。
パラメータ設定の部分とかちょっと工夫する部分を考えたりしたからなーとか。これが今後の研究に役立ってくれればいいのだが。
つーか組んでみたけど、どうしたらいいんだろう。
どのあたりを評価して、今後使うかーみたいな話しようかな。悩む。

とりあえず、今後やること。

  • SVRによって各銘柄の回帰を行い、暫定的なパラメータを決める
    • その結果をまとめて、進捗報告にできればいいなー。
  • ガウス過程について調べてみる
    • みんなが結構押してくる。ちょっと詳しめに。
  • 論文読む
    • 読んだ論文についてはwikiにまとめるように
    • 既に読んだものもまとめる

こんなもんか。
とりあえず明日は面接のためにモチベーション上げていかないと。
ここが正念場!研究してる場合じゃ本当はないなぁ。


2011/5/25(WED)

今日は今日とて、やることはそれなりにやったようなやらんかったような。
プログラムは全然進んでないので、かなり落ち込んでる。
他におもしろい事もあったし、まあよし。

で、今日やったこと。

  • 論文読む
    • Trading Tests of Long-Term Market Forecast by Text Mining
    • 日銀のレポートの解析結果を元にして、長期国債の動向を予測する
    • 利回りや予測精度から精度評価
  • SVRのプログラムを組む
    • wekaを利用
    • バージョンが上がったことで、SMOregのカーネルを選択できたり、自由度が上がってた
    • その分使い方が分からず、apiとにらめっこしてやっとできた
    • とりあえず、サンプルは動かせた


ああ、やったこと少ない。
最近結構自分がだらだらやってるのを自覚してる分、自己嫌悪が大きくなってきたかも。
面接も近いけど、いや、だからこそ、もっと気合入れて臨みたい。

で、明日やること。

  • SVRのプログラムを完成
    • 精度評価しやすいファイルの出力までを行う
    • 形式はcsvでおk
    • 元の出力+予測出力+二乗誤差とか
    • 未知データ入力時での精度評価を
  • 株価データのcsvをarffにするプログラム作成
    • 特徴量を可変にできるように工夫する
      • 3日前までを使うか5日前を使うかなどメソッド追加で柔軟にできるように
  • 面接対策その1


土曜日には自分にとっての人生の岐路その1が待ってるわけで。
明日はそんなに研究ばっかしてられん気もするから、明日はできるところまでと思っておく。
でも、これが癖にならんようには気を付けないと。


2011/5/23(MON)

気づいたらまた一ヶ月も放置してしまっていた。
もうちょい書いていくようにしないといけないなと、反省。
さらに、今日はしょうもないプログラムを組むのにえらい時間をかけてしまった。もっと雑でもよかったのに、この俺の几帳面!

で、今日やったこと。

  • 過去の株価データを集める
    • 2009/8~2011/4
  • CSV形式の株価データを銘柄毎にまとめるプログラムを作成→完成

少なすぎる…。久々に日誌を書こうとした日にこれとは、情けない。
明日はもうちょいがんばりたいと思う。
先生もはっきり言わんけど、早く新規手法を確立させないといけない。

で、明日やること。

  • 株価回帰のプログラムを作成
    • 回帰はSVRで行う予定
  • 論文読む
    • 読みかけのものを読み終えたら、先生が推薦してくれたやつを読む

つーか、最近先生とのミーティングがただのお話になってて、ほんまにミーティングなんかわからん。
前の先生よりは大分マシやけど、たくさんの学生を抱えるってやっぱ大変なんやな。
最初からそのつもりもないけど、先生におんぶに抱っこには絶対ならんようにしなければ。


2011/4/26(TUE)

今日はうれしいこともあり、なかなかプログラムが手につかず、ふわふわしてしまっていたw
とりあえず、早くせなあかんことは仕掛けられたしよしとしよう。

で、今日やったこと。
  • ニュース記事収集プログラムを完成し、サーバー上に移す
    • 動作確認済
    • cronで定期実行
  • 株価データの収集スクリプトを書く
    • シェルスクリプトで、データをダウンロードし、ファイルを解凍し、必要なところにデータを移し、バックアップも置いておく

もうちょい色々なんかしたほうがよかった気がしたが、できる気もしなかったので今日はよし。
明日の準備もあるので、ってことで、明日やること。

  • 意見分析エンジンを読む

明日は半日面接とかあるのでそっちがんばる。
間の時間で色々読んだりする気があればしようかなっと。


2011/4/25(MON)

また書き始めてみる。
たぶんそんなに書くことないやろうし、進み具合もかなり遅いと思うけどできるだけ軌跡は残そう。

今日は朝に某空調メーカーの懇談会に行ってからの研究室。
で、今日やったこと。

  • git講習会
    • T後輩のありがたいgit講習会を受けて、gitでできることを大体理解
    • とりあえずすぐにgitをインストールし、eclipseのプラグインを入れ、バックアップをとってみるくらいはする
    • これから調べつつ、もっとうまく使えるようになれるとうれしいが
  • ニュース記事収集プログラム
    • 追加
      • configファイルを活用するように変更
      • configファイルなどを書く
    • リファクタリング
      • 取得済みURLかを判別する部分が二重になっているのを解消
    • バグ修正
      • 新規記事を追記すると、それが空白のデータとして追記されるところを修正
    • 動作テストではうまくいってるみたい

まあちょっと進んだ程度。
でも、これでサーバーでほっとけばずっと記事を勝手に集められるようにはなっている。
プログラムでの次の課題については、[プログラムの問題点・作業予定]参照で。

で、明日やること。

  • プログラムの続き
  • 意見分析エンジン読む
  • エントリーシート?

ぼちぼちメーカーのほうのESも書かないとまずいかもしれん。
幸い、今週はまだ忙しくないのでやらんといかんか。研究のストックも欲しいところやけど。


最終更新:2011年09月09日 14:48
ツールボックス

下から選んでください:

新しいページを作成する
ヘルプ / FAQ もご覧ください。