卒業研究編(2月〜)

Today's Access -
Yesterday's Access -

研究日誌・卒業研究編。
やりたい研究につけたけども本当にちゃんとできるかな!?

2010/3/3(WED)

気づけば、前回の日誌から2週間が経過していたのね。
時間が流れるの早すぎる。

前回のところあたりで、かなりしんどくて書けていなかったが、それもそのはず。
論文まとめたり、実験しなおしたり、発表試料作ったりで日誌のことなんか考える余裕もなくすぐに寝てた・・・。

実際、その発表会というのが昨日のことで、なんとか乗り切った。
ある教授からの突っ込みが全部的確すぎて、内心すげー泣きそうだったけど・・・。
あんなに3年生がいっぱいいるところでやめて・・・。

で、今日はやる気なんてあるわけもなく学校に行かずにダラダラし、バイクを乗り回し、洋楽を漁りって久しぶりに研究に触れない生活を送ってみた。
楽しいw

まあでもやることはあるので、3月も研究室には行くだろう。
研究室の仕事以外にも学校行事で担当することもあるのでね。


ということで、無事卒業研究が終了したわけです。
卒業研究編と題したこの日誌もこれでおしまいにする。

次につけるのは、修士研究編ということになるだろうけど、それはたぶん4月のお話。

あー卒業できてよかったw


2010/2/18(THU)

今日はちょっと休憩してた。
まあプログラムはずっとしていたが。

というか、もう今日は疲れたから明日やるべきことのみ書く。

  • 卒論の第3弾を午前中に仕上げる
    • 実験設定なども詳細に
    • 文章はかたーく
  • データへのラベル付け、実験を継続

まあ、もう少し。
卒業はできそうだが、ちゃんとした卒論にはならなさそうだ。
あと2週間はしんどいかな・・・。


2010/2/16(TUE)

今日は卒論の第2弾を先生に提出。
やっぱり色々あかんかったらしい。昨日思った感想を今日もそのまま思う結果に。
もともと文才がない上に、理系の文章にはさらに才能がないみたいで・・・。口語っぽいんだと。
そんなクセすぐに直らんよな。どないすっかな。

で、今日やったこと。

  • プログラムを追加作成
    • ラベルを付与するプログラムを作成
    • 昨日作った従来手法のトレーニングデータの変換プログラムを修正
  • 予備実験を開始
    • 正例にすべき事例を選択し、作ったプログラムを使用してトレーニングデータを作成
    • 実験はたぶん今晩中に始まるはず
  • 卒論を書く
    • 理系な文章になるようにして、また全面的に見直し

もう今回の実験でそこそこの成果があったら最終的な実験結果出るまで卒論の添削はやめておこう。
何回もおんなじような添削されんのは正直しんどいわ。

で、明日やること。

  • 予備実験のチェック
  • ラベル付けする単語の選択
  • 卒論書く

まあ、もうやることは大体変わらんわ。
実験設定とかいろいろメモしておこうか。
もうちょいやし、がんばらんと。


2010/2/15(MON)

今日は卒論の第1弾を先生に提出。
添削されて帰ってきたが、なかなかひどかった。もともと文才はないけども、理系の文章というのか、ようわからん。
書けって言ってみたり、やっぱいらんとか。めんどくせーよ。
それに指導員なら、ここはだめっていうなら代替案じゃなくても方針めいたことでも言わんか?と思うのだが、甘いのだろうか。

ともあれ、今日やったこと。

  • 従来手法のプログラム作成
    • そういえばすっかり忘れていたw
    • 現在までに作成してきたプログラムとトレーニングでデータを用いて作成
    • 動作も確認
  • 卒論修正
    • 15日現在で第2弾は完成していないが、16日で完成させて提出予定

プログラム忘れてたとか致命的w
笑い事じゃないけど、とりあえず作れたので一安心。あと、まだ作れたらいいなってプログラムあるし作ろうか。

で、明日やること。

  • 卒論第2弾完成
    • これが最優先
  • プログラムを追加作成
    • トレーニングデータの自動ラベル付けをするもの
    • 半教師によるものではなく、今回グラフを見ながら選択した話題から頻度が最大のところを"yes"にするってもの
  • 従来手法のプログラムを追加修正
    • ラベルなしデータのほうの変換プログラム

これを書いてて気づいたけど、従来手法のプログラムの修正が必要だw
ラベルありデータの変換はしたけど、正例がえらい少ないし、正例が増えへんなーって思ってたけど、俺のミスかよwやっぱりなw
もういつまでもやることが減らん。
早く何も気にせず遊べる日が来ないかな。


2010/2/12(FRI)

今日は雑誌会の存在をすっかり忘れていて、同期からの「雑誌会休むという伝言をお願い」というメールで気づいたというボケっぷりを発揮した。
別に行きたくもなかったけどね。
何はともあれ、研究はもうあんまりすることなくてプログラムが期限内に終わるかヒヤヒヤするばかり。
それから卒論がうまく書けてるのかも不安でたまらん。

で、今日やったこと。

  • プログラムの頻度表作成部分をマルチスレッド化
    • 6スレッドにしたので単純に6倍速!……だといいなぁ…
  • 卒論執筆
    • 休み前に先生に適当に書いたやつを見てもらった
    • もちろん全然ダメで、ていうかどういう方針で書くべきか迷ってたのでダメだし大歓迎
    • 本日全面的に書き直しスタート

てな感じで、プログラムさえうまくいけばすべてはまるく収まる予感。プログラムがうまくいかない悪寒。
早く楽になりたい。

で、来週(明日かも?)やること。

  • プログラムを見守る
  • JFreeChartによるグラフ描画をもっと詳しく(卒論に使えるようなん)
  • 卒論執筆
    • 図の作成から

プログラムがここに来てすげーたのしいのに、そんなことしてる場合じゃねえって半殺しの生殺し状態。
早く春休みにならんかなー。
WEBサーバー構築とかいろいろ早くやりてぇよー。


2010/2/9(TUE)

今日は恐れていたことが現実のものとなった。
問題が発生した。
話題語候補として抽出していたものが、あまりにもトレーニングデータとしては不適切な感じのものばかりだったのだ。
どう不適切って、話題語のはずなのに全然頻度がないw

というわけで、その辺の解決策やなんかも含めて今日やったこと。

  • 話題語候補の抽出法を再検討
    • 今までのTFIDF値の最大値-1以上のものを取得をやめる
      • バグがあったのかちゃんと動いていなかった模様
    • TFIDF値でソートして上位30件を採用すると言う形に変更
      • それっぽいものを抽出できた
      • 代表的なもので「インフルエンザ」
    • カテゴリごとでの話題語抽出だけでなく、全体でみた話題語の抽出もしてみる
      • とりあえず全体の名詞データをTFIDFのファイルへ変換は完了
      • まだ話題語の抽出実験はしていない
  • 保険として、先輩のデータを自分のプログラムで使えるように変換するプログラムを組む
    • とりあえず、完成
    • 計算サーバー上で現在動かしているが、文字コードの関係でファイル名がちゃんと出ていない…(???.txtとかなる。???は話題語)
    • 今はプログラムがちゃんと最後までいくかの実験ということにしておく

今日はいろいろやったなぁ。
もう平行してやるべきことがおおすぎて、かつできるか不安過ぎて頭が回り切ってなかったな。
音楽をめちゃでかくかけて無理やりやらしてた感じでした…。
なんかちょっとうまくいってるようなうまくいっていないようなよくわからん状況なので、まだまだ気を抜かずがんばろう。

で、明日やること。
  • ランキングによって抽出した話題語の頻度表の実行結果を確認
  • 全体記事での話題語抽出を実験
  • 計算サーバー上でのプログラムの実行状況確認
  • データの変換プログラムを自宅パソコンで実行(今晩やる)
  • 卒論

まあ、今日の続きですね。
またなにか問題が発覚しない限りこいつらを処理して、あとは卒論書くってとこになるんだが。
卒論に手を回せるかわからん。

明日も朝からがんばろー。


2010/2/8(MON)

今日からちょっと気合を入れて朝から登校を再会。といっても10時からですがw
で、今日は研究とは直接関係ないけど、かすってるくらいのことを中心にしていた。

というわけで、今日やったこと。

  • 実験データの作成を見守る
    • ちょっと実験的なことをして、作成が1日遅れることに…(時間の単位がおかしいよなぁ)
    • まあ作成は順調、実験がうまくいくかはわからんが
  • データベース作成などプログラムが全体的に遅いので高速化を検討
    • マルチスレッド導入
    • ネット接続の見直し
    • RSSリーダーの導入
  • 実験データがちゃんとできるか心配なので先輩の実験データを拝借
    • 自分のものと仕様が違うので加工するプログラムを作成
    • 記事の変換を完成
    • 単語の頻度表を発見したので、この頻度表を加工することにする


なんか今日はいろいろやってたんやな。気合を入れていただけある。
さて、不安はつきないのでどんどん作業を続けていこうと思う。これからちょっと自宅との2重体制にしないとキツいか。

てことで、明日やること。

  • 先輩の頻度表を変換するプログラムを作成
    • ブロガーの増加数についてのデータを探して、頻度表と合わせる
  • 実験データ作成を見守る
  • wekaを使う部分を過ぎたところからのプログラム(話題候補を抽出した後から)をサーバー用にメモリを大規模に使ったものを作る
    • 中間ファイルを作ると速度が遅いから
    • できればローカルで最大限メモリを使えるものもできればいい
  • プログラム高速化をさらに検討
    • 具体案を作っていければ○
  • 卒論執筆

今ちょっと手の開いてるうちに卒論は完成させるくらいでやっとかないといけない気がしてきた。
他人を気にしてる場合じゃねぇよな。
こっちだってなんか問題が起こるとしたら1週間後で、そんなときにプログラム書き直して実験し直しながら卒論執筆なんて時間的に無理やしな。
しかし、時間も限られてるし優先順位を決めておく。
  1. 卒論執筆
  2. 先輩のデータ加工
  3. サーバー用プログラム

やるだけやらねば。

あくまで人権を確保しながらね。


2010/2/5(FRI)

今日は先輩の発表会がありました。
まあ主催者も理解していたのか、実りのない誰かの自己満足なものとして終わったようだった。

研究はというと、さらにデータを収集し続けるだけというなんとも味気のない感じで。
暇潰しをするというには時間とやることが多くて暇にもなっていない。

てことで、今日やったこと。

  • 名詞抽出のメソッドを改良
    • 単語すべてを抽出できるものを新たに作る(GetNouns.javaのコピーですがw)
    • 形態素解析の中断しても大丈夫なように改良
      • 既に解析した記事は解析しないように
  • 先輩の使っていたデータを発掘してきて、一応使えるように加工

まあ最近のやったことの少ないこと。
やること多いといっても、次なにするかを考えたり、今動いてるプログラムがうまくいかんようになるかもって危険を冒さんように気付けたり。
早くデータ集まらんかな。

で、来週やること。

  • データの取得状況把握
    • 週末で解析は終わらないと思います…
  • プログラムの改良を引き続き
    • 次になにするかは適当に考えてメモっておきます
  • 卒論書く

平たく言えば、来週やることは決めてません。
そうか。
それを考えることが、来週やることかも。


2010/2/4(THU)

今日までしばらく日誌を書いていなかったが、それはまったく書く内容がなかったからで。
とりあえず、今日は書いてみようか。

書いてなかった今までの分合わせて書いてみる。

  • BlogEntryに接続タイムアウトを追加
    • ブログ記事の取得メソッド全体の速度は上がったが、取れない記事もできてしまう
  • 論文を書き始める
    • 先輩の論文を参考に進めるので、かなり量はある
    • が、内容はもっと詰める必要がありそう
  • 卒論テンプレを作る
    • オレはいらんw
  • プログラムの修正
    • 気になったところやちょっとした不具合を修正

まあ、数日あったのにやったこと少ないのな。
実験データは作り続けてるけどいつになったらオレ自身の出番が回ってくるのやら…。
プログラムがうまくいってるってことでうれしいわけでもあるんだがw

で、明日やること。

  • M1の先輩の発表会を聞く
    • 今やる意味がわからん
  • プログラムの修正を続ける
    • やることはわかってるから、研究ノートを参考に
  • 卒論を書き進める
    • 実験設定あたり

まあ今日の延長って感じで。
卒論提出まで3週間切ったんだな。もうちょい気合入れていかんと。

#bf
名前:
コメント:
最終更新:2010年03月03日 21:21
ツールボックス

下から選んでください:

新しいページを作成する
ヘルプ / FAQ もご覧ください。