修士編(10月~)

Today's Access -
Yesterday's Access -

研究日誌の修士編。
就活も始まりつつあるところからの苦し紛れな覚書。


2010/12/21(TUE)

今日はなぜか体の調子がよかったのか、いつもくらい腹が減った。ここんとこなんか息苦しい感じで腹があんま減らんかった。まあ、よいことではある。
で、今日は最後のプログラム構築ってとこで今日でもう実験に関するプログラムはいじらなくてよさそう。
公開用にはまだまだいじるけどねー。もう趣味でやっていくことにしよう。

で、今日やったこと。

  • 単語ごとのデータへのラベル付け
    • 正例とするのはバーストした日の30日前まで
  • プログラム改変
    • 単語ごとのデータを分類してみたときのPrecision,Recall,F-measureを出すように
  • 実験時の負例を減らす
    • 昨日増やしたのでは、多すぎる気がするので
    • 今後余裕があれば、このバランスについても考察する(たぶん)
  • ラベル付け
  • 論文のなおし

ちょっと想定してたより作りたいデータができるのが遅いので、本実験は明日に回すことにする。
今日は論文のなおしを一通りやって先生にまた提出したので、明日の昼くらいに返ってくることを期待しつつ実験進める。

てなわけで、明日やること。

  • 本実験
    • 考察までやっちゃう
  • 就活
    • 明日下の階の研究室に来るという某企業の説明会にお邪魔する予定

明日でもう実験結果が出てしまえば大分楽やねんけどな。うまくいきますよーに(問題が起こらない的な意味で)。


2010/12/20(MON)

今日は発表会あったりskypeでミーティングしてみたりいろいろとやってきた。
なんか今日は疲れてるからあんまり根詰めてなくて、明日からまたがんばろうと思う。

で、今日やったこと。

  • 発表会で発表
    • 例のごとく、あいつは途中寝てた
  • skypeミーティング
    • 自分のミスってた部分とか実験設定とか見直せてよかったかと
  • プログラム改変
    • ミスってた部分が結構あったので、修正
    • Remakeを修正
    • validationで分けるものを単語単位に

まあなんだかんだでいろいろやってた。
実験は明日またやるとして、ラベル付けるのとかもしていかなあかんな。

で、明日やること。

  • ラベル付け
    • 単語ごとのデータに正例のラベルをつける
      • 単語へのラベルについて、Precision,Recall,F-measureを出すため
  • 単語ごとのデータについてのPrecision,Recall,F-measureの算出を追加
  • 実験
  • 論文執筆

やっぱりやること多いな。まあ明日からがんばろ。


2010/12/19(Sun)

この曜日だけは書きたくなかったけどしょうがない。
今週一週間は踏ん張るしかなさげです。なんか逆に就活したくなってくるのがやんなっちゃうw

で、今日やったこと。

  • ちょっとプログラム改変
    • Precision,Recall,F-measureと一緒に、単語へのラベル付けも一緒にするように
  • 実験
    • 各評価値と実際に単語の時系列にラベル付けをしてみた
      • 評価値あんま関係なさそう…
    • 評価値よりも、単語の時系列にラベル付けしたときの評価を定量的にするというのをすればいいかも
      • 単語のデータの前兆とするところを正例としてそれによってPrescision,Recallを出すとか?

今閃いてきた。
評価の仕方とか最後に書いたやつのほうがまっとうなのではなかろうか?
明日資料とか直せたら直そう。できんくても口頭でええやろ。

で、明日やること。

  • 最後に書いた評価の仕方を考える
    • どこまでを正解にするかも主観っていうのはいかがなもんか
    • アンケートとってみようかな
  • Y先生とskypeミーティング
  • 進捗報告会

結局すべてオレのさじ加減ってどんな研究やw
できる限り機械的にやってるけど、先行研究なさすぎてわけわからんわw


2010/12/17(Fri)

今日はいろいろな人にお世話になって、いろいろできた。
学習器のバグを直したり、考察について助言をもらったり。またなんか聞きに行くと思うけど。

で、今日やったこと。

  • 学習器のバグ修正
    • アルゴリズムの初期エラー率を間違えていた
  • できているデータで実験してみる
    • 100クロスバリデーションまで試す
    • testとtrainを逆にしてみる
      • 少量のトレーニングデータで学習し、たくさんテストしてみる
        • 精度が上がれば、半教師付き学習が有効にできているかも
    • 数値は大体、0.9前後で推移
    • データは正例と負例のバランスも大事
    • 負例が増えると、FNが大きくなる

前日寝不足という最悪の状況で使えない頭をみなさんに助言をいただいて色々できました。
なんか進捗報告で結果は送ったんで、なんて返ってくるかで論文をどんなもんにするのか変わるな。

で、明日、は土曜日だけどちょっとできてないこと多いんでやるってことで、やること。

  • 発表会資料作成 
    • 20日に割り当てられちゃったんで、さっさと作らんと
  • 実験を続けてしていく
    • 10日前までのものを作ったので、30日前までのものなどを使ってさらに実験を進める

今日はみんなのおかげで助かったので、なんとかできればいいなぁ。


2010/12/13(Mon)

今日はあんまなんもしてないような気がする。
経過発表会があってその準備もしてたけど、それにしてもって感じだ。

で、今日やったこと。

  • グラフ画像の文字化けの原因を究明
    • どうやらwekaにファイル変換させたときに文字化けが起こっているらしい
    • weka3-4-11では日本語がまだ扱えるらしいが、3-5-4でもローカルなら日本語が扱えている
  • 論文を書き始める
    • 形を整えただけ
  • 発表会を消化

発表会は割とあっさり終わったし、特に緊張することもなく終了した。
まあ聞いてる人の中には緊張が緩みっぱなしのやつもいたけどw

で、文字化けのバグはどうやらwekaのStringToWordVectorをかませたときに発生しているらしく、現状打開案がない。
しょうがないので、解析済みの名詞ファイルをローカルですべて集計することにする。
時間がかかるが、この間に実験結果以外の論文が書けると思えば、まあいいのだろうが。

で、明日やること。

  • ローカルでの集計を見守る
    • ある程度終わって入れば、ラベル付けしておく
  • 論文執筆
    • 基本的に卒論の引用

なんか論文も実は引用するだけやし、大分時間に余裕がある気がして、みwなwぎwっwてwこないけど。
とりあえず、さっさと終わらせて楽しくのんびりした年末年始にできるようにしよう。


2010/12/10(Fri)

一月近く書いてなかったのか。びっくらこいた。
一時かなり沈んでた時期もあったけど、なんとかこらえてやってこれた。
しかし、これからが正念場らしい。面倒くさい問題にもぶちあたってるみたいやし、もー。

で、今日やったこと。

  • Publicationのグラフ作成をサーバーで動作させてみる
    • グラフ画像の文字(日本語)がすべて文字化ける
    • ファイル名だけでない
  • 研究経過報告会の資料作り

まあ今日はITSpiralもあったしな。
実質今日が最後だったらしく、PCも3月まで借りてていいらしいしかなり助かる。
しかし、あの文字化けなんやねん…
休みの間に調べとこうかな。

で、来週やること。

  • Publicationのグラフ画像の文字化けを直す
  • もう一回すべてのデータを作り直す

そういえば、停電とネットワーク停止とかあるんだっけか。
こんな時期になぁ。喧嘩売ってるとしか思えんタイミングや。


2010/11/16(TUE)

今日はなんかずっと螺旋の課題してしまった。
もうちょっと早く片付くと思ったのに、ちくしょー。

で、今日やったこと。

  • SQL関連
    • データベースへの格納対象を制限することに
      • TOPIC_STARTとTOPIC_ENDに準ずる
  • categorizeの評価算出クラスに着手
  • ITSPiralの課題

もう書くことが少ないのなんのって。
つーかオレ論文提出できるんか?もう不安ってレベルじゃねーぞ!

で、明日やること。

  • リハビリ
  • SPI検査模試
  • ITSpiral課題
  • categorize評価算出クラス作成
  • サーバでのプログラム実行監視

もうコメントなんかねえや。とりあえず、1日24時間ってのは短いと思う。


2010/11/15(MON)

ちゃんとした生活を送っていたはずが、かなり時間が経っているような錯覚に襲われている。
先週の木曜日がえらく前のことのようだ。
で、今日は無駄なことで有名な進捗報告会で、オレはちょっとイラッとしながらも適当にすましたのだが。
まわり言わせると、「教授はなんか(プログラムばっかりで研究してない)言いたそう突っ込んでた」ということらしいが、ほんまか。

ともあれ、時間のあまりない中やったこと。

  • trend関連
    • ラベリングツール完成

というだけのことやけど、これで一通りプログラムは終了かと。
一応結果集計のプログラムも考えてはいるが、いざとなったらすぐ作れるやろうし気にしない。

で、明日やること。

  • 各種ラベル付け
  • ITSpiralの課題
  • エントリーシート

忙しいことはいっぺんにやってくるんだと、改めて実感。
切羽詰まって後悔せんように結構がんばってたつもりやねんけど、今週は切羽詰まる感じやな…
早くもろもろのこと終わらんやろか。


2010/11/11(THU)

今日はポッキーの日だったらしいが、どうでもいい。という、どうでもいいことを書いてしまった。どうでもいいな。
今日はなんかちょっと変わったことなんかもして、結構進みもした感じで、しかし結構な疲労感だこと。

で、今日やったこと。

  • トピック関連
    • everycategoryメソッドを完成
      • 動作未確認
      • 各カテゴリごとにディレクトリに分け、その中に1月ごとにまとめたファイルを作ることに
      • これで、カテゴリで1月ごとに話題語を抽出することを目指す
  • 話題語関連
    • ラベリングツール作成中
      • Frameを使ってGUIで作成
      • ボタンでラベルをつけるかつけないかの判断をする
      • 現在の問題点はボタンを押すと同時にラベルのフラグを立て、ファイルを再保存し、次のファイルに移行する、って一連の流れを実装すること
  • SQL関連
    • ブロガーの追加メソッドの動作を確認


何だかんだでいろいろ手間取ってしまってこれくらいしか進んでいない。
ラベリングツールは完成させたかったが、ちょっとアイデアがいるので考えておくことにする。

で、来週やること。

  • 話題語関連
    • ラベリングツールの完成
    • 結果集計メソッド
  • ブロガー分類
    • ラベル付け
  • SQL
    • カテゴリ追加以降の動作実験
  • サーバー
    • データベース構築

来週には完成するでしょう。なにごともなければね。


2010/11/10(WED)

昨日やらんかった分がんばってみた。
でも、講義がある分やはり時間的には厳しくて、結構やった気はするけどやっぱできてない気もする気持ち悪い心地だ。
つーか、またサーバーが込み始めたらしい。
人数に対して、計算資源が少なすぎるって何回言うたらわかるんやろうか。もう面倒くさくもなってくるわ。
ていうか、オレがゆずらなあかん空気まだあるけど、よく考えたらそんなことねぇんだよなー。

でもま、とりあえず、今日やったこと。

  • 公開データ作成関連
    • グラフ作成クラス完成
      • categoryとtotalの出現頻度を合わせてグラフに示すように
      • totalのデータベースを破棄してしまっていたために、動作確認できず
      • totalだけのグラフを作れるようにもするべきなのかも
    • 表作成クラス完成
      • csv形式でcategoryとtotalの出現頻度を保存
      • 各行の最後の要素はラベル付与するかのフラグ
        • これを利用して、話題候補の学習データを自動で作成する
  • サーバー作業
    • 形態素解析~開始
      • 今後の計算資源争奪戦激化を懸念して、もう解析を始めることにする

もう面倒くさいことになり始めた。これで結果出んかっても知らんけどなw
「間に合わなかった?1月前からできるだけ回してましたけど?計算機足りないのがいけないんでしょうwww」って感じかw
それにしても進捗が遅いことも一因なだけにそればっかりも押せないなぁ。でも進捗が遅いのはこればっかりしてるわけにいかんからなんやけどなー。

とにかく、一旦足りてないプログラムやらなんやらを整理してみたいと思う。
プログラムの流れの中から確認してみるといいかもしれん。今後追加で気づいたところは、別口でメモする。

  • URL収集
    • 動作確認済
      • 随時サーバーで実行中(cron)
  • 記事収集
    • 動作確認済
      • 随時サーバーで実行中(cron)
  • 形態素解析
    • 動作確認済
      • 現在サーバーで実行中(screen)
    • 最新版のトピック抽出結果からのストップワードの更新はまだ
  • カウント
    • 動作確認済
      • 現在サーバーで実行待ち(screen、形態素解析が終了次第)
  • SQL
    • 動作確認中
      • テーブルの初期作成は確認済
      • テーブルの追加メソッドの動作が未確認
    • 確認出来次第、サーバーでの実行を
    • ただし、blogerのデータベース作成についてはサーバーで実行待ち(screen、カウントが終了次第)
  • トピック
    • 動作一部未確認
    • 未実装メソッドあり(everycategory,all)
      • 早急にeverycategoryだけ実装が必要
        • 今後実験で必要なのは、実際にはこれだけ
    • TFIDF値の計算過程における素性選択の動作確認はまだ
  • ブロガー分類
    • 動作一部未確認
      • 分類作業についての本実験はまだ
      • ラベル付け作業がまだ
  • 話題語分類
    • 実装中
      • ブロガーのカテゴリ分類、データベースの作成終了を待ってすべての動作確認作業を開始可能
    • 未実装部
      • ラベリングツール
      • 結果集計

こうして見ると意外と結構できてるみたいで安心した。
実行待ちなところが多いのはかなり気になるけど、その間にラベル付けとかすればいいから、時間的にはまあ大丈夫だろう。

で、明日やること。

  • 話題語関連
    • ラベリングツールの作成
      • 以前のプログラムを参考に
      • できたら、サンプルデータで動作確認してみる
    • 実験結果の視覚化
      • どこを正例としたかを表すもの
    • ChartとSheetのテスト
      • totalにサンプルでも入れられればいいんだが

やっぱプログラムはだいぶ減ってきたみたい。
この調子で詰めていくしかねぇな。


2010/11/8(MON)

さて、11月ももう1週間過ぎた。
お金的な意味である問題が発覚し、「こんなときにぃぃいいぃぃいい~~」というのが内心思っていること。
プログラムはまあ順調なよう、というか実際まだまだ作り込まないと実験できないことに今更気づいて微妙に焦り始めたw
qあwせdrftgyふじこlpってなりたいくらいだw

で、きょうやったこと。

  • SQL関連
    • ブロガー部での差分登録が動作していることを一応確認
      • しかし、ちょっとパラメータ間違えてて本当か怪しい部分あるのでやり直す
  • trend関連
    • BootStrap完成
      • 動作実験済み
    • TriTraining完成
      • 今後メソッド追加の可能性はアリ
      • 動作実験はまだ
    • Prediction完成
      • 今後メソッド追加の可能性はアリ
      • 動作実験はまだ
    • グラフ、ラベリングツールの開発を考え始めた
  • トピック関連
    • TFIDFの計算時にしていなかった素性選択を解禁

まあまあ進んだみたいな感じだ。
今後やらなあかんこととかも随時見えてきて、いつまで経ってもすべてが終わらんというのは結構なストレスになると改めて実感。
つーかほんまに間に合わせられるのかすげー不安になってきた。

で、明日やること。

  • trend関連
    • グラフメソッド作成
    • ラベリングツール作成
  • topic関連
    • カテゴリごとのトピック抽出メソッド作成
  • SQL関連
    • 動作確認
  • 論文概要考える

論文を公然と読む必要がなくなったのはありがたいけど、TOEICやる時間もなくなってて英語論文読んでるのが勉強になると思ってやってたのになー、とかなんとかいいわけしてみた。いいわけなんかもわからん。なんか書いててよくわからんw
いっつも結局ここに落ち着くんやけど、…とにかくやるしかねぇ。


2010/11/5(FRI)

今日は講義やらあったので、作業としてはあまり進んでいない。
予定通りといえばその通りなのだが、今週というスパンで見ればあまり思い通りに進んでいない部分もある。
自分の未熟さと言えばそうかもしれんが、体壊すまでやる必要性もないわけで。

で、今日やったこと。

  • SQL関連
    • ブロガーのカウント追加は、未登録の日付のカウントを登録できるように
    • 現在動作実験中
  • trend関連
    • validationを完成
      • サンプルデータで動作も確認済み
    • bootstrapに着手
      • validationを参考にすればすぐに終わりそうな予感
    • ディレクトリが増えてきたことに伴って、ディレクトリ構成を一部変更
      • それに伴いconfig,Config.java,TrainingData.javaを変更
      • 詳細はReadMe.txtを参照のこと
  • Save関連
    • arff形式の保存メソッドで、拡張子の指定するしないが曖昧だったので統一

作業としてはまずまずか。
結構ややこしい作業になってしまっているので、かなり作り直したいところとかあるけど、時間内ので諦める。
研究会への投稿が決まったようなので、そちらのスケジュールも考えないといけなくなってきた。
研究会やし、そこまで神経質になる必要はないみたいやけど、またちゃんと結果が出てくれるかすげー不安。

で、来週やること。

  • trend関連
    • bootstrapの完成
    • 学習器(tri-training)の完成
    • トレーニングデータの作成メソッド考案
  • SQL関連
    • 差分登録メソッドの実行結果確認
      • 現在はブロガー部分だけなので、カテゴリと全体の部分を続けて行う
  • topic関連
    • candidateの結果からストップワードを登録
  • categorize関連
    • 動作実験がてらカテゴリ分類をしてみる
    • この実行結果でもってtrendのトレーニングデータ作成の実験をする

さて忙しくなる気しかしないよね。
今すでにダウンしかけたりしたのにもつのか俺…。遊んでる場合なのか?…場合だ!!
そしてこうしてると充実感にあふれるのでよいことだ。
でも、こういうときって時間の流れが早すぎるくらいなんだよねー。
ESとか忘れんようにしよー。


2010/11/4(THU)

さて、今週はしんどかった。ていうかまだ今週終わってない。
今日はやはり体力があまりなかったせいか、ほとんど作業が進まなかった。ちくしょう。
仕様をややこしくしてしまっていた部分もあって整理せんといかん。

で、今日やったこと。

  • SQL関連
    • 差分処理がちゃんとできるかの動作実験開始
  • trend関連
    • validationを作成
      • 今のままではデータ読み込み時にインスタンスが重複する可能性が発覚
        • TrainingDataでデータを作成する基本的な考えを忘れていた
          • labeledWords.txtに登録されたデータで毎回データを作成する
          • つまり、ディレクトリ内のすべてのファイルをまとめて読み込むのは無意味
    • bootstrapの作成に着手
      • 基本的に、set1~3をフィールドとして持たせて、それをあーだこーだするということに
  • categorize関連
    • 動作実験が終了していたので、結果を軽く見た
      • 以前よりはだいぶマシ
      • けど、やはりノイズが気になりまくる

書いた量は多いけどって回ですな。
やったことはそんなに多くはない。
とりあえず、仕様をまとめておかないととんでもないことになるので、ReadMe.txtに色々追記した。

で、明日やること。

  • SQL関連
    • 差分登録の実行結果確認
  • trend関連
    • validationのデータ読み込み部修正
    • bootstrapの作成
    • machineに取りかかる

なんか研究会に発表しようかみたいなことにマジでなってるので、早く作らないとマジでやばい。
実験に時間をしっかり使えるように準備せねば。
ということで、新研究の優先度は最低レベルになりまーす。…しゃーないわ。


2010/10/28(THU)

もう10月終わりかよ・・・はえーよ・・・。
で、今日は今日で朝にめんどくせー演習の講義があったので朝は作業できず。昼からのみ。
今日はなんか最初の2日間を飛ばしすぎたせいか、あんまり勢いなかった気がする。しかし、色々進んだのでよし。

で、今日やったこと。

  • categorize関連
    • ラベル付けのツールにバグがあったので修正
      • 記事を一つ追加するごとに記事のtfidfを計算するという意味のないことをしていたので修正
    • カテゴリを決定
      • 予定どおりおよそ20で
  • 形態素関連
    • 今日の見た限りでは、かなりよくなっている模様
  • Cleanup
    • nullurlに指定した記事の削除メソッドを追加
      • categorizeのラベル付けで記事としてよくないものを判定、削除することが可能に
  • trend関連
    • トレーニングデータをファイルとして保存できるようにするメソッドを作成
    • validation、bootstrapのメソッドの構想をする
  • 新研究
    • 読みかけの論文を読み終わる
    • 詳細は論文メモ

いうほどのこともしていない感じになっている。
言うて、そんなに時間もなかった…なんてこともないのでやっぱりあんまり勢いなかったんやろうな。
カテゴリも決めたし、ラベル付けしていかんとなー。

で、来週やること。

  • trend関連
    • validation、bootstrapを作り上げる
    • ラベル付けのためのメソッドかクラスを作る
      • グラフ作成のツール作るかな…
  • categorize関連
    • ラベル付けする
  • トピック抽出関連
    • 形態素解析終了したら抽出してみる
  • SQL関連
    • 形態素解析終了したら追加してみる
  • UI
    • CSSによる色付け
    • JavaScriptによる動き
  • 新研究
    • 論文読む

とまあ色々書いたけど、来週はほとんど時間ない(とらない)のでほとんどできない悪寒。
サーバー上のプログラム実行監視と、論文読むくらいが基本になりそうですねー。
つーか、11月には中間発表やるんやと。
また資料作るのに時間とられるのか。あのちょっと使うのがうざい。12月にも研究科全体のやつがあるのに。どうせほとんど聞き流してるくせに。何が言いたいって、時間の無駄。


2010/10/27(WED)

今日は講義3コマと寝不足(寝つき悪い+なんか途中で起きた)でしんどいのもあって早めに帰って休む。今日は筋トレもお休み。
講義3コマあったおかげで時間もとれてないので、やったことはほぼ皆無に近いけど、皆無ではないので一応なんかしら書く。

で、今日やったこと。

  • トピック抽出結果の確認
    • どうも単語単位でしかなくて連続名詞になってない
      • 連続名詞のチェックに使ってたメソッドがよくなくて、すべての連続名詞が却下されていた
      • チェックのメソッドを作成し、実験 > 成功
    • 以前よりもよさげ
      • でも、もう一回通して動作させてみてから精度を確認する方向で
  • UI
    • CSSをさらに勉強する
    • index.htmlのレイアウトをだいぶマシなものに

1、2時間しかなかったわりには色々したような気もする。
とりあえず、UIのほうがなんか形ができてきてすげー楽しくなってきたw
次は色とか画像入れるのとかやらんとな。見た目に関しては美的センスのある人の意見を取り入れたいと思うw
JavaScriptも実践で勉強できるようにしていかないと。

で、明日やること。

  • トピック抽出関連
    • 通しの実行結果をチェック
  • SQL関連
    • 差分登録のメソッドの動作を確認する
  • その他プログラムに関しては机のメモ参照
  • 新研究
    • 読みかけの論文から片付ける
  • UI(気がむいたら)
    • CSSで色つけとか

明日も一応授業あるけど、昼からはなんもないからまたがんばりまっしょい。
進捗報告も書かなあかんやろうし、なんか今すげー大変なんだと実感してきた。
大変だぁ!!


2010/10/26(TUE)

気合入れ直して2日目。順調に気合が減っていっている。
というかさすがにいきなりやると疲れるな。続ければなんとかなるだろう。
朝がいつもよりちょっと遅いのは気にしない。夜更かししてしまってるのが一因になってるのは内緒。

で、今日やったこと。

  • 話題語関連
    • トレーニングデータの属性値の正規化メソッドを作成
      • この正規化の際の分母の値は、tool/Countのメソッドを利用
      • これに伴い、tool/Countを大幅にアップデート
      • しかし、テストをしようにもデータをちゃんとしてなかったのでできず=データ作り直し中
    • トレーニングデータの作成期間を設ける
      • configなどにも追加済み
  • 記事取得関連
    • ブログサーバーへの負荷の低減するために各ネットワーク接続終了時にsleep(1000)を入れる
      • 大幅に記事取得などの効率は下がった
  • 形態素解析関連
    • 数字のみの単語をカットすることに
    • 話題語として抜き出された段階で、副詞のようなものになっている場合があった
      • 候補として「名詞+名詞」を生成したあと、さらにそれをもう一度解析にかけて本当に使える単語か判定することに
  • 新研究
    • 論文読んだ(4ページのもの1時間、読みかけ)
    • 内容は論文メモ参照


なんかめっちゃ色々やってるやんwすげーw気合入りまくりんぐw
でも、何回もデータ作り直すのはいい加減やめたい…。
明日が講義があるし、今日みたいに多くのことはできないやろうし、できる限りで濃密にやっていくことにする。

で、明日やること。

  • UI作る
    • javascriptをちょっとがんばってみようか
    • 本の貸出期限を伸ばしてもらうのを忘れずに
  • 論文読む
  • データ作成の進み具合とか気をつける

まあ明日はこんなもんだろう。
あとプログラム関連でやるべきことは、別途机のメモ参照ってことで。


2010/10/25(MON)

気合を入れ直すことにした今日この頃。
まわりを見回すと、忙しいようで実際にはダラダラ違うこととかしてるやつが目立つ。
みんなそうなら俺もOK?っわけはなくて、みんなはみんな。オレはオレ。そう、よく考えたらいろいろ時間なかったみたいなんだよねー。
というわけで、一行目みたいな。

そして、今日やったこと。

  • 論文読む=サーベイ
    • 詳しい内容や感想は、論文メモ参照
    • のっけてないけど、ブラウザでちょろっと読んだものもあり
  • UI
    • HTMLとCSSについてかじる
    • divとかpとかいろいろわかってきた

言葉にまとめると少ないな。さすがに。
言うても論文は読むのに時間と精神力をかなり使うからしょうがない。だからあんまり好きではない。
でも今後の研究をうまく進めるためには我慢かな。

で、明日やること

  • 論文読む
    • 今日印刷したのとか
  • UI
    • CSSを重点的に
  • プログラム本体
    • 机のメモどおりに

なんかここに詳しいこと書くのが面倒になってきてしまった…。
詳しいことは別口でも書いてるからいいか。ここは日々の個人的な研究に関する日記ってことにしとこう。


2010/10/21(FRI)

プログラムをいじってしまった。
先輩に言われたののもあるけど、システムの挙動で一部おかしな部分があったのは否めないので今日はその対処を。

で、今日やったこと。

  • 形態素解析部
    • またメモリが異常に蓄積する現象が発生
      • cabochaの実行制限時間を設けることで対処(動作を完全に確認したわけではない)
  • その他意味のないメッセージの表示などを一部修正
  • 昨日の話題語抽出結果を受けてサーバー上のデータを総入れ替え
    • 今日から新たにデータ収集を続ける
    • URLは残っているので、過去のデータが完全に途切れるわけではない

ビデオ講義受けたあとにしたら結構やったほうじゃないだろうか。
だが足りないよねー。論文読んでないし。。。
あとで進捗報告も送らなければ。

で、来週以降やること。

  • SQL関連
    • 解析しなおしたデータを現在のSQLに差分で格納できるか実験
  • その他プログラムは机のメモのとおりに続ける
  • 新研究
    • とにかく論文読む

ゲームやってる場合じゃないよねー。もうわかってるけどねー。
やることそこそこやってるからいいやんもー。
とりあえず論文はさっさと読もう。つーか長いねんあの論文。ちくしょう。


2010/10/21(THU)

今日はなんだかんだで結構プログラムをいじってる時間が長かった。
いじった量は少ないけどねー。
論文もちょっと読んだくらいで、やりきった感とかは別にない。

で、今日やったこと。

  • トピック関連
    • 一連の抽出結果が出たので結果を検証してみる
      • 「ゎ」「ッ」などで始まるような単語アリ=プログラム中のフィルターを修正
      • 「ww」「kwsk」などのフィルターでは除去しきれない単語アリ=ストップワードに登録
      • 「ご飯みそ汁漬物」などの意味のない連続名詞アリ=記事抽出の際の文章の区切りに空白(全角、半角、タブ)を追加
    • 記事抽出からやり直してみる
  • 新研究
    • 論文読む(2時間で10ページくらい)

今日はなんだかんだで違うことしてる時間も多かった気がしなくもないけど、そんなことはない。
まだまだやり足りないよな。もっとしっかり集中できるようにしていかなければダメな気がする。追い込みすぎもダメな気がする。
ほどほどにしよう。

で明日やること。

  • トピック関連
    • 実行結果を検証(終わってれば)
  • 新研究
    • 論文の続き読む
    • 進捗報告メールを出す

明日はビデオ講義があるから今日よりもなにもできない悪寒。
とりあえずやることやる。


2010/10/20(WED)

今日は朝に授業があったこともあってか…ではなくてこずってしまってあんまり進んでない。
SQLはかなり手探りでやったからかなり中身を複雑にしてしまった。もう組み直すのはだるいのでがんばって使いこなす方向で。

で、今日やったこと。

  • SQL関連
    • データの追記メソッド完成
      • 動作実験はまだ
      • 現在ローカルにて動作実験のためのデータ作成中
        • 登録したものよりも新しい記事データの取得解析
  • Dateなどのクラス、メソッドでの各種バグフィックス

いろいろと自分の設計ミスが響いた昨日今日だったな。
次にする部分はもうちょっと軽やかにこなしていきたいと思うが、他のやることもあるので今週はもうちょっと優先度を落としていくかな。

というわけで、明日やること。

  • SQL関連
    • 追加型メソッドの動作実験
      • ちゃんと追記できてるかを確認するようにテーブル全体を出力させておくなどする
  • Topic関連
    • 現在動作実験を進行中
    • 実行結果を検証する
  • 新研究
    • 論文読み進める

論文サーベイ全然やってないからねー。さっさとやるべ。
つーか、今更やけど今の状況はあまり好ましくないなぁ。やってもやっても何も終わらない。
モチベーションがああああああ。
っていうけど、結局やらなあかんねやし、やらな終わらんし、とりあえず、やろ。


2010/10/19(TUE)

また気づけば2週間近く放置していたようだ。
途中バグフィックスとかいろいろ細かいことしてたけど、メモってなかったのが実状ですが。
今日は気まぐれに説明会のあとに研究室来るとかしてみて自分の中だけでがんばった感があるな。自己満足万歳。

で、今日やったこと。

  • SQL関連
    • ブロガーのデータベース作成部分で以下のようにすることで効率化を図る
      • 初期化時には既にあるテーブルは処理しない(テーブル作成を最優先)
      • 追加のメソッドで既にあるものに関してのみ、未登録の日付のデータの処理を行う(データ登録最優先)
    • カテゴリーデータベース作成部分でカテゴリのテーブルに既に登録したもののリストを作成するように
      • テーブルを見ただけではどれを登録したかわからないので

少ねー。やったことほとんどないやん。
さっきまでのがんばった感がただの疲労感に早変わりやな。

ともあれ、重要なアップデートであることに変わりはなく。
カテゴリのテーブルについての追加処理をどうするかをちょっと考えないといけないみたい。
処理の効率化も考えながらするとなかなか進まないのー。

てことで明日やること。

  • SQL関連
    • カテゴリーのテーブルの追加処理を作成
    • それに伴うconfigの変更なども随時
  • 新研究のサーベイも

つーかTOEICやる暇ねー。なんかお金の無駄になる気がしてきた。
夜にニュースの英語流し聞くだけでは限界どころか、ちょびーーーーーっとの足しにしかならんよなー。
どないしよ。


2010/10/6(WED)

気づけば半月以上経っている。
その間遊んでいたってのが大半やけども、それでもプログラムなんも触ってなかったw
で、今日は久々に触ってまあまあ思ったより進んだみたいな感じで自分でもびっくりwしかし、そんなには進んではいないっていうね。

で、今日やったこと。

  • トレーニングデータ作成部
    • ラベルあり、なしで作成するメソッドを変更
      • 正例+ラベルなし、負例というメソッド構成に
      • このほうが、手法に則っててわかりやすく作りやすかった
    • 範囲指定なしでの全体での作成メソッドとして完成
    • しかし、まだ結果を標準出力で確認しているだけで、ファイルにまとめたりはしていない

2時間ほどしかしてない中でこれならまだ上出来だな。
ちょっと新研究のための論文のサーベイやら講義始まったりやらでまとまった時間とるのは無理だろうと思うのでこんな感じでだらだら進めていこうと思う。
しかし、ちょっとプログラム以外の決めなあかんことをそろそろ決めないとまずい。カテゴリってやつだ。適当でいいかなー。

とりあえず、次回やること。

  • トレーニングデータを作成する日付の範囲を指定できるようにする
    • 現在は全体のみのため狙って作れない
    • 量が膨大になってしまう
  • 意味のなさそうなトレーニングデータを作らない
    • 出現回数が0のものとか
  • 話題語の分類のやりやすいUI作成
    • そろそろ管理ページを作成するくらいはしたほうが作業効率的にも必要
    • できたら、ブロガー分類のところも作る

そろそろ大詰めな感は出てきているので慎重に行きましょう。
そしてそろそろいい加減にUI考えないと。外注もできなくなっちまうよ…。

それよりも新研究になりそうなことが思ったより楽しそうでそっちやりたくなってしまうw
にしても、複数の作業を並行してやるってのはやっぱしんどいもんやなー。PCのマルチコアってすげーなー。


#bf
名前:
コメント:
最終更新:2010年12月21日 20:24
ツールボックス

下から選んでください:

新しいページを作成する
ヘルプ / FAQ もご覧ください。