修士編(5月〜)

Today's Access -
Yesterday's Access -

研究日誌の修士編。
なんかつけてないと、いつも何してたかやっぱわからん。
ダラダラして時間を無駄にするよりはマシか。


2010/9/15(WED)

今日は一日進捗報告会の資料作りをしようと思ったけど、あんまり気合入れて説明してやっても無駄だと思い直してまた適当にしたった。
そしたらほぼ午前中で資料ができあがってしまうという…。雑誌会もあったはずなのにw

というわけで、急遽今日もプログラムをすることに。
短い時間だったがいろいろつくった。なかなかよい進み具合。

で、今日やったこと。

  • トレーニングデータ作成部
    • すべての属性値を返すメソッドを作成完了
      • 速度に多少の問題あり
      • 十分な動作確認はまだ
    • 以前のものと同様にそのデータの根拠になる日付などもコメントで入れることに
  • その他の補助的なメソッド
    • ストップウォッチを作成
      • 各トレーニングデータ作成時にどこを高速化する必要があるなどの解析に使用
    • データベースの指定したテーブルの中身をリストで返すメソッドを作成
      • テーブルの中身をcsvで保存でき、中身の確認やトレーニングデータの値の確認に有効

おお。いい感じやん。今日はなかなか有意義な感じがするw
とはいえ課題はまだまだあるな。
一つのデータを作るのに9秒程度かかるというのはちょっと遅いな。もうちょっと早くしたいが。
それから、まだデータの正規化には手をつけていないのでそれも早く作らないと。

ともあれ、明日以降やること。

  • データの正規化メソッドの作成
    • 速度に留意
    • コンストラクタなどで先に計算しておくとかがいいかも
  • データ作成の高速化
    • するべきものは机のメモに記載

とりあえず最重要なのはこの2つ。
高速化に関してはおいとくかもしれんけど、正規化のためになんか時間かかるかもしれんかったら考える必要があるだろうな。
ともあれ今日はまた東京へ行く。そろそろしんどいので次に行くのは本面接とかのときにしようと思う。
なるべく関西のを受けることにしよ。金の話もあるし。いろいろうざいし。


2010/9/14(TUE)

今日はなんだかんだがんばりながらも他人の世話なんかもしつつ雑談もしつつで進んだり進まなかったりラジバンダリ。
ともかくも進んでいるのは事実で、前よりだいぶ性能的にはいいものになってるはずなので、今後の本実験のときに期待。

で、今日やったこと。

  • SQLへのデータ導入時のメモリの問題を解消
    • 毎回Tableをnewしていたのがまずかったらしい
  • 話題語分類のためのトレーニングデータの作成を進める
    • 連続登場回数のもの以外をすべて作成
    • 動作実験は不十分か

SQLのデータ挿入のところのメモリ消費をかなり低く抑えられているのはかなりよいことだ。
最高での30MBほどしか使わないというのはちょっと予想よりも低い値でちょっとうれしかったりwラジバンダリw

トレーニングデータ作成の部分もまあ順調で、とりあえず大元のメソッドがほぼ完成しつつあるというところで。
しかし、DBに表がなくて例外をスローされたりといったときの対処がまだまだ不十分だろうと思うので今後の動作実験に要注意だ。
この動作実験のときも動作確認しやすいような擬似的なデータつかったほうがいいかもしれんな。少なくとも今格納されてるデータがいったいどんなものになってるのかを確認するようなものは必要になるだろうなー。

というところで、明日以降やること。

  • トレーニングデータ作成部を完成
    • 完成次第動作実験
    • それが終われば、ラベルつけのインターフェースを考える
  • UIも徐々に考え出す

とまあどんどん続きをしようねってところで。
でも、来週ある進捗報告会のための資料作りを明日はしないといけないな。もう明後日からあんまり時間とれんしな。
さてちょっとがんばることを最近忘れていたみたいなので気合を入れ直す。ていうか入れる。
気分的には夏休みは終わってるくらいで。たるんでちゃダメだな。


2010/9/13(MON)

来週再来週はいろいろと忙しくて作業する時間がとれないのは明らかなので、この3日間をがんばることに決めた。
で、今日はちょっとがんばってみたがややこしいところなので思い通りに進まず。
でもちょっといい形になった部分もあるので悩んだ甲斐はあったかな。

で、今日やったこと。

  • SQL関連の修正
    • ブロガーのデータ登録時にメモリ使用量が蓄積していく問題の解消に取り組む->未解決
  • 話題語分類部
    • トレーニングデータ作成部に着手
      • トレーニングデータにまとめる部分と属性値を返すクラスを別々にして見通しをよく
      • 随時必要なメソッドをsqlに追加

まじ少ねぇ。もっとスピードアップしたいけどきついな。オレの能力では…。

SQLへのデータ登録時のメモリ蓄積がどうして起こるのか全然わからん。リストとかはきっちりクリアしてるし、データベースとの接続もその都度きってるはずなんだがな。
明日はもうちょいデバッグツールとかjconsoleとかきっちり使って分析していくしかないかな。誰かいい方法知らんかね…。

ということで、進まないから話題語分類のほうに取り掛かることに。
トレーニングデータを作りやすく、早くなるようにデータベースにしたけどある程度ややこしくなるのはしょうがないかな。
しかし、値の参照はさすがにファイル読んで検索するよりは格段に早い。けど、データ量が膨大になった場合を考えると結構微妙なところもありそうだ。
さらに必要なデータをまとめておくテーブルとかデータベースとか必要な気がしてならないな。

ということで、明日やること。

  • SQLへのデータ登録時のメモリ蓄積バグの解消
  • トレーニングデータ作成部の作成続行
    • 実行速度に気をつけて
    • エラー、スローの回避などの例外処理も

明日は今日の延長で。今日でだいぶ方針やらが見えてきてるのでそれをきっちり形にしてバグが出ないようにしていかなければ。
詳しい作業注意事項などは別ページ参照で。

明後日は進捗報告会の資料を作ることにする。
今度はどれくらい適当なもので行くかすごく悩ましいところだな。


2010/9/8(WED)

今日はちょっと自分のプログラムを見直したりで思ったより進めることができなんだ。
今後の方針というかプログラムの仕方をしっかりと考えていかないとこけそうな気がしてならん。
なんかようわからんけどいろいろ差し迫ってるような感じを最近感じ始めててなんか落ち着かんのに作業が進まなくて軽くイラっとして作業が進まなくて…という最悪な悪循環中。
でも毎回同じ結論やけど、とにかくやるしかないんだよな。

で、今日やったこと。

  • Categorize関連のちょっとした修正
    • 学習済みデータをバックアップを毎回取るようにした
      • 不具合などがあった場合に昔のデータにすぐに変更できるような形に
    • ラベル付けインターフェースで途中までの入力しかしなかった場合にできる中途半端なファイルを削除するように
    • ブロガー分類のあらゆるメソッドを標準入力から選択式で実行できるように
  • SQL関連の見直し
    • 忘れてること請け合いw
    • ブロガーごとに格納したデータをまとめるメソッドを作成
      • テーブルからテーブルに移す形にしたのでブロガー->カテゴリ->トータルの形で実行可能

次につながる形でのプログラムができたしいいんじゃないでしょうか。
とりあえずSQL実行してるときにもメモリ使用量がどんどん蓄積していくのがまたあったりいろいろ見えてきてるのでその解消も視野に入れなければ。
やることが減らないなorz

で、明日やること。

  • SQL関連のメソッドの動作確認
    • メモリ使用量蓄積の問題を解消
  • 話題後分類のトレーニングデータ作成部に着手
    • できればいいなぁ

とりあえずSQLとちゃんと連動できてることや、メモリの消費量が増えてheapSpaceErrorがもう出ないようにとかしないと。
運用に支障が出てしまうからね…。

ここにきて思うんやけど、こんなにきっちり組む必要があったのかすごく疑問になってきた。
オレ修論書けるんかな…。


2010/9/7(TUE)

今日は昨日からのPCのアップデート作業の最後をやって環境改善が完了した。
eclipseの調子が悪くてやりづらかったし、いろんなところがよくなったのでよし。一日かける価値があったと思う。
で、今日はまためんどくさい話もあって思ったより進まんかったな。台風も来てるし・・・。

で、今日やったこと。

  • ブロガー分類
    • ラベル付けしたブロガーのラベルなしデータを削除するように
    • 学習と分類の実行クラスを作成
  • 形態素解析
    • cabocha関連のクラスの実行時間が長くなった場合にメモリ使用量が蓄積する問題を解消

ってやったこと少なw
朝はアップデート作業して、夕方からはめんどくさいことしようかとかしてそらあんま時間とってないから当たり前か。
最近まとまってちゃんと時間とってないな。これじゃ進むもんも進まん。
いっぺんちゃんとせなあかんな。がんばろ。

だがしかし、明日やること。

  • SQLのメソッドの動作再確認
    • 話題語分類クラス作成のためのチェック
  • 話題語分類部の作成に着手
    • ブロガー分類部のクラスを参考に
      • ラベル付けのインターフェースなど

やっとここまで来たかという感じだが、細かいところで詰めてなかったり完成はまだまだかかりそうな予感w
早くしろとか言われるんやろーな。やってみろっちゅーんじゃw
とりあえずやるしかねぇな。まずは時間つくろ。


2010/8/31(TUE)

今日も集中講義を受けた。だが、ちょっとプログラムを進めた。
負けるとわかっていた麻雀をするために時間をつぶしていただけですがw

でだ。今日はそこそこいろいろと進んだ。
ってことで今日やったこと。

  • トレーニングデータ作成部を修正
    • トレーニングは名詞のままではできないことを忘れていたw
    • TFIDFのデータを使うようにラベル付きもラベルなしも修正
  • ブロガー分類器を作成
    • 動作の十分な確認はまだ

書いてみると少なく見える。が、結構苦労した感があるな。
最低限の機能は既にあったものでつくりこんだし、あとはちょっとしたデータの整合性とか処理の最適化をするだけか。
まずは思いついているところだけでも進めていかなければ。誰かが影でうるさいしw

で、明日以降やること。

  • トレーニングデータ作成部
    • ラベルなしデータをすべて作成後にラベル付きデータを作成した場合にラベルなしデータから該当データを削除
  • ブロガー分類器
    • 細かい動作実験
  • 分類カテゴリを考える
    • あまり多くならないように

あとはちょいちょい使っていって不都合出てきたとこを追加、修正するって感じで・・・まあいつもどおりにね。
でもま、インターンもあるので今週はもう進まんだろうな。
来週のお楽しみに。


2010/8/26(THU)

今日は集中講義があったのでそんなに進まなかった。
作業したのは午前中だけやしね。1週間くらいはそれが続くと思われる。
できるだけ進めましょう。

で、今日やったこと。

  • ブロガー分類のラベル付きデータを作成するフォーマットをほぼ完成
    • あとはカテゴリID以外の数字を入力したときの処理を細かく
      • nullurlとして保存とか
    • 既に分類済みのブロガーを無視するなど

とまあこんなもんだな。
午前中2時間くらいなのでね・・・。

あと、ラベルなしのデータ作成部とか細かい調整も必要だろうと思うので、ブロガー分類のデータ作成部にはもうちょっと時間かかるかもな。
確実に進めましょ。

で、明日やること。

  • ラベル付きデータ作成部
    • カテゴリID以外の入力に関する部分の作成
    • 分類済みブロガーの処理について見直し
    • 動作実験
  • ラベルなしデータ作成部の作成

また時間はないのでできるだけ、ということで。


2010/8/25(WED)

今日は昨日よりは真剣に作業した!
ちょっと考えることも多かったので作業量はまたそこまで多くない。なんか言い訳じみてきたな・・・。
次の作業ではもうちょっと前ほどの真剣さになるようにしなければ。

で、今日やったこと。

  • 形態素解析部のバグ修正
    • 句点で区切るのを導入したときに、一文ずつarffに書き込むようになっていたのを修正
    • 形態素解析時に非自立のものを削除するように
    • ストップワードリストから具体的に不要語を指定できるように
  • 話題語抽出部
    • パラメータ設定を一部configからできるように
  • ブロガー分類部に着手
    • 基本設計を構想、メモ
    • 手動でのラベル付けインターフェース部作成(未完成、未実験)

なんか昨日よりはいろいろやってるみたいだ。一安心。
このブロガー分類さえちゃんとできればもうほぼできたようなもんなんやけどな。
まあ話題語分類がまるまる残ってますがw

精度改善と手法交換を容易にできる形にもっていくのが大変なんだよなー。
わかってくれない人もいるけど。
しかし、ここにきて実感してるけどソースいじらずに設定ファイルからパラメータ設定できるようにしたのは正解だったな。
ディレクトリ構造とかのメモにもなるし、一石二鳥どころではなかったな。

うーん。今度の進捗報告会ではこのあたり本気で主張したろかな。

でもま、とりあえず明日以降やること。

  • ブロガー分類部の作業を続行
  • 実行中の形態素解析部の実行結果を見て、サーバー上での実験へ以降
    • 現在進行速度は一晩で900人ほど

形態素解析の実行速度はもっと早くしたいけど、どうしたもんかな。
動作安定が最優先やしな。
ほんまに遅いようなら実行対象期間を指定できるようにするべきなんやろうな。まあそれはおいおい。

さすがに最近だらけすぎな気はするので気合を入れていきましょう!
ほどほどにねw


2010/8/24(TUE)

今日はちょっとがんばったかも。
言うても進み具合は遅い、っていうか精度上げようと思ったらいろいろ考えながらやし、コードが進むの遅いのは当たり前かな。
まあ実験待ちの部分もあるのも遅い原因かと。

とりあえず、今日やったこと。

  • 形態素解析部の精度改善
    • ストップワードフィルタの作成
      • 実行結果をざっと見て作成
      • 「ー」(ハイフン)だけのものは削除
      • 「ぁ」などの全角小文字だけのものは削除
    • 記事の各文章を句点で区切り、文章ごとに解析器にかけるように変更
  • データベース部
    • テーブルの初期化メソッド

なんかやっぱりあんまり進んでないように見えるorz
実際やるのには結構考えたりで時間かかったしな。これで精度改善せんかったらもう…ね。

とにかく今はコードのバグチェックと精度向上のための実行実験が最優先やししょうがないかな。

で、明日やること。

  • 実験結果が出ていれば、結果を見てコード修正
  • ブロガー分類部に着手
    • 詳しくは、作業予定参照

まあ、順にやっていくしかないよね。
てか気まぐれにコードの行数調べてみたらここまでで7000行なかったよw
なんかあんまり書いてなかったのかという落胆と、短くするように書いた成果だ!といううれしさで、なんか複雑や。


2010/8/23(MON)

今日はほとんど雑談しかせんかったが、久しぶりに研究室来たしこんなもんかなー。
とか言うてる間にまた集中講義始まるし、プログラムしてる時間なんかないけどな!

でもま、とりあえず今日やったこと。

  • サーバー上のプログラムを監視
    • まあうまくいってるみたい
    • install.shにconfigとbloger.txtのバックアップからアンインストールと新規インストールをするように改良
    • daily.shで毎日過去のURLを回収するように変更
  • Count.javaを改良
    • 収集済みの記事の数を数えてcsvで出力するように
  • サーバー上の記事を形態素解析にかけてみる

とまあやったことは少ない。まあよい。
動作実験が最優先やし、これでうまくいけば実験データをどんどん蓄積していけるってもんでいいことじゃん。
まあ進捗遅いとか誰かに言われたし、ちょっとずつでも進めていくさ。

で、明日やること。

  • 形態素解析の結果を観察
    • 変なものが出ていないか
    • ストップワードの候補になりそうなものをピックアップ
  • 話題語抽出の部分などの見直し

まあ明日は経過を見てやるしかないので、今のところこんなもんしかいえないか。
とりあえずこれからちょっとプログラムの時間を取れそうにないのでできるだけ進めておくかな。
あーめんどー。


2010/8/5(THU)

今日もダラダラやってた。
つーか今やってるとこがモチベーションあがらんような機械的で無機的でどーでもいいとおもいきや重要なところで…
要するに面倒なんだよw

早く次に行きたいし、行くべきだが、これがちゃんとしないと次に行くべきでもないというか…
やはり面倒だよw

で、今日やったこと。

  • バグチェック
    • いろいろと
    • 特に、TFIDF値の計算部分で素性選択ができんかった -> しないという方向で解決
  • 話題後抽出部分が一応完成
    • しかし、精度に難あり
    • 不要語が明らかに多い

今日やったことがあまりに細かくて、細かく覚えていないので「いろいろと」に凝縮しておく。
基本的に今まで作ったプログラムの動作確認をずっとしていたというわけだ。
で、そのときのバグチェックをしていたと。

ていうか、話題語の抽出は前のときもそうやったけど不要語とかギャル文字とか入りすぎてる。
やはりストップワードリストを最優先にするべきであろうか。

ということで、明日以降やること。

  • 発表
    • てけとーに
  • ストップワードリスト作成
    • 現在抜き出してある話題語からいくつか抜き出す
    • 単語一語などの明らかなノイズも
    • できたらノイズ語リストとストップワードリストは別にしたほうがいいかも -> 完全なマッチングか、正規表現のマッチングかの違いで

ちょっとやることがやはり面倒だ。
でもこれちゃんとやればかなりいいデータが出来上がるはずだ。
まあ、のんびりやるさ。


2010/8/4(WED)

ちょっと元気出てきた。
やっぱ引きこもってばかりはダメとわかった。が、出すぎもよくない。何でも適度なのが大事だ。

しかし、今日なんかいろいろやったかといわれるとそうでもない・・・。
まあでもとりあえず、今日やったこと。

  • サーバー上で動作中のプログラムを監視
    • なんかプログラムの動作がめちゃくちゃよくなった・・・なして?
  • ここまでにできたプログラムをちょっと見直し
    • TFIDF値計算部分に最低出現単語数のパラメータを追加
    • 話題候補抽出の実行部分を作成 -> 未完成
    • 形態素解析の部分でちょっとしたバグを発見 -> 未修正
  • jconsoleというものを知る
    • サーバーで動作しているプログラムもこれで常時監視できる!

めんどくさいことをずっとやってたわけで、あんまり進んでない。
進まなくても気にしない。
明日はもうちょいまともにプログラム進めようと思う。予定ですがw

てことで、明日やること。

  • 形態素解析のバグを修正
  • 再び話題後抽出までのプログラムをテストする
  • 話題後抽出部分以降のプログラムを進める

うん。なんか気合入った感じになってきた。・・・と思う。
自分があんまり気合は入ってませんが。

うーん、テンション上がりきらんなー。どこかにいいことないかなー。


2010/8/3(TUE)

今日は研究室にいた。
まあ淡々と作業していましたが、まあ進捗報告会のめんどくさそうなこと。

で、今日やったこと。

  • さらにバグ修正
    • RSSの保存ファイル名が間違っていたのを修正
  • 新規ブロガー取得部分を作成
    • ファイルに元になるURLを記述してそこから取得してくるように
    • 追加はすべてbloger.txtに行う
  • 発表資料完成

サーバーで動かしてたプログラムが止まった。
エラー内容とかでいくつか解決策をうったので、まあなんとかなるやろ。
今日作ったプログラムの動作とかも明日を楽しみにってとこで。

あと金曜の発表の資料は適当につくったけど、話をだらだらやったら10分弱になるやろ。

で、明日やること。

  • サーバーのプログラムをチェック
    • 必要ならバグを修正
  • トレーニングデータ作成部分に着手
    • 学習器を先に考えた方がいいか?

やっぱり淡々と進めていくしかないよな。
家でもできることやればちょっとずつでも進むし…。
あれ?研究室行く意味なくね?


2010/8/2(MON)

今日は引きこもった。
最近テンション低い。夏バテではない模様。原因不明。でもやることはある。やる。だるい。テンション下がる。以下ループ。
で、やってることはある。

てことで、今日やったこと。

  • レポート3つ
  • 家での作業環境整備
    • fuseを使用可能にし、sshfsで2重マウントできるように
  • 仕様変更に伴うバグの修正
    • 記事URLの保存形式を変更したことによってRSSによる最新記事の取得に失敗していたものを修正
    • 新規ブロガーを取得するプログラムのためにRSSのURL取得部分を独立させる
  • 研究室のパソコンで自動でプログラムのソースをバックアップするように設定

いうてあんま進んでない。
でもいい。別にいい。進まんよりまし。

で、明日からやること。

  • 新規ブロガー取得部分を作成
  • トレーニングデータ作成部分を進める
  • 金曜の発表資料作成

まじで気まぐれの発表だるい。
あいつなんとかならんのかな。


2010/7/22(THU)

期せずして毎週木曜更新となりつつある日誌。
なんでって、木曜しか作業してないからやけどw

で、今日はなんかがんばった気がするんやけどあんまり作業が進んでないと感じるよくある日。
まあとりあえず今日やったこと。

  • TFIDF算出のクラスを作成
    • 以前のものを流用した結果スムーズに完了
    • が、変換対象のデータをつくることができていないことに気づく
  • 各ブロガーで日付ごとに保存した名詞のファイルから必要なファイルへ結合するプログラムを作成
    • 日ごと、週ごと、月ごと、年ごと、ブロガーごと完成
      • ただし、週ごとはちゃんと実験してない
    • この作業に伴いDateを大幅に追加修正

こう思うと結構やったことは多い気がする。
成果もそこそこやし特につまってないし万事おk!?

ていうか、気まぐれにプログラムが今全部で何行なのか数えてみたけど10000行軽く越えてた…。
空白とかコメントも含めてますがw

でもまだまだ終わらない。ちくしょー。
で、明日やること。

  • 木1のレポート
  • 水3のレポート

ということで、明日はレポートの日にします。
ああ夏休みなれー。ならへーん。


2010/7/15(THU)

今日はレポートとかもやりつつ、進捗報告の内容作りのためにちょろっとがんばったw
ていうか、思った以上にスムーズにいった部分が多くて自分でもびっくりだw
いろいろ勉強して準備しとくもんだな。

で、今日やったこと。

  • novaへのプログラムの移行作業完了
    • 各プログラムの動作確認
    • mysqlの初期設定完了
    • cabochaを導入完了
  • sqlのプログラムの単語登録部分を設定

cabochaがemergeできるとはしらなんだw
しかもちゃんと動くし、プログラムでもちゃんと動いてるみたいやった。
なんかもっと時間かかったりいろいろするかとおもったのは取り越し苦労だったようで。

でも、まだまだ終わらない作業w
これからすべきことは前回分のやることのコピペw

という次にやること。

  • データベース上のデータでもって、他のデータベース生成
    • ブロガーごとのデータから、「カテゴリごとの出現頻度」と「全体での出現頻度」を作る
  • トレーニングデータを作るプログラムに着手
    • カテゴリ分類
    • バースト予測
  • 単語の出現頻度のグラフ化

来週はレポートはそんなないはずやし、結構進めるはずだ!
・・・・・・オレのモチベーションがもてばなw


2010/7/8(THU)

今日はプログラムに熱中しすぎて授業の存在を授業がちょうどおわったくらいに思い出した。
ちょっとやりすぎたorz
でもまあかなり進んだのでおk。目標のところまでとりあえず到達。

てことで、今日やったこと。

  • 記事本文ファイルから形態素解析によって名詞を抽出するプログラム完成
    • 抽出した名詞はそのままarffファイルにして、すぐにwekaで使える形に
  • wekaを利用した名詞のカウントをするプログラム完成
  • 名詞のカウント結果をデータベースに格納するプログラム完成

書いてることはだいぶ少ないけど、かなりやったった。
たぶん去年は上2つで1月はかかってた気がする。
予備知識とかあると全然違うのな。

で、ここからが一番の問題になってくる。
明日はプログラムする時間ないし、どんな風に組んでいくかじっくり考えておこう。

で、来週以降やること。

  • サーバー上での運用実験
  • データベースから任意のデータを取り出せることを確認する
    • できたら、サーバー上で集めたデータで実験してもいいかも
  • データベース上のデータでもって、他のデータベース生成
    • ブロガーごとのデータから、「カテゴリごとの出現頻度」と「全体での出現頻度」を作る
  • トレーニングデータを作るプログラムに着手
    • カテゴリ分類
    • バースト予測
  • 単語の出現頻度のグラフ化

こうして見るとなんにも進んでない気がするorz
ああーいつになったら終わるねん・・・。


2010/7/7(WED)

今日もプログラムしかせんかった。
授業は休講で作業はかなり進んだ気がする。

で、今日やったこと。

  • データベース関連のクラスが暫定的に完成
    • 形態素解析後のデータの形式が定まってないので、そこだけ未完成
    • 最終的にデータベースをいくつ用意するかもの未定
      • blogerごと、カテゴリごと、全体
  • 形態素解析のクラスに着手
    • データの保存仕様を定める

書いてみると少ない気はするけど、結構書いたと自負しています。
で、データベースが使ってみたくて先にこっちやってたけど、解析したものがないとできないことに気づいて解析を始めましたw
とりあえず、ここからは去年作ったソースを参考にしながら作っていきましょう。

で、明日やること。

  • 形態素解析後のデータの保存仕様決定
  • 保存仕様に則ったプログラムの作成
    • データの重複、冗長化、肥大化を考慮する

いうてもやることは去年のを綺麗に整理するみたいなことなので、このほうが面倒なんだよねー。
いつものとおりだが、まあ進めるしかねえか。


2010/7/6(TUE)

今日は久々にプログラムだけしていた。
授業の課題とかやるよりこっちのほうが断然楽しいなぁ。
いい感じの疲労感だ。

で、今日やったこと。

  • 記事本文抽出時のバグを修正とちょい変更
    • 以前出ていたエラーで止まる部分にtrycatchを追加
      • まだ実際にうまくすり抜けるかわからんのでこれから見守る
    • 記事本文抽出を既に抽出済みのものからしていたものを修正
      • 本文抽出対象のURLを未取得と取得済みに分けて保存しなおす
  • データベースを扱うクラスを作成中
    • テーブルクラスを作成し、大体の骨組みは完成
    • データベースの仕様を少し考えた

3限があったわりには結構進めたな。よかった。
まあでもまだまだ終わりそうにないのなぁ。レポートなんてなければいいのに。

で、明日やること。

  • 記事本文抽出時のエラーが出るかチェック
  • データベースの仕様を固めて、テーブルクラスを完成させる
  • cabochaを導入して、サーバー上で形態素解析できるように

まあ細かいやることリストは他ページ参照ってことでいいだろう。
とりあえず、ちょっとずつでも進めていかねば。
ほんまに論文とか出せんのか?


2010/7/1(THU)

気づけば7月になった。
早いもんだ。もう1年が半分以上過ぎたのか!就活だりー。
で、課題が一段落した今日、今週の進捗は全くなかったのでちょっとやることに。

で、今日やったこと。

  • 演習の課題
  • 授業の資料作り
  • データベースの扱い
    • データベースでの文字コードの設定
    • Javaからデータベースを扱うプログラムを開発開始

実に少ないが、明日は1日講義があるし今日はもうこんなもんで。
以前データベースの文字コードに四苦八苦してたのに、今日検索したらすぐに出てきたとこで速攻解決。
な…なん……だと…。
で、開発は順調に進みそうです。サーバー上でどうなるかが楽しみだ!

そして、今後やること。

  • データベースの仕様を考える
    • 保存するものは以下
      • 単語
      • 日付ごとの出現回数
    • テーブルをブロガーごとに作って、この出現回数をインクリメントできるように
    • 新規ブロガーを追加できるように(新規にテーブルを作る)
  • 仕様に乗っ取ってJavaを組んでいく
    • wekaでの単語のカウントを行うので中間ファイルの読み込みなどを考慮

実際にやるべきことは別ページにも書いてるのでここではこんのもんで。
サーバー上でやるのが一番の問題だが、そのテスト用のプログラムを書くべきなんだろうな。
ガンガン解析して、逐次入れていくとかできれば最高やし、頑張ってみる。
そして、6月中にプログラムができるわけがないのであった。


2010/6/18(FRI)

今日は退屈なビデオ講義の日でした。
もう一つ目のビデオではオレ以外全員寝とったw
無理もないけどなw
しかし、おもんなくて見る気も失せる内容で課題だけは2人前以上出しやがるのは正直うぜぇw

で、やる気と体力ないわりに今日やったこと。

  • ビデオ講義聞く
  • プログラムをちょっと組み直す
    • cornと連携させてみた
      • 日ごとにRSSを取得して、最新記事URLを更新する
      • 週ごとに全体の記事を取得して更新する
    • URLの取得などを、configから数の上限を定めるなどの設定をできるように

ちょっと思いついたからプログラムいじってたけど、実際そんなんしてる場合じゃねぇw
これ書いたあとに雑誌会の発表資料まとめようと思ってるけど、正直だるいしやらんとこかなー。
しかし、困るのは自分なわけで…。

とりあえず、来週以降やること。

  • 雑誌会の発表資料作成
  • cronの調子を確かめる
    • ちゃんと実行されて、データが更新されたか確認
    • 実行順序の再考
      • 今回は動いてくれるかってのの確認が最重要

ではまあ雑誌会をがんばりますか。
あー体力が欲しい。


2010/6/9(WED)

今日はずっと論文を読んでいた。
なんかもう読めてしまったので、さっさとやれることを進めていこうと思う。

で、今日やったこと。

  • 論文読む
  • sugarのインストール

なんかやったこと少ない感じするが、まあ論文ずっと読んでたしいいか。
てか、まだまだ英語読むスピードに不満があるなー。
もっと英語をがんばらんとw

sugarはとりあえず動かせるようになってよかった。
なんかここに来てlinux勉強しといてよかったと思ったねw
たぶんやってなかったらインストールできんかったな・・・。

ともあれ、明日やること。

  • 雑誌会の発表資料に着手
  • sugarでやる課題考える

あんま今日と変わらんというか、その続き。
少しずつでもやれることをやるようにしよう。


2010/6/2(WED)

今日はやらなくていいことを延々やってしまった。
先輩の雑誌会の発表でおもしろそうだと思ったところをずっと勉強していてしまった。
おかげで、やるべきことがまったく進んでいないw

一応研究とは関係あるし、いろんな誤解とか謎とか解けたしよかったといえばよかったが。

で、今日やったこと。

  • ディリクレ混合分布を勉強した
    • ノンパラメトリックについての理解をだんだんと深めつつある

やべぇwこれしかやってねぇやw
というか、今日の先輩らの話とか聞いてても全然ついていけてない自分にがっかり。
まだまだだとは思っていたが、やっぱり全然足りないらしい。
ちょっと時間が足りん気しかせんけど、やるだけやっていかねば。

で、明日やること。

  • 雑誌会用に論文読む
    • できる限りさっさと終わらす
  • mysqlの日本語入力に関する整備
    • 本とか借りに行こうかな
  • プログラムのモジュール化
    • sqlにつまったらこっちかな

まあ、昨日のやつのコピペですがw
できるかぎり迅速に進めていきましょう。


2010/6/1(TUE)

6月になった。いつのまにか。

よく考えたら俺って実はめちゃくちゃやることが多いんではないかということに気づいた。
ということで、また朝から夜まで研究室にいる生活が始まる予感!
ていうか、今日から始めてしまった…。そんなに遅くまではいないが。

様々な阻害要因がありつつも、今日やったこと。

  • 雑誌会の論文探す
    • 正直時間がないので、簡単そうなやつ
    • きみにきめた!
  • javaでmysqlを使ってみる
    • 日本語のデータ入力がうまくいかない
    • 完全に文字コードの問題なのだろうが、さっぱりだ

と、いうわけで雑誌会用の論文探すのに時間をかけすぎた。
正直今はまじでいらん子な雑誌会。
俺に時間をくれ。

なにはともあれ、javaでmysqlを扱うというサンプルまで動かせたのでなんとなくプログラムのイメージは膨らませることができるかもしれん。
が、日本語のデータが入力できないとお話にならないので早急な解決をしなければ。
本当はプログラムのモジュール化が先やけど、中途半端やし続ける。

で、明日やること。

  • 雑誌会用に論文読む
    • できる限りさっさと終わらす
  • mysqlの日本語入力に関する整備
    • 本とか借りに行こうかな
  • プログラムのモジュール化
    • sqlにつまったらこっちかな

友人からは「よく考えなくてもお前は忙しい」というようなことを言われた。
自分で選んだとはいえ心が折れそうだ。


2010/5/27(THU)

今日からまた研究日誌をつけていこうと思う。
研究した日だけになるとは思うが…。

とりあえず、今までにやったことを買いていってみる。

  • ブログデータベース構築プログラムの作成
    • 今回はHTMLパーサを使って作った(jericho)
    • 記事URL抽出と記事本文抽出は完成
      • しかし、モジュール化などはしていない
    • 現在サーバー上で動作実験中
  • 論文を読んだり
    • TOT(Topics Over Time)を読んでみた
      • コーディング予定
    • 時系列の特徴を使う論文を探索中(時系列で分類とかでもいい感じかも)

こうしてみると、この2ヶ月俺はなにをやっていたんだ…とふと思ったが、んなこたねぇよw
授業もあるし、レポートもあるしでそれなりに忙しくしてたさ!

さて、プログラムに関しての作業予定は別ページ参照ってことで、来週やろうかと思うこと。

  • 論文を読んで、漁る
    • 雑誌会が思ったよりも早く回ってくるかもしれんのでちょっと急いで
    • まずは日本語論文から攻める
    • そのリファレンスとかで英語の論文に行こうかな
  • プログラムの動作確認
    • サーバー上なのでどこからでもできるが…
  • プログラムを進める
    • まずは、各クラスのモジュール化を行う
    • また、テストとして使っていたソースなどは別に移して整理する
    • backupは消してもいいかも

こんな感じか。
焦らず確実に進めていかねば。
もう5月病は治ったみたいやし気合いれていくかなー。


#bf
名前:
コメント:
最終更新:2010年10月21日 18:22
ツールボックス

下から選んでください:

新しいページを作成する
ヘルプ / FAQ もご覧ください。