卒業研究編（～11月）

このページを編集する

Today's Access -
Yesterday's Access -

研究日誌・卒業研究編。
やりたい研究につけたけども本当にちゃんとできるかな！？

2009/11/26(THU)

今日「も」あんまりすすんでない。
理由もあるけど、言い訳にしかならない気もする。

しかし、やったこともあるので書いてみる。

WEBサーバー経由で学外から計算サーバーのディレクトリをマウントできるように設定を終える
- これで学外からも研究できる！……したくねぇ
昨日動かしていたプログラムの実験結果を確認
- 正常に動作していた
- 実験結果もバッチリ
ブロガーのカテゴリ分類を行う部分へ入る
- 分類の仕方を調べるべく、先輩のプログラムと論文とにらめっこ
- プログラム内に分類器が見当たらない…
- 論文から、やはりではあるが、ある程度のブロガーを手動でカテゴリ分類（ラベル付け）する必要性を確認
- まずは、先輩のカテゴリ分類に不満があったので、新規にカテゴリ分類を考える
  - 見た感じ冗長な部分や、意味のわからない感じのものが含まれていたため
  - 先輩のカテゴリ、Yahoo!、Ameba、livedoor、FC2、goo、mixi、ITmediaを参考にカテゴリを決める
  - まだまだ考察の余地あり
  - 先生と要相談

書いた量は多少多いが、結果があまりでていないので困る。
カテゴリ分類の分類器への着手を今週中にしたかったが間に合わなそうだ…。
急がねば。

ということで、明日やること。

先生がいれば進捗報告を兼ねてカテゴリに関して相談
カテゴリが決定した場合
- ブロガーのカテゴリ分類を手動で行っていく
カテゴリが決定しなかった場合
- 分類器関連の作れるプログラムを暫定的に作成していく

明日はすごく作業が進まない気がします。
ガンバリマス。

2009/11/25(WED)

今日は昼から登校。
朝は英語の宿題してたからだが。ずっと寝てたわけではない。となりの人間国宝見てたw

まあ今日は進んでない。目に見えて進んでない。
しかし、やったこともある。

プログラムの実験結果確認
- まだ終わってなかった
- 止まってるのかと思ったが、処理が大きいだけ→とりあえず止める
- しかし、所望の動きはしていた
単語の総出現回数も同時にカウントして保存するように変更
- 実験→放置
S先生に文章分類について相談（いい教科書ないっすか？）
- 英語の本わたされた→ガンバレオレ
TFIDFのプログラムに着手（まだ前段階）

ほんまに進んでないw
明日はもう少しマシにすすめないとな。

そして明日やること。

今日の実験結果を確認
日付についての単語のカウントのプログラムを作成
TFIDFのプログラムもすすめる
文章分類について勉強
- の前に先輩がどんな学習機で文章分類してたかを確認する

まあ昨日とそんな代わり映えはしない。
今日やってて、「これもいるなー」「あれもかなー」みたいな感じで気づいて書く内容が変わってるだけだ。

とりあえず、やるしかねえ。

2009/11/24(TUE)

めちゃくちゃ眠い。
3連休を遊び倒してたからしょうがない。自業自得です…。
ということで、気持ち的にやらないわけにはいかない。でも、体と頭がついていってない。
という状況でなんとか進めた。

そんなわけで今日やったこと。

抽出した名詞を数えあげるプログラムを作成
- 間のファイルを作ろうかと迷ったが、結局直接日付と単語での表を作ってしまうことに
  - 実験したところ表示がおかしい
  - 最初の名詞抽出のところでミスがあった（具体的には保存形式のミス）
  - 修正→実験

わかってたけど、こうしてみると全然進んでない…。

今日は先生いなくて進捗報告できてないけど、明日先生が来たらやるかな。
とりあえず実験してる今のがちゃんとできてればもう一押し。
今度は全体での数え上げをしなければ。

では、明日からやること。

今日の実験結果の確認
- 結果からデバッグ
- 許容できるくらいの小さいバグ（微妙に入ったいらん文字とか顔文字とか）は今回から放置していこうかな…
顔文字辞書の修正
- 一応フィルターのために顔文字保存させたけど、7万件て…、めんどいw
全体での単語の数え上げプログラム作成
TFIDFの計算プログラム作成

あともうすぐで学習に入ります。
そういえば、まだ学習の前段階なんだよねー。
長い…。

2009/11/18(WED)

昨日を雨と寒さによる自主休講として、今日は昼前から登校。
ちょくちょくと研究を進める。まあやってる感じは順調。
しかし、次にするところが曲者のようだ…。気合を入れ直せ！！もっと遊びたい！！

で、今日やったこと。

サーバーで動かしていたプログラムのチェック
- まだ最初のところも終わってなかった
- パラメータを見直す→1桁多いorz
- 書き直して実行・放置
ローカルで動かしていたプログラムのチェック
- 前回の最後になっていた状態（メモリがめちゃくちゃ使われている）になっている
  - cabochaの2重起動が原因ではなかったらしい
  - 実はcabochaへの大きすぎる入力を行っている部分があったのがまずかった（記事全文を一度に放り込んでいた）
  - 記事本文を「。」などで細切れにして、入力することに→成功
    - cabochaをめちゃくちゃ再起動しているけど、システムモニタを見る限りメモリに問題はない
    - 動作速度は気になるが、今回は目をつむることにするorz
名詞だけ抽出すると、結構顔文字がたくさん混ざっている（先輩のもめちゃ混ざってた）
- 顔文字フィルタを作ることにする
  - 顔文字をまとめたテキストをwebからダウンロード
  - 使える形に整形するプログラムを作成中
ブログをコミュニティに分ける方法を再確認

そこそこがんばった。
昨日は家にいたけど、一応論文呼んでたし、サーバーのプログラムの監視はしてたし。
しかし、ブログコミュティには苦労しそうだ。つーか早く一通りプログラムを組み終わらな話が進まん。急がねば。

ということで、明日やること。

抽出した名詞の数を数えるプログラムを作成
- まずは、各ユーザーの各記事でどれだけ何が出ているかを数える
- それを基に各ユーザーの単語の使用頻度を数える
- この時点での数えたデータは後の学習でも使えるようにするべきか
コミュニティの分類器について先輩のプログラムの見直し
- 分類器に確率を使ってるみたいなので、その辺を確認しなければ
- まあWEKA使ってるんだろうな
学園祭の共通券の換金

最後のは研究には関係ないけど、とっても大事！お金の話。

まあ分かってたことやけど、ついに分類器にたどり着く。
データ加工も含めて考えるのは骨が折れるな。

まあ、まったり急いでがんばろう。

2009/11/16(MON)

土日の学園祭も無事黒字で終了し、満身創痍での登校。
全身が筋肉痛で、しかも疲れが抜けきらん中での研究はそこそこ進んだよう。

で、今日やったこと。

今までのプログラムが計算サーバー上で動くか確認
- ディレクトリ構造をそのまま移動して、bin直下でMain.classを実行→起動せず
  - javaのほうにパスが通っていない様子
  - しかし、パスの通し方がよくわからん…
  - そういえば、この間移転したプログラムの一部は動いた→参考にディレクトリ構造を変えてみる
  - bin直下にファイル保存用・読み取り用ファイルを配置すると動いたw
- プログラム起動時のコマンドはbin直下にて、「java main/Main」
- パラメータを大きく設定して、起動・放置→今度結果確認する
構文解析器「cabocha」を利用した形態素解析
- 連続名詞を１つの名詞としてまとめて、いつ・だれが書いた記事でどんな名詞がでてきたかの保存に成功
- つまり、「各記事でどんな単語が出てきたか」をまず記録することに
- できたプログラムの起動・放置

将来的に役に立ちそうなことを今日はそこそこできた気がする。
慢性的に眠たいわりにはなかなかの進捗で自分的には満足w
今のところ問題は起こっていないが、これからの進み具合がすげー不安。

で、明日やること

計算サーバーでのプログラムの確認
- たぶん終わってないだろうが
名詞抽出プログラムの実行結果確認
- これもたぶん終わってない気がする
ブロガーのコミュニティ分けについて
- まずは、どんな風にコミュニティに分けるかの手法の確認
- コミュニティの分け方（どんなコミュニティを作るべきか）の再検討

まあこんなもんだろうか。
できたらもっと進めたいけど、たぶん明日もすげー眠たいと思う。
とりあえず、がんばろー。

2009/11/13(FRI)

明日は学園祭だ。
ということで、最後の準備やらに奔走していたがなんとか終わった。
あとは本番を待つのみ。雨だけが心配。

といいつつ、そこそこ研究は進める。
正直なところ、12月の中間発表で何もしゃべれない気がするのだ…。
早くプログラムを終わらせてしまわなければ。

ということで、今日と昨日やったことをごちゃまぜで。

cabochaによる構文解析をJavaから行うことに成功
- まずJava内で動かすことができた
- これには前回に書いたRuntimeとProcessを使用
  - 「Stream Closed」というエラーに何度も阻まれたが、cabochaを毎回起動するということで回避
  - 本当は一回の起動でずっと解析し続けるってのが、速度的に望ましいと思うのだが…。
cabochaの解析結果から名詞のみを抜き出す
- 連続名詞の取り出しの下準備も完了
  - 名詞が連続して出てきたときに、それらをまとめておいておき、他のものが出てきたら区切りをつける
計算サーバーで記事収集プログラムを走らせておく
- screenを使ってログアウトしてもプログラムを走らせ続けることに成功
  - なぜかnohupが使えなかった（ログアウトするとプロセスも一緒に落ちる）
- 64bitOSの速いことw
- ちょっと無理なパラメータで走らせてもちゃんと結果が出ていた

やったことはこんなもの。
少ないといえば少ないが、やること多かった上に来るのも遅かったしエラーにも悩まされたしで進まねえよw
大きいめのデータセットができそうなのでそれはうれしいかも。どんどん計算サーバーに移植していくのがよさそうだな…。

とりあえず、来週やること。

取り出した名詞の保存方法の検討
- もう名詞の数を数えて保存しようと思ったが、実はここでやると冗長なのでは？
- この段階では、その日の記事に出てきた単語を並べておくだけでいいかも
検討した結果で保存メソッドの作成・実験・デバッグ

概ねこんなもんだろう。
これができたら、今度はユーザーのコミュニティ分けをしていかなければいけないだろう。
それができてから単語の数を数えて……って話かな。

とりあえず、明日・明後日の学園祭だ！

2009/11/11(WED)

2週間ぶりになる更新。それもこれもあのデモのせい。
本当は前回の更新のあと1回は書くべき事があったのだが、それも忘れてしまった。

ということで、今日やったことのみを書く。

cabochaのインストール
- 実行可能かも確認
java内でのcabochaの使い方を確認
- てっきりライブラリだと思ってたけど違うのね…
- クラスRuntimeとProcessを使って外部アプリケーションの出力を読み取るという形をとる
大元になるGetBlogURL.javaをnova上で走らせることに成功
- これでより早くでき、かつ時間と自分のパソコンのリソースを気にする必要がなくなった
- 最終的にはupdateもnova上でできるといいな

作業時間がそんなになかったことも、まだ気合が入りきらないのもあって下準備といったことばかり。
今週学園祭があるし、その準備に追われてるから気合がこっちに向かないのはしょうがねえかな。

でも、12月に中間報告もあるし早く仕上げられるとこはやってしまわないと。
いついらん仕事を押し付けられるかわかったもんじゃないし。

ということで、明日やること

nova上で走っているプログラムの確認
- まあ明日の時点で終わってはいないでしょう
形態素解析部分のプログラムに着手
- RuntimeとProcessの使い方から勉強

まあこんなもんでしょう。あとはちょっと時間ができれば論文とか読む程度だろう。
時間ができるとかないやろうけどねー。

まずは、学園祭や！

2009/10/28(WED)

今日もすげーやってた。
先生に進捗報告したけど、あんまり文句も言われることなく、「順調でなによりだ」ってオーラを感じるｗ
あんまり順調な気はしないんだが･･･。作業おせーし。
そして、デモの詳細じゃないけど日時を聞く。そういえばどんなことしゃべるとか、規模とか聞かへんかったな。ミスった･･･。
それから、作業ずっとしてたからめちゃ疲れて、英語があんまりしゃべりに出れんかった･･･。くそー。

なにはともあれ今日やったこと。

記事抽出プログラムの作成
- もうほぼ完成
- 記事データとしての格納の仕方も決めて、一応実験もした＝そこそこうまくいった
- あとは細かいデバッグや、これから出てくるであろう仕様変更に対応するくらいか
データベース更新プログラムの作成
- 一応組み終わっていたものを動かす→動かない
- ちょいとデバッグ→正常に動いたみたい
- 現在実験中
デモのための適当なパラメータの発見
- 見栄えのいい検索結果を出す検索条件をメモっておく

今日はまたずっと頑張ってた。
昼過ぎに進捗報告に行ったときにデモのことを言われてその条件調べてたけど、しんどかった。
もうめんどくせーのなんのって。ノイズが多いよ。
抜き出したのは名詞だけじゃなかったんかい！

ともあれ、プログラムは着々と進んでおります。
作業スピードはすげー遅い気がするけど、進まないよりはマシ。

というわけで、明日やること。

更新プログラムの実験結果確認→デバッグ
記事本文分析のプログラムの作成
- 形態素解析の導入

デモのための検索条件は一応洗い出したが、教授が満足しなかったらやり直しかな。
それにこんなことも言われた。

「あのプログラムが使ってるのってデータが古いでしょ？新しくして欲しいんだけど」

･･･無理っすｗ
時間ねーよｗプログラムもできてねーし、データ作るのにどんだけかかるとおもっとるねんｗ
と、真面目な顔して真面目な言葉で言いたいと思います。

あの研究室の「ほうれんそう」どうにかならんかなー。

2009/10/27(TUE)

今日は無駄に頑張っていた感がある。おかげで背中が少し凝ってしまった。

さて、今日は無駄にがんばった甲斐もあってなかなか進んだ気がする。
とりあえず、やったことを書き出してみようか。

ブログ記事抽出プログラムを引き続き作成
- あれが除去できない、これがとんでしまった、とその修正のためにプログラムがかなり煩雑に
- 先輩のプログラムにならった方法をとって改善を試みる（本当は自分の力でなんとかしたかったが･･･）
  - なんか成功した
  - ブログ本文の部分に達しているかどうかフラグを上げ下ろしするというもの
  - 煩雑になっていたところは、冗長になってしまっている感じはあるが、メソッドにまとめあげるなどして見通しをよく
  - フラグを用いることで、条件分岐も明確に
- しかし、文字コードが合わないものがまだあった
  - livedoorのブログでも「UTF-8」だったりする
  - ブラウザでできるなら俺もできるはず！ってことで文字コードの自動判別メソッドに着手
  - その場しのぎかつ、たぶんブログにしか通用しないメソッド完成→まだしっかり実験してない

まあやってることは前日とあまりかわらない。
すべてのブログサービスを均等に見ていき、なおかつすべてをカバーするようなフィルターを作るには少々ムリがあったようだがなんとか形にはなった。
あとのところで不具合がでるようなら学習データとして不適切だということにして切り落とすくらいしてもいいかもしれない。不具合はそんなに数があるわけじゃないからね。

そういうわけで、記事抽出は9割くらい完成している。あとは細部の微調整という名のデバッグが待っております。
できれば明日で完成させたいが、思わぬアクシデントが起こるとも限らんので慎重に行きましょう。

そこで明日やること

ブログ記事抽出メソッドの実験→デバッグ→実験→デバッグ→実験→･･･を何回か満足いくまで
ブログ記事保存方法の検討と実装
記事分析のための形態素解析の導入
ブログ記事更新プログラムの確認

上2つが一番しなあかんことで、たぶんするだろうこと。
3つ目は上2つができたらすぐにでも着手しよう。4つ目は余裕のある場合にしておこう。
更新プログラムはたぶん正常に動くと思うんだが、果たして！？

ま、やることやってりゃなんとかなるよな。
･･･うん、大丈夫なはずだ。

2009/10/26(MON)

今日はそこそこプログラムやってた。
結局プログラムを組む以外にどう組むかを考えることのほうが多くて、作業量はそんなにない気もせんでもない。
でも、このことが今日一番悔しいことなんではなくて、金曜に走らせてあったプログラムのパラメータ設定をミスっていたことが悔しい…。
おかげで所望の結果（バグがあってもいいから必要なだけのデータ）が出ていなかった。
今日ちょっと少ない目で走らせておくことにでもしよう。

そんなわけで、今日やったこと。

ブログ記事更新プログラムの作成
- 記事を直接アップデートするには？
  - まずは新しい記事URLを取ることにする
    - しかし、データベース作成時と同じ方法では時間がかかりすぎる
    - しかも、今度は片っ端から取る必要無し
    - ブログのページの上部または下部に「次ページ」ってのがある
    - 使えそうだ→使う→実験まだ→うまくいけば、データベース作成のときのほうに使えるのでは？
  - 一旦新しい記事URLを他に保存しておくと後で色々使い勝手がよさそうだ
  - もちろん大元のデータベース更新するように
  - 新たな記事URLの記事のみ抽出すればいいように
    - 記事抽出は以前に作った記事抽出のメソッドがそのまま使える
    - ちょろっといじって、変数でスイッチできるように
変数でのスイッチの導入に当たって、他にもスイッチできる・すべきところをちょこちょことスイッチ導入

前に自分が書いていたメソッドを再利用できるというのはありがたいものだ。
抽象メソッドを使ってないあたりはまだまだだろうが、スイッチできる程度のことなら同じ事をなんども書くより容量圧縮できていいよね（超軽微だが）。
そんなわけで、今回は色々以前のものを振り返る機会があり、デバッグもしながらというのは時間がかかるもんだと再認識。
手探りでやるとこんなもんか。
そして新たなアイデアがちょくちょく出てきて、試すと前のよりよくて、更新しようと思うけど面倒くてw
必要に迫られてからでいいかなw

ともあれ、今は走らせたプログラムがちゃんと結果を出してくれることを祈るのみ。

てなわけで、明日やること。

プログラムの結果を見てプログラムのデバッグ
記事保存形式の見直し
記事分析・学習データ作成プログラムに着手
ブログユーザーの更新プログラム作成

上２つは絶対やるだろうが、下２つはできるかわからんな。
とくに一番したのものは方針が定まらない。追々考えることにする。

それにしても研究室の空気が面倒くさい。
オレもネオニートになりたいなw

2009/10/23(FRI)

当日書けなかったので翌日になったが書いておく。

木曜日にとりあえず言われていたデモプログラムのためのデータ改変作業が終了した。
先生に「精度はよくないです。ただの間に合わせです」という旨を伝え、確認をお願いしておいた。
なんも言われんだろうが、それよりもデモの詳細を教えて欲しいもんだ･･･。

そこで、今日は久々に卒研のプログラムのほうに着手。
具体的にはブログの記事抽出の部分を引き続き作った。

ブログ記事抽出メソッドの作成
- 記事本文だけを取り除くフィルターを作成
  - 日付・タイトル・本文を抽出する
  - それぞれのブログによってhtmlの書き方が微妙に違う
    - それぞれに適したものを結果を見ながら順に加えていく→量が膨大に･･･
- 抽出した本文などをファイルに逐一保存する
  - まだ正式な保存の形式をとっていない
    - 以降、保存形式を先輩のものと合わせる必要あり
修正したブログURL抽出を確認する
- 取得するURLの数を少し減らしてプログラムを実行しておいた
- データベースをすべて作るという流れが一回でできるか確認

金・土・日でプログラムが終わればいいな･･･。
とりあえず、順調にいっているようだ。今後を思うと不安が絶えないが。

では週明けからすることは以下。

プログラムの終了を確認して、記事抽出の結果を確認する
- ブログ記事URLが正しく抽出されているか確認
- 記事抽出の結果から、さらに記事抽出のフィルターを更新する
データベース更新のメソッドを作成する

おそらくデモの準備もそこそこ入ってくるだろうから、そこまで順調には行かない気がする。
まあなるようにしかならんが、やることは変わらないし、やるしかないので少しずつでもやっておこうか。

2009/10/20(TUE)

今日はほとんどB4が来ないという珍しい日になった。
作業がはかどったかというとそうでもなくて、みんながいなかったからとかも特に関係はない。
ただ、ダラダラしてたw

とにもかくにも、今日やったこと。

ブログ記事抽出プログラム作成
- 日付・タイトルの抽出になぜか手こずる
- 本文もきれいに抽出できている模様
- が他のサーバーでやっていないので、まだまだ油断できない（文字コード的な意味で）
進捗報告

とにかく苦戦している。そして進捗報告したが、

Y先生「それはいいんだけどね、デモのプログラムのほうを優先してくれるかな？」

それはいいんだけどね！？いいんだ…。なんとも思われてないみたいだね。
そして、デモをするとかなんとか。
オレは知らないよ？プログラム読んでるけど、あんまりわかってないよ？
ていうか、データの改変がめんどいよ。

というのも、サーバーで動かしていたあのプログラム。
なんか壮大なもののわりには軽すぎひんか？と思ってたら、学習結果のデータを表示してただけのようで。
つまり、改変するのはプログラムじゃなくて「データ」。

まあそんなこんなで、明日やること。

デモ用プログラムのためのデータ改変プログラム作成

こうなると自分のことがしたくなるけど、なんもないと遊びたくなるのが人だよねw

2009/10/19(MON)

もう10月も下旬に入りそうな今日この頃。
先週は急な用事が入ったりであまり作業ができなかったこともあり、今週は気合を入れていこうと思う。
…毎回おなじ事言ってる気するなぁ。

てことで、今日やったこと。

ブログ記事抽出メソッドの作成
- まだまだ完成に至らず
- 文字コードのあたりが微妙にあやしい
  - AmebaのブログがJISAutoDetectで文字化けした…→ちゃんと指定すると文字化けせず
- titleとdateの抽出も同時に行うように調整
- ブログのhtmlのタグの形が多種多様なせいで、なかなかうまいことできない
  - 結局ほぼ総当たりな感じになっていて、最終的には重たいプログラムにありそうな予感
ブログ記事URL抽出メソッドの修正
- 抽出していたURLをちゃんと記事URLのもののみを保存するように変更
- 記事URLはひとつの記事に割り当てられたURLのこと

今日はちょい頑張った感あり。が、作業的にはあまりすすんでいない。
パターンをもっと見ていく必要があるし、先輩のプログラムをもっと熟読せねば。

ていうか、デモをする分のプログラムの解読をやっていない（書いていて思い出した）
改変ができる気が全くしないのだが、どうしたもんか…。ま、やる気がないともいうが。

とりあえず、英語ASの宿題もしなあかんなー。

で、明日やること。

ブログ記事抽出メソッドの作成
- タグパターンの見極め
- メソッドの見通しをよく
- プログラムの軽さも考える

今日の続きってことで。論文も読まないとねー。

2009/10/14(WED)

今日はあまり研究が進んでいない。
最近といったほうが正しいか。微妙にやる気がでていないのは事実だ。
一昨日の月曜日にも少し作業をしたが、そのことを書いていなかったのでそれも含めて書く。

月曜

リンクURL収集のプログラムを走らせ続けていたが、月曜昼1時くらいの時点でまだ終わらず。
- ちょっとパラメータを無理な設定にしすぎたようだが、無限ループはしていない（たぶん）
- どちらにしても時間がかかりすぎているので、プログラム継続を断念
以前収集していたデータを使ってみることにする
- それでも結構な量があるので、実験するには困らないはず
収集したリンクURLの中からブログであるもののみを取り出すメソッドを作成
- 基本的にはhtml内に「google_ad」という部分があるかどうかでブログかどうかを判断

ということで、できたブログ記事URLの収集プログラムを走らせておく。
が、火曜日になってもまだ終わらず。

今日

指導の先生に進捗報告
- 特に指摘されることもなく終了
- 端目には順調に見えるらしい＝実際順調に行ってるのかようわからん
夕方ころプログラムがエラーを吐いて止まる
- FC2のブログを読もうとするところだった
  - ユーザーネームが取得できなかったらしい
  - ちょろっと改変→実行

とりあえず、なんもしてないなオレ。
プログラムの実行が終われば、またプログラムをバリバリしていけるだろう。
が、なにせ処理量が多いので一つ一つの実験の度にプログラミングの作業が中断してしまう。
その間に論文を読もうと、昨日（火曜日）論文を印刷しまくっておいた。
暇つぶしにもなるし、あとで読まなあかんもんだろう。ってことで読んでいくことにする。

しかし、今日先生に「お願い」をされてしまった…。
オレは先輩の研究を引き継いだわけですが、その先輩のプログラムのデモを今度してほしいのだそうで。
しかも、ちょっと見栄えとかその辺のことをちょろっと改変してほしいのだとか。
しょーじきわからんw
が、やるしかないらしい。がんばれ、オレ。

てことで、今後やること。

ブログ記事本文を抜き出すメソッドを作成
- 後のデータ利用に関連して、どのような保存の仕方にするかは考え物
- 先輩と同じようにユーザーネームをファイル名にして中身を記事等の羅列にしてしまうのがいいか？
ブログ記事更新のプログラム作成
- 一からのデータベース作成には時間がかかりすぎる
- 必要な部分だけ更新すれば？
論文を読み進める
- 先輩のPCにあった論文は全部で20冊くらいあった…。
- 全部は読まんでいいだろうが、どないしよ…。
先輩のプログラムの解読 Season 2nd
- 今度はTomcatでWEB上で動くプログラムについて解読
- どれがどれかさっぱりやw

明日以降、今週はあまり研究する時間がとれないので今後ということに。
いうて来週からの話ですが。

2009/10/6(TUE)

今日は奨学金の用意しなあかん書類のことであたふた。
電話しまくり。そして、住所変更していないことの不利益が多いことに改めて気づく。
あと2年いるし、住所変更しようかな。

ともあれ、今日はちょっと進んだのでメモ。

「host=null」とか出ていたエラーの原因を突き止める＝入力URLが[http:///]ってなってた。そらホストはないな…。

↓

上記に合わせて修正。テストはまだ。今晩回しつづける予定。

↓

ブログURLのチェックメソッドを１つに統合、かつブログとの判断メソッドを試験的に作成＝とりあえず、抽出はできているようだ。精度は！？

↓

ブログ記事抽出のメソッドの枠組みを作る＝中身はない

こうやって見るとあんまり（全然）進んでないのでは！？
ともかく、次につなげることを考えましょう。これからすべきこと。

ブログかどうかの判断メソッドのチェック
- 細かい精度の導出は無理でも、ある程度抽出できているかの確認をとるべきか
ブログ記事抽出メソッドの具体化
- 今あるものは「ブログのトップURL」
  - このURLを利用して記事URLを抽出するが、やり方は2通り考えた
    1. ブログ記事のURLもパターンは決まっている→あてはまりそうなものを片っ端からURLとして接続し、取得できたものを保存する
    2. URL抽出のときと同様に、ブログ内部のあらゆるリンクから記事らしきURLを取得する
- 記事URLが抜き出せたとして、それらの記事の本文のみを抜きだし、日付でソートする
  - このとき、その記事が「誰が書いたものか」特定できる形で保存しておく必要がある＝記事を基にユーザーのカテゴライズをするから

記事のURL抽出に関してはなんかどっちもどっちみたいな感じがする…。
記事の本文抽出も、かなりいろいろな書式があるみたいで…。一般化というのは諦めないといけない部分出てくるだろうな。

なにはともあれ、明日すること。

模擬店の衛生検査（う○こ提出）
確率輪講
英会話教室
走らせておいたプログラムの進行状況チェック
ブログURL抽出メソッドの精度確認
記事抽出メソッドに着手

あれ。研究の割合が…。

2009/10/2(FRI)

当日に書かなかったので、翌日になったがちょろっと書いてみる。

特に進展もしなかったが、その原因はあまり目的意識をもって作業にあたっていなかったからだろう。
とりあえず、やったことを書いておく

URL取得の際にメソッドの回帰の反復回数を多くしたときに、あるURLを参照するとエラーが出ていた

↓

エラー文は（正確には覚えていないが）「host=null」って書いてあったりした

↓

原因がよくはわからなかったが、とりあえずURLのストリームを開くあたりの文を変更してみた
具体的には、「url.openStram()」をしていた部分を「HttpConnection」を使って、接続を開くという方式に変更

やったこと少ない･･･。
しかもやったことの意味わかってない･･･。
しかもやったことを試してない･･･。
きっとこれは雨のせいだと信じたい。･･･。嘘です。僕のせいです。

来週は目的意識をもってやりましょう。
が。
雨というのはやる気を削ぐ効果があるのは間違いないので降らないことを願います。

そこで、来週からやること。

URL接続の変更部分のテスト
- 本当にこの修正で出ていたエラーが回避できているか確認
- そもそもどうしてエラーが起きていたのか、メソッドの効果やURL・ホストなどの意味を調べなおして原因を追究する
取得したhtmlから、そのURLがブログのものかどうか判断するメソッドを考える
- 各運営会社に沿ったものをまずは考える
- できれば一般的なものを発見したいが、一貫性が見つかるだろうか

風邪も治ってきたし、色々することもできてきたし気合を入れなおさなければ。

2009/9/30(WED)

気がつけば9月ももう終わり。そしてカテキョも終わり。すべての時間の経過が早く感じる。
風邪も早く治ればいいのに。

プログラム自体は今日はそんなに進んでないと思う。まあとりあえずやったことでも書いてみよう。

前日の帰り際、ちょっとムリがありそうなパラメータ（再帰の反復回数）でプログラムを走らせておく

↓

今日。エラーでとまってた。メモリエラーではなく、不正URLへのアクセスの失敗によるものらしい（？）

↓

とりあえずその辺修正。動かしたところ今回は問題ないみたい。またムリさせてみないとなんともいえんかもしれんが。

↓

URL取得関連のメソッドを細かく修正を加えてく。基本的にはメソッドの汎用化と拡張性向上。

↓

ひと段落したところで、今度は取得したURLからユーザーネームを抜き出すメソッドに着手

↓

取得していたURLにはブログではないものも含まれている＝URLで判断できなかった

↓

htmlを参照してその特徴からブログか判定する必要が？

ここまでがバイト行く前。
この最後のことがうまくいけば万事うまくいく。
･･････。
･･･。
と、ここで気づく。
今までブロガーのユーザーネームを抜き出そうとしていたわけだが、これはそのブロガーを最終的にカテゴライズする必要があるからだった。
しかも、ブログ各社のブロガーにちゃんと分けていたのは、各社でユーザネームが重複するものがあっては困るからだった。
が。
URLで直接カテゴライズすればいいんじゃないだろうか。
それなら、htmlでブログを判断できれば各社でユーザー分ける必要もユーザーネームを抜きだす必要もないわけだ。

得てして、こういう汎用化のアイデアってのはいろいろした後にひらめいたりするんだよね。
しかし、htmlでブログの判断がうまくできるかまだわからないので、これまでのプログラムは使う方向でいかないと。
とりあえず、明日はhtmlの解析あたりがメインかな。

ということで、明日の予定。
朝＝雑誌会
昼＝htmlの解析（ブログを判断できるか？：URLのほとんどがブログのものと仮定）
夕＝ベイズ輪講
夜＝映画

気合入れんとね。

2009/9/29(TUE)

今日は風邪が治りかけのまま登校。
テンション低いけど、なんか集中はできた。
そういえば、金曜のときも作業したのに色々あったから更新してなかった。
その分も加味した上で書いてみる。

まず、プログラムの書き直しに着手（金曜）
「どこから手をつけるか？」ってところで、「データがないと実験もくそもない」ということもあります。
ので、「データの収集・加工」部分の書き始め。以下、先輩のプログラムを参考に。最終的な出力があえば、途中経過は気にしない。

URLに関するクラス・メソッドを把握

↓

試作＋実験＝URLクラスでできることを知る

↓

プログラムの構成を考える＋作る＝パニック

↓

URLを１つのページからしかとらないと、候補が極端に少ない＋有用なユーザーかわからない＝もっと広くURLを取ってくる必要がある

ここまでが金曜の時点。具体的には、

mainは一つに絞る（当たり前）
htmlからURL取得のためのメソッドを作る（各社に対応を予定）
URL取得のメソッドを使うための統合メソッドを作る
以上の動作確認

以上を踏まえて今日を迎える。何しようって具体的には考えてなかったけども…。

URLを広くとってくるには？

↓

とりあえず、html内のリンクを片っ端からとる

↓

いらんもんがある＝いるものだけとりだす

↓

そのとってきたURLの先のhtmlからURL取ればいいかも？

↓

メソッドの再帰呼び出しで作る＝うまくいったっぽいw

↓

片っ端からとってくれば、メモリの消費が半端ない＝テキストに書き出せばいいかも

大筋の流れではこんな感じで作業を進めた。他にも細かいことはしてた。
具体的には、

各社のブログのURLパターンに対応しやすい形でメソッドを構成
- 各社に対応した個別のメソッドでなくなった
- 色々な形のブログを追加しやすい
  - 幅広いブログの活用を可能に
細かいコメントの付与
- 2年間は付き合うだろうプログラムを後からでも見やすく、書き直しやすく

言うてやったことはそう多くもない。まだ体調万全でもないし、イライラすることもあったし。
でもまあ、なんとか順調にいっているのでよし。
しかし、先輩のプログラムから逸脱しないように気をつけないといかん気がかなりする。学習器のあたりを書くときには気をつけることにしよう。

さて、では次にすべきは？

プログラムの動作確認
- データはその都度テキストに書き出しているとはいえ、データ自体が膨大なのでメモリに心配はある
- 分割書き出しに関して、考えを残しておく必要はある
抽出したブログURLからユーザーネームを抜き出す
- たぶん必要
- URL抜き出すときに一緒にできるか？
ブログの内容解析
- 未知数

明日はユーザーネーム抜き出して、諸々してみよう。
ブログ記事の解析の時には、たぶん、間違ったURLを抜き出してることもあるから、それのフィルタリングを考える必要があるかもしれない。
ま、それは追々考えていくさ。

2009/9/24(THU)

今日も特になんもない日。
AIも終わったことで、期限を迫られるようなことがなくなりまったりとしています。

さて、シルバーウィークとかいう連休も終わり、10月も近いのでそろそろ気合を入れ直さないとまずい感がある。
ので、プログラムの解読を続行。

引き継ぎメモを見直したり、プログラムの中身を確認したり、特筆すべきことは特になし。
引き継ぎメモから流れというかプログラムがどれを使ってるかを把握。
全部のプログラムにmainが入っとる…。

てことで、拡張しやすいように書き直します。
書くのはまたちまちま・まったりやっていきましょう。

そして今後の予定。

プログラムを書き直す

↓

動作確認

↓

半教師つき学習導入

↓

動作確認

↓

入力データ見直し

↓　　　　↑

実験　　↑

↓　　　　↑

考察→→↑（反復回数未定）

↓

未定

何回見直すかなー。

2009/9/16(WED)

今日もいつもと同じかそれ以上に暇な感じの日だった。
まずは、AIを見直して「これでいっかー」って終わった気でいる。
明日見直します。

と、今日は卒研で一応の進展があったのでメモ。

先輩のプログラムを読みはじめる→流れがつかめない
説明を見る→流れがつかめない
先生とミーティング→卒研の流れをつかむ
論文を見直す→流れ始めがつかめない

結論：プログラムは全て書き直す

ということで、明日からプログラムをすべて書き直すことにします。
今回ミーティングで決めたことに対する拡張性も持たせないといけないし、修士のときのテーマによってはまた書き直すことがあるだろうからね。
そこで、ミーティングで決まった方針を書いてみる。

半教師付き学習にする
学習データの見直し→実は属性値は適当に決めたものだった…

卒研ならまずはここからみたいなとこですね。
なにはともあれ、まずはプログラム書き直し。
動作がわからんあたりかなり怖いです…。1ヶ月が無駄やったとかありえるからな…。

がんばろー

2009/9/10(THU)

今日は特になんにもなかった。うん。なかった。
卒研関係のことでちょっと作業したからメモ程度に。

先輩のPCから必要そうなファイルを150GB分コピー→scpコマンドで6時間以上を要する･･･
先輩の修士論文を読み終える→やはり具体的なところはプログラムを見るしかなさそう

今後の予定は、

コピーしたファイルの中身を確認→ファイルを再配置（プログラムしやすく）
プログラムを読み解く
プログラムの動作を確認
改良案の考案
先生とのミーティングで内容をつめる
独自の作業へ

まだAIもあるし、まったりやっていきましょう（ﾟωﾟ）

2009/9/8(TUE)

卒業研究のテーマも決定したこともあり、また研究日誌をつけていこうと思う。
まだAIと前から読んでる論文の理解も残ってるから、最初はそんなに頻繁には更新しないと思うな。
とりあえず、卒研関連で今日あったことやらを書いてみよう。

まず、今日は先生と卒研のミーティングをしようという話だったのでミーティング。
が、2分で終わる。内容は、

知ってると思うけど、○○先輩の引き継ぎだよ。
まずは論文とか渡そうか。読んでね。
何してほしいか考えてるけど、先に言った方がいい？→ちょっと自分でも考えてみます。

みじかかったねぇ。
そんで、

卒論（まとめた簡単なやつ：使ってる式とかなんも書いてない、学会発表用）
引き継ぎのための諸々のファイル
プログラム入りの先輩のPC with ディスプレイ etc...

をいただく。そして、

PCを自分の机にセットアップ→疲れた＆机狭くなった
プログラムどれかわからん→ゆくゆく理解することにする
卒論読む→詳しいこと知るには原文をしっかり読むしかないと確信する

始まったばかりだが、やっぱり自信ねぇや。すげー不安だ。
まずは、先輩の論文理解だね。

やるしかねぇ。

#bf

「卒業研究編（～11月）」をウィキ内検索

最終更新：2009年12月03日 00:22

ツールボックス

下から選んでください:

新しいページを作成する

ヘルプ / FAQ もご覧ください。

[Amazon商品]

CS611@wiki