アットウィキロゴ

Short and Tweet

ABSTRACT

Twitterのコンテンツ推薦をする。コンテンツ推薦には、コンテンツ、ユーザのトピック興味、ソーシャルな投票の三つを用いる。12個の推薦システムを作成し、実際に使ってもらって評価した。一番良いアルゴリズムは72パーセントの精度を示した。

INTRODUCTION

情報爆発に伴い、ユーザは情報のフィルタリングと、情報の発見の二つを求めている。
  • ユーザは毎日何百ものコンテンツを受信している。これはユーザが見られる量を越えている。
    • フィルタリングが必要
  • 自分のフィードに現れないが、興味のあるコンテンツを探したい。
    • 友人の友人が発信したwebページや、友人が読んでいるフィードに現れるブログなど

一つのアプローチとして、ユーザの興味に見合ったコンテンツ推薦がある
  • 情報ストリームには他の分野とは異なる三つの特徴がある
    • ストリームに現れるコンテンツは発信されてから少しの間だけおもしろい。そのため、推薦システムは常にコールドスタート問題の状態になる
    • ユーザは他のユーザのストリームを閲覧したり、他のユーザとコンテンツを共有したりできる。
    • ユーザはコンテンツを閲覧するだけでなく、コンテンツの発信者になり得る。
  • 推薦システムは、これらの特徴を用いている

URL推薦システムを提案する
  • www.zerozero88.com

RELATED WORK

コンテンツ推薦において最もよく用いられているのは協調フィルタリング
  • コンテンツを用いない(内容を用いない)で、ユーザの興味を用いる。
  • ユーザとアイテムの関係が少ないコールドスタート問題がある
    • コンテンツのテキストベースの特徴を用いることで回避することが多い
  • 一人のユーザの情報では少ないため、ユーザをグループにまとめてその情報を用いる手法がある

ソーシャルな情報を用いたコンテンツ推薦もある
  • ニュースグループに対して、頻繁にポストされるURLを推薦する
  • ユーザから他のユーザへの意見を基にコンテンツを推薦する
  • 友人の友人が友人ではないかと推薦するシステム
    • 類似するキーワードを用いた友人推薦より高い精度

Twitterから発信される情報量は膨大であるため、スケーラブルな推薦システムが必要
  • ユーザをクラスタリングし、コンテンツ推薦の際にはユーザの"隣人"のみを対象とする
  • 分割統治法を用いた推薦システム

いろいろな推薦システムが提案されているが、実装、評価されていないものが多い
  • 実装、評価し、そのシステムがTwitterに適しているか判断。

DESIGNING RECOMMENDERS FOR TWITTER

推薦システムを次のように定義する
  • 推薦する候補のURLをどのように決めるか
  • コンテンツの情報をどのように利用するか
  • ソーシャルな情報をどのように利用するか

推薦する候補のURLをどのように決めるか
  • フォローしているユーザがフォローしているユーザがポストしたURL
    • 近くのユーザは興味が似ている
  • Twitter上で人気のあるURL
  • ポストされてから7日間だけ対象にする

トピック類似度でURLをランキング
  • ツイートからユーザのプロフィールを作成
    • BOW
  • プロフィールは単語ベクトルで表される
    • ベクトルの各要素はTFIDF
    • Self-Profile
  • ユーザがフォローしているユーザ群が発信した単語ベクトルで表す
    • TFはある単語を頻繁に使用するユーザ(フォローしている)の数
    • Followee-Profile
  • URLを含むツイートに含まれる単語でURLの単語ベクトルを作る
    • ツイートに含まれる単語は少ないため、キーワード拡張を使う
  • URLの単語ベクトルと、ユーザの単語ベクトルとの類似度を測り、ランキング
    • 類似度はコサイン類似度を用いる
    • 算出した類似度は、self-profileを用いていたらself-topic、followee-profileを用いていたらfollowee-topicと呼ぶ

ソーシャルな情報でURLをランキング
  • グループ内で多くポストされたURLをグループメンバに推薦する
    • 一人一票
  • Twitterにこれを拡張する
    • グループはフォロー関係で近くにいるユーザ
    • ユーザは自分の興味に従ってフォローするユーザを選ぶ
    • 一人一票ではなく、信頼できるユーザは何票も持つようにする
      • 信頼性の伝搬。多くフォローされるユーザは信頼できる
    • ツイート数が少ないユーザは信頼できる
  • URLにスコア付け
    • ユーザuのfollowee of followee達のうち、そのURLをポストしたユーザの信頼度の合計がURLのスコアとなる
    • followee of followeeの信頼度はfolloweeのうち何人がfollowee of followeeをフォローしているかに比例する
    • また、followee of followeeの信頼度はその人のツイート頻度のタイムインターバルに比例する

EMPIRICAL STUDIES

  • FoF, Self, Voteが最も精度が良かった(72%)
    • URLの候補集合はfollowee-of-followeeがポストしたもの
    • URLと自分との類似度は自分のツイートを用いる
    • ソーシャルVoteを用いる
最終更新:2011年06月17日 12:10