ut_ymgc @ サーベイ

ut_ymgc @ サーベイ http://w.atwiki.jp/ut_ymgc/ ut_ymgc @ サーベイ ja 2011-08-02T06:03:32+09:00 1312232612 Trust-aware Recommender Systems https://w.atwiki.jp/ut_ymgc/pages/23.html **ABSTRACT CFに基づく情報推薦は、ユーザとアイテム間の評価データが非常に疎であるためにうまくいかないことがある。そこで本稿では信頼ネットワーク上でユーザ間の信頼を伝搬させ、従来のCFにおけるユーザ間の類似度として用いる。Epinion.comのデータセットを用いた実験では、信頼ネットワークを用いた情報推薦が有効であることが示された。 **INTRODUCTION 情報推薦システムにはCF(Collaborative Filtering)が良く使われるが、多くのデータセットはユーザとアイテム間の評価データが非常に疎であるために、CFを基にした推薦システムはうまくいかないことがある。CFは自分と類似するユーザが高く評価したアイテムは自分も好む可能性が高いという考えに基づいているが、疎なデータのもとでは、そもそもユーザ間の類似度を測ることは難しい。上記の問題を解決するために信頼ネットワークというものを利用する。信頼ネットワークとはユーザ間の信頼を表すネットワークで、ユーザがどのユーザを信頼しているかを明示的に表している。この信頼ネットワークから、ユーザ間の類似度ではなく、ユーザ間の信頼関係を求め、ユーザが信頼する他のユーザが高く評価するアイテムは好む可能性が高いという仮定を置く。 **MOTIVATION CFには二つの問題がある。一つはデータが疎であるためにユーザの類似度が計算できない、あるいは計算できても精度が低いという問題。もう一つは、推薦の精度を下げる攻撃が出来るという問題。あるユーザの評価パターンを完全にコピーした攻撃者がいたとすると、ユーザと攻撃者の間の類似度は最も高くなってしまう。そのため、今後攻撃者が高く評価したアイテムはユーザが好むと判断されてしまう。 **OUR PROPOSAL: TRUST-AWARE RECOMMENDER SYSTEMS ***Trust networks and trust metrics 信頼ネットワーク上では、それぞれのユーザ間の信頼関係を基に全体のユーザの信頼性を評価する。信頼性の評価方法はいくつかあるが、主要なものにはローカルな信頼性とグローバルな信頼性がある。ローカルな信頼性とは、あるユーザから見た主観的な信頼性であり、決まったユーザに対する信頼性はユーザごとに異なる。一方、グローバルな信頼性は全てのユーザから見た信頼性を平均するような評価方法であり、PageRankなどがそれに当たる。 ***Architecture of TaRS 提案手法であるTrust-aware Recommender Systemについて説明する。提案にシステムでは、信頼ネットワークを表す行列（N×N）と、ユーザからアイテムへの評価を表す行列(N×M）を入力とする。信頼ネットワークからはローカルな信頼性としてMoleTrustを採用し、グローバルな信頼性としてPageRankを採用した。評価行列からはピアソン相関係数を用いてユーザ間の類似度を算出する。評価の予測の部分に関しては次節で説明する。 Trust-aware Recommender Systemは、ユーザの評価傾向から類似度を測る手法より効果的にユーザ間の信頼性（類似度）を測ることが出来る。つまりコールドスタート問題を軽減している。また、ユーザの評価傾向を真似する攻撃者の影響も受けない（信頼されていなければ全く影響はないため）。 **EMPIRICAL VALIDATION 提案システムの有効性を示すために +従来のCFのみを用いる手法 +信頼ネットワークのみを用いる手法 ++ローカルな信頼性 ++グローバルな信頼性 +CFと信頼ネットワークの両方を用いる手法の５つを比較する。 ***Epinions.com Dataset Epinions.comとはユーザが商品（車、本、映画など）を評価できるシステム。さらに、ユーザは他のユーザをWeb of Trustに入れるか、Block listに入れることが出来る。Web of Trustに入れるのはそのユーザの評価が信頼できると感じた時。Block listに入れるのはそのユーザの評価が正しくないと感じた時。 ***Evaluation measures Leave-one-outのMean Absolute Errorで評価する 2011-08-02T06:03:32+09:00 1312232612 トップページ https://w.atwiki.jp/ut_ymgc/pages/1.html **サーベイリスト -[[Categorising social tags to improve folksonomy-based recommendation>Categorising social tags to improve folksonomy-based recommendation]] -[[Recommendation of similar users, resources and social networks in a Social Internetworking Scenario>Recommendation of similar users, resources and social networks...]] -[[Information Filtering on Micro-blogging Services]] -[[Short and Tweet: Experiments on Recommending Content from Information Streams>Short and Tweet]] -[[Social Netowork Data Analytics]] -[[Social Networking Feeds: Recommending Items of Interest>Social Netowrking Feeds]] -[[Time Weight Collaborative Filtering]] -[[Tagommenders: Connecting Users to Items through Tags]] -[[Latent Dirichlet Allocation for Tag Recommendation]] -[[The Impact of Ambiguity and Redundancy on Tag Recommendation in Folksonomies]] -[[Trust-aware Recommender Systems]] **@wikiへようこそ -ウィキはみんなで気軽にホームページ編集できるツールです。 -このページは自由に編集することができます。 -メールで送られてきたパスワードを用いてログインすることで、各種変更（サイト名、トップページ、メンバー管理、サイドページ、デザイン、ページ管理、等）することができます **まずはこちらをご覧ください。 -[[@wikiの基本操作>http://atwiki.jp/guide/category2.html]] -[[用途別のオススメ機能紹介>http://atwiki.jp/guide/category22.html]] -[[@wikiの設定/管理>http://atwiki.jp/guide/category6.html]] 2011-08-02T06:03:25+09:00 1312232605 The Impact of Ambiguity and Redundancy on Tag Recommendation in Folksonomies https://w.atwiki.jp/ut_ymgc/pages/22.html *適当なまとめクラスタベースでambiguityとredundancyを評価した。タグとリソースをクラスタリングする。ambiguityは異なるクラスタに属すリソースに付けられるタグに対して大きくなる。redundancyは推薦したタグのうち、同じクラスタに属すペアの割合が大きければ大きくなる。 *ABSTRACT -tag ambiguity --一つのタグが複数の意味を持つ -tag redundancy --複数のタグが共通の意味を持つこれらはタグ推薦の精度や評価を妨げる。本研究では５つのタグ推薦手法（人気度、協調フィルタリング、リンク分析）を調査し、これらの影響を調べる。クラスタベースの手法を用いてambiguityとredundancyを定義する。 *INTRODUCTION tag ambiguityとredundancyはタグ推薦の有効性を判断しづらくする。例えば、ambiguityタグが持つ一つの意味が合っていれば正しいタグ推薦をしたと判断してしまう。また、redundancyタグに関しては、正解セットに"Java"があるときに、"java"が推薦されても不正解としてしまう。本論文ではambiguityとredundancyがタグ推薦にどれくらい影響を与えるかを評価する。クラスタベースの評価手法は言語非依存である。クラスタベースの手法を用いてambiguityとredundancyを評価 -リソースとタグをクラスタリングする --別のクラスタに属すリソースに付けられているタグはambiguity --一つのクラスタに属すタグはredundancy *RELATED WORK タグ推薦手法 -link analysis -collaborative filtering -entorpy *MEASURING AMBIGUITY AND REDUNDANCY リソースをタグベクトルで表す。タグベクトルの各要素はタグがリソースに付けられた頻度で表す。タグ同士の類似度はコサイン類似度で表す。タグの類似度は、タグをリソースベクトルで表し、コサイン類似度を用いる。クラスタリングの精度はhubbert's correlationで測る **Ambiguity Ambiguous tags have multiple meanings. それぞれのクラスタにタグが付けられた頻度をもとめ、そのエントロピーが大きいタグはambiguity -多くのクラスタにまんべんなく付けられているタグはambiguity **Redundancy 消えたからやる気なくなった。 *以下、メモ -データセットからambiguityタグを除去してもユーザ数、リソース数は減らない --ユーザはリソースにタグ付けする時、ambiguityタグのみでタグ付けすることは少ないから 2011-07-23T01:14:16+09:00 1311351256 Latent Dirichlet Allocation for Tag Recommendation https://w.atwiki.jp/ut_ymgc/pages/21.html *ABSTRACT タギングシステムにおいて、タグは決められた語彙の中から選択するのではなく、ユーザが自由に付けることが出来るため、表記のゆれが存在する。また、新しいリソースにはあまりタグが付いていないため、数少ないユーザによって特異なタグが付けられてしまう。これは、多くのユーザの観点から付けられたタグではない。そのため、LDAを用いて次元削減を行い、これらの問題を解決する。具体的には、多くのタグが付けられているリソースを基にして、あまりタグが付けられていないリソースに対してタグを推薦する。タグの推薦は、同じ隠れトピックに属するタグを推薦する。提案する手法は従来の相関ルールマイニングを用いるものより良い精度を示した。 *INTRODUCTION アブストと同じ。要は新しいリソースにはあまりタグが付いていない（cold start problem）から、それに対処する。LDAを用いてタグを隠れトピックにマッピングし、同じトピックに属するタグを推薦する。 *TAG RECOMMENDATION **Association Rules 相関ルールマイニングを使ってタグ推薦をする。あるリソースにタグ集合Tが付いている時、TがT1を含み、かつT1→T2という相関ルールがあるなら、T2に含まれるタグを推薦する。 **Latent Dirichlet Allocation -LDAを用いてそれぞれのリソースに対してp(z|r)を推定し、またそれぞれのトピックに対してp(t|z)を推定する。 -あまりタグが付いていないリソースrを考える --rに"photograph", "photo", "howto"が付いている時、その三つが属しているトピックを見る（photographとphotoは同じトピックに属す）。 ---この属しているという概念は、多分p(t|z)が閾値以上であるトピックの事 --二つのトピックに対してp(t|z)が閾値以上であるタグをリソースrに推薦する。 2011-07-15T23:34:42+09:00 1310740482 Tagommenders: Connecting Users to Items through Tags https://w.atwiki.jp/ut_ymgc/pages/20.html *ABSTRACT タギングシステムの普及によってユーザはコンテンツを探しやすくなった。このタグを推薦システムに導入することによって推薦システムの精度を高める。ユーザのタグへの嗜好を推定し、それを用いてコンテンツを推薦する。 *INTRODUCTION -Amazon, Digg, Netflixなどのサービスは推薦システムを使ってユーザが好みそうなコンテンツを推薦している -推薦システムにおける主な二つのタスク --recommend --predict -タグの意味はユーザが容易に理解できるものであるため、これによってユーザ自身とコンテンツの関係が分かる -例えば、アリスはアニメが好きでいくつかのアニメ映画を見ていた --ある時、Ratatouilleという映画を見ようとしたが、その映画には他のユーザがanimatedというタグを付けていた --アリスがアニメを好きという事実と、この映画に付けられたタグによって、アリスはこの映画を好むだろうという推測ができる --また、pixarというタグをクリックしてIncredibleという映画を身に行くと推測できる -提案するtagommenderでは、まずユーザのタグに対する嗜好を推定し、次にそれを用いて映画への嗜好を推定する --タグへの嗜好は、映画への評価から推定する。 ---例えば、アニメの映画に高い評価をし、ホラーの映画に低い評価をしていれば、アニメ映画についているようなanime等のタグを好み、horror等のタグを嫌うと推定する -タグへの嗜好の推定 --RQ1: ユーザのタグへの嗜好を推定できるか --ユーザのタグ付けの行動や、映画のクリック、タグの質を用いる ---タグの質とは、そのタグによって映画の内容が分かるかどうか。例えば、animated, horrorは映画の内容が分かるが、likeは映画の内容は分からない。 -映画への評価の推定 --tagommenderには暗黙的評価のみを用いるアルゴリズムと明示的、暗黙的評価の両方を用いるアルゴリズムの二つがある --RQ2: 暗黙的な評価のみのシステム上でtagommenderはどれくらい精度良く動くか(e.g., delicious) --RQ3: 明示的な評価もあるシステム上でtagommenderはどれくらい精度良く動くか(e.g., Amazon) *RELATED WORK 飛ばす *EXPERIMENTAL DATASETS -MoverLensのデータを用いる --データセットは５つ以上のタグが付いている映画、５種類以上の映画に付けられているタグを対象とする。反復的にそれらを求める。 --５つ以上の映画をクリックしたユーザを対象とする *INFERRING TAG PREFERENCE RQ1に答える -タグへの嗜好を推定するやり方として二つ考える --タグへの直接的な行動を用いる ---アリスがanimatedというタグを何かの映画に付ければ、アリスはそのタグを嗜好してる --タグへの間接的な行動を用いる（映画への評価を用いる） ---アリスがanimatedというタグが付いた映画に評価５を与えればアリスはそのタグを嗜好してる **Inferring Preference using Tag Signals -タグへの直接的な行動を基にしたアルゴリズムとして三つ考える --Tag applied: ユーザが付与したタグは嗜好が高い --Tag searched: ユーザが検索したタグは嗜好が高い --Tag quality: ユーザは質の高いタグを好む ---質の高いタグとは、多くのユーザが付与したタグ、多くのユーザが検索したタグなど -ユーザがとったタグへの行動は{0,1}で表現されるが、それを単純に線形な関係があるとして[0,5]のタグ嗜好値に写像する。 --線形関係はユーザのタグへの直接的な行動と実際に与えれたタグへの評価との最小二乗回帰で求める **Inferring Preference using Item Signals -映画への行動を通じてユーザのタグへの嗜好を推定する --ユーザがある映画に高い評価を与えた時、その映画についているタグを嗜好していると推定する --さらに、評価をした映画と関連が高いタグは強く嗜好すると推定し、あまり関連しないタグはあまり嗜好しないと考える --映画とタグとの関連度はタグの質をもとに算出する次の６つのアルゴリズムを考える -Movie-clicks --ユーザは嗜好するタグがついている映画をよくクリックするという仮定 --ユーザがクリックした映画とタグとの関連度の平均がスコアとなる -Movie-log-odds-clicks --movie-clicksの指標と似ているが、全体のタグのpopularityで正規化する --log-oddsを用いる --（結果良くないっぽいから暫定的に無視） -Movie-r-clicks --クリックした映画ではなく、評価した映画に対してmovie-clicksを適用 -Movie-r-log-odds-clicks --クリックした映画ではなく、評価した映画に対してmovie-log-odds-clicksを適用 -movie-ratings --ユーザのタグに対する嗜好は、ユーザのそのタグが付いている映画に対する評価の平均とみなせる -movie-bayes --TBD 2011-07-09T17:06:13+09:00 1310198773 Time Weight Collaborative Filtering https://w.atwiki.jp/ut_ymgc/pages/19.html *ABSTRACT 協調フィルタリング(CF)は主要な推薦アルゴリズムであるが、時間を考慮できていない。すなわち、ユーザがアイテムに対していつ評価を行ったかを考慮していない。ユーザの興味は時間を追って変化していくと考えられるため、時間軸を考慮しないのはおかしい。本稿では、古い評価には小さな重みを与えることで時間軸を考慮した協調フィルタリングを提案する。提案する手法は、クラスタリングを用いて異なるアイテムを区別する。それぞれのクラスタに対してユーザの興味を追っていき、その評価行動に基づいてdecay factorを取り入れる。実施した実験によると計算のオーダを上げることなく精度の向上を実現した。 *INTRODUCTION -CFはユーザベースとアイテムベースがあるが、アイテムベースの方がスケーラビリティや精度が優れている -ユーザの興味は時間を追って変化するため、新しい評価の重みを大きくするべき。 -時間を考慮する簡単なやり方としてウィンドウサイズを設けるものがある --しかし、新しいデータのみを用いるこの手法ではデータが疎であるという問題をより強くしてしまう。 -本稿では、それぞれのアイテムに対して適切な時間重みを与える --あるユーザはすぐに興味が変わってしまうが、別のユーザはゆっくりと変わっていく --同一のユーザであっても異なるアイテムに対しては違った時間的変化を見せる --提案手法では、ユーザは類似するアイテムに対しては類似する時間的変化を見せると仮定する --アイテムをクラスタリングし、それぞれのクラスタに対してのユーザの評価行動を分析し、それぞれのユーザに特化したdecay factorを与える。 *RELATED WORK -コンセプトドリフトに関する研究がいくつかあるけど、本手法はそれに似ている。 --ユーザの興味はコンセプトドリフトみたいに変わっていくから、古いデータをそのまま使っていてはいけない *TIME WEIGHT ALGORITHMS -本手法の主なアイデア --それぞれのアイテムに対して適切な時間的重みを与える --より新しい評価データにはより大きな重みを与える **Item-based Collaborative Filtering Algorithms -アイテムベースの協調フィルタリングは二つのフェーズに分かれる ++&bold(){類似度計算}: 類似度を計算する主要な方法が三つある +++コサイン類似度 +++ピアソン相関係数 +++条件付き確率に基づく類似度: 条件付き確率に基づくアイテムiとjの類似度は、アイテムiを買ったユーザのうち何人がアイテムjを買うかという確率 ++&bold(){嗜好の推定}: あるアイテムに対するユーザの評価の予測は、ユーザが既に評価したアイテム集合に対する評価値を、予測するアイテムとの類似度で平均したもの。 **Time Function -関数f(t)を定義 --嗜好の推定の式の各評価値にf(t)をかける（式5） --f(t)の形として指数関数を採用する ---ユーザの最近の評価を重視するという観点から、指数関数はシグモイド関数よりこの問題に適している -パラメータとしてT0を考える --T0日経過すると関数f(t)の値が半減する --興味が頻繁に変わるユーザに対してはT0を小さく設定 --興味があまり変わらないユーザに対してはT0を大きく設定 **Learning Parameters -ユーザの嗜好を精度よく予測できるパラメータT0を推定する -しかし、ユーザの嗜好は多岐にわたる --同一のユーザでさえも異なるタイプのアイテムに対しては異なる行動をする --あるタイプのアイテムに対する興味は頻繁に変わるが、別のタイプのアイテムに対する興味はあまり変わらないなど -全てのユーザと全てのアイテムに対してそれぞれパラメータを割り振るのは良くない --類似するユーザは類似するアイテムに対して類似する嗜好を示す --同一のユーザは類似するアイテムに対して類似する時間的変化を見せる -本手法では、それぞれのユーザ、それぞれのアイテムクラスタに対してT0を割り当てる --Kmeansを用いてユーザの嗜好データを基にアイテムをクラスタリングする --それぞれのアイテムクラスタに対してleave-one-out法を用いてT0を推定する ---あるアイテムクラスタにおいて、一つをテスト用に抜き出し、抜き出したアイテムに対するユーザの評価を推定し、実際の評価との差を取る。これを全てのアイテムについて行い、MAEを取る。MAEが最小となるようなT0を学習する。 **Building the Model -アルゴリズム参照（読めば分かる） *EXPERIMENTS -二つ実験する --T0が手法の精度にどれくらい寄与するか --既存のCF（アイテムベース）と提案手法との比較 ---どちらもピアソン相関係数を用いる **Experiment Design -EachMovieとGroupLensのデータセットを用いる -学習サイズをユーザ数30, 60, 200と変化させる -All but one --それぞれのユーザの一番新しく評価したアイテムのみをテストに用いる -Given k --それぞれのユーザからk個の評価を用いて学習し、残りをテストに用いる -近傍は３０に設定 **Experiment(1): impact of parameter T0 -T0を10, 20, 50, 100, 200と変化させる --（ユーザごと、アイテムクラスタごとにT0を設定するんじゃなかった？） --異なるユーザに同じT0を与えるのは好ましくない、提案手法では異なるT0を与える ---（なぜかこれに関する実験結果はない） -結果によるとT0は精度に大きく影響を与える（そうは見えない） **Experiment(2): comparison to the classic item-based algorithm -どちらのデータセットに対しても、どの大きさの学習サイズに対しても、どのテスト手法（all but one, given k)に対しても提案手法の方が精度良かった。 **Complexity Analysis -アイテム間の類似度計算（オフライン処理）にはかなりの計算量がかかる --提案手法も同じで、かなりの計算量がかかっている -それに加えて提案手法はT0を計算する分だけより計算量がかかる --しかし、T0を計算する部分は類似度計算よりも計算量が少ないため、無視できることがある -評価の予測（オンライン処理）の計算量は提案手法も従来手法も同じ *CONCLUSION AND FUTURE WORK 時間の重みを付けた協調フィルタリングを提案。最近の評価は昔の評価よりもユーザの嗜好をより反映している。あるユーザがあるアイテムクラスタに対してどのように興味が変わっていくかを学習する（T0をそれぞれのユーザ、それぞれのアイテムクラスタに対して割り当てる)。実験結果によると提案手法は従来手法を上回る精度を実現した。今後はストリームデータに対するＣＦを検討する 2011-07-06T08:25:26+09:00 1309908326 Social Netowrking Feeds https://w.atwiki.jp/ut_ymgc/pages/18.html *ABSTRACT ソーシャルメディアの普及に伴って、ソーシャルメディア上の情報（アップデートや友人の行動など）は膨大になっている。本研究では、ユーザが興味を持つようなアップデートを特定し、ユーザ個人への負荷を減らす。ユーザの興味に合致するようなアップデートを特定し、ユーザへ推薦する。ユーザの興味はユーザのソーシャルネットワーク上での行動履歴を基に推定する。 *INTRODUCTION SNSを利用するユーザはいろいろなアクションをとる -写真やビデオのアップロード -グループへの加入 -だれかと友人になる -コメントをポストする -友人や他人のコンテンツを閲覧する SNSはユーザに対して、そのユーザの友人が撮ったアクションをフィードの形で提供する。しかし、大量のフィードが生成されるため、ユーザは自分が興味のあるコンテンツを見つけることが難しい。ユーザとフィードアイテムの適合性を算出し、適合性の高いフィードアイテムの集合を、ユーザに推薦する。どのようなユーザアクションが最もユーザの興味を表すかを調査 short term user interest modelと、long term user interest modelのどちらの精度が高いかを検証する *SOCIAL NETWORK ACTIVITY FEEDS それぞれのフィードアイテムは次の四つの部分からなる -subject: 誰がそのアクションを行ったか -action: どんなアクションを行ったか -object: 何に対してアクションを行ったか（ユーザ、もしくはコンテンツ） -time: いつアクションを行ったかフィード生成は近年注目を集めている -facebookが動的にフィードを生成する特許を取っている facebookやmyspaceなどのSNSにはユーザが自分のフィードをカスタマイズする機能を持っている -この友人のアクションは表示させないとか -カスタマイズするのに時間がかかってしまう facebookはフィードの表示方法を二通り用意している -人気順に並べるもの -新しい順に並べるもの全ての友人の全てのアクションをフィードに表示させるのは現実的でない -膨大な数のフィードアイテムは閲覧できない -本当に興味のあるフィードアイテムを見逃してしまう *JUDGING FEED ITEM RELEVANCE **Action Relevance アクションacとユーザuTの適合性を算出する方法を二通り提案する -ユーザuTがアクションacを行う規則性を測る --日にちdmからdnの間に写真をポストする、グループを作成する等 -ユーザuTが、他のユーザが行ったアクションacを閲覧する規則性を測る --日にちdmからdnの間に写真を閲覧する、グループページを閲覧する -規則性はユーザがログインしている時間とアクションが行われた日数との比で表す **User Relevance ユーザ同士の適合性を次の二通りの方法で算出する -あるユーザからあるユーザに対して直接アクションをする --ユーザのメッセージボードに書き込む --ユーザがポストしたコンテンツにコメントする -あるユーザがあるユーザのコンテンツを閲覧する --ユーザのプロフィールページを閲覧する --ユーザがポストした写真を閲覧する共通の友人や共通して所属するグループ、やりとりしたメッセージなどは用いない！（なぜだ！）ユーザがログインしていた日数分のアクションを起こした日数で表現 **Long and Short Term Relevance ユーザとアクション（フィードアイテム）との類似度はLong TermとShort Termに分けられる -類似度を計算する際の日数で調節 -long termならユーザの長い間の興味が分かる -short termならユーザの今の興味が分かる *EVALUATION 2011-06-22T11:54:37+09:00 1308711277 Social Netowork Data Analytics https://w.atwiki.jp/ut_ymgc/pages/17.html *CHAPTER 9 - A SURVEY OF LINK PREDICTION IN SOCIAL NETWORKS **ABSTRACT -リンク予測(link prediction): ネットワーク構造の可観測な一部分を手掛かりに、残りの部分のネットワーク構造を予測する事。または、現在のネットワーク構造を手掛かりに、未来のネットワーク構造を予測すること。 -リンク予測は情報検索やbioinfomatics, e-commerceに応用されている重要なタスクとなっている。 -様々な手法があるが、本章では以下の三つを説明する --基本的な(non-Baysian)手法 --確率的な手法 --線形代数的な手法（？） -最後に最新の研究のサーベイについて説明する *CHAPTER 10 - PRIVACY IN SOCIAL NETWORKS **ABSTRACT -ソーシャルネットワークにおけるプライバシーについてサーベイ -プライバシーの穴（privacy breaches)やプライバシーを破る攻撃(privacy attack)を定義 -プライバシーを匿名化という文脈で定義し、匿名化の手法について説明 *CHAPTER 11 - VISUALIZING SOCIAL NETWORKS **ABSTRACT -ソーシャルネットワークの普及に伴い、それをマイニングすることが重要になっている -しかし、大規模化、複雑化に伴って簡単な統計では不十分になっている -そこで、ソーシャルネットワークをビジュアライズすることでマイニングする方法が流行っている -ネットワーク構造やネットワークの意味など、異なる目的にどう対応するか *CHAPTER 12 - DATA MINING IN SOCIAL MEDIA **ABSTRUCT -本章では以下を説明 --データマイニングの基本 --ソーシャルメディアのレビュー --ソーシャルメディアをどのようにマイニングするか --いくつかのSNSやブログを対象に、例を示す *CHAPTER 13 - TEXT MINING IN SOCIAL NETWORKS **ABSTRUCT -ソーシャルネットワークをマイニングするにはテキストマイニングが欠かせなくなっている -多くの手法は、テキストマイニングもしくはリンクマイニングのいずれかしか用いていない -最近の手法は両方用いている --多くの場合、両方用いた手法の方が良い精度を実現している -本章では両方用いた手法のサーベイをする *CHAPTER 14 - INTEGRATING SENSORS AND SOCIAL NETWORKS **ABSTRUCT -GPSや加速度センサーなど、人々の行動に結びついたセンサーが多くある -センサーを通じて得た情報を用いると、人々の関係性や人々の行動がモデリング出来る -しかし、センサーのデータは大抵プライベートであるため、プライバシーを侵害しないようなまいにんぐをする必要がある -本章ではこの分野のサーベイをする *CHAPTER 15 - MULTIMEDIA INFORMATION NETWORKS IN SOCIAL MEDIA **ABSTRACT -マルチメディアのデータセットには構造化されたデータが付けられている --semantic ontology --social interaction --community media --geographical maps -このような構造化されたデータはmultimedia information networkと呼ばれ、ソーシャルネットワークと似ている --マルチメディアファイルのトピックや意味をネットワーク構造から分析する -本章では、関連するシステムの紹介や、この分野に関連する研究などを説明する *CHAPTER 16 - AN OVERVIEW OF SOCIAL TAGGING AND APPLICATIONS **ABSTRACT -メタデータをwebオブジェクトにひもづける -本章では、様々なソーシャルタギングの研究を説明する --tagging models --tag semantics --tag streams --recommendations using tags --visualizations of tags --applications of tags --integration of different tagging systems --problems associated with tagusage -さらに次のようなトピックについて議論する --why people tag --what influences the choice of tags --how to model the tagging process --kinds of tags --different power law in different tagging system --how tags are created --how to choose the right tags for recommendation -タグという形で与えられたメタデータは --web search --web object classification --generating ontologiesの精度を向上させる 2011-06-21T20:24:49+09:00 1308655489 Short and Tweet https://w.atwiki.jp/ut_ymgc/pages/16.html *ABSTRACT Twitterのコンテンツ推薦をする。コンテンツ推薦には、コンテンツ、ユーザのトピック興味、ソーシャルな投票の三つを用いる。１２個の推薦システムを作成し、実際に使ってもらって評価した。一番良いアルゴリズムは７２パーセントの精度を示した。 *INTRODUCTION 情報爆発に伴い、ユーザは情報のフィルタリングと、情報の発見の二つを求めている。 -ユーザは毎日何百ものコンテンツを受信している。これはユーザが見られる量を越えている。 --フィルタリングが必要 -自分のフィードに現れないが、興味のあるコンテンツを探したい。 --友人の友人が発信したwebページや、友人が読んでいるフィードに現れるブログなど一つのアプローチとして、ユーザの興味に見合ったコンテンツ推薦がある -情報ストリームには他の分野とは異なる三つの特徴がある --ストリームに現れるコンテンツは発信されてから少しの間だけおもしろい。そのため、推薦システムは常にコールドスタート問題の状態になる --ユーザは他のユーザのストリームを閲覧したり、他のユーザとコンテンツを共有したりできる。 --ユーザはコンテンツを閲覧するだけでなく、コンテンツの発信者になり得る。 -推薦システムは、これらの特徴を用いている URL推薦システムを提案する -www.zerozero88.com *RELATED WORK コンテンツ推薦において最もよく用いられているのは協調フィルタリング -コンテンツを用いない（内容を用いない）で、ユーザの興味を用いる。 -ユーザとアイテムの関係が少ないコールドスタート問題がある --コンテンツのテキストベースの特徴を用いることで回避することが多い -一人のユーザの情報では少ないため、ユーザをグループにまとめてその情報を用いる手法があるソーシャルな情報を用いたコンテンツ推薦もある -ニュースグループに対して、頻繁にポストされるURLを推薦する -ユーザから他のユーザへの意見を基にコンテンツを推薦する -友人の友人が友人ではないかと推薦するシステム --類似するキーワードを用いた友人推薦より高い精度 Twitterから発信される情報量は膨大であるため、スケーラブルな推薦システムが必要 -ユーザをクラスタリングし、コンテンツ推薦の際にはユーザの"隣人"のみを対象とする -分割統治法を用いた推薦システムいろいろな推薦システムが提案されているが、実装、評価されていないものが多い -実装、評価し、そのシステムがTwitterに適しているか判断。 **DESIGNING RECOMMENDERS FOR TWITTER 推薦システムを次のように定義する -推薦する候補のURLをどのように決めるか -コンテンツの情報をどのように利用するか -ソーシャルな情報をどのように利用するか推薦する候補のURLをどのように決めるか -フォローしているユーザがフォローしているユーザがポストしたURL --近くのユーザは興味が似ている -Twitter上で人気のあるURL -ポストされてから７日間だけ対象にするトピック類似度でURLをランキング -ツイートからユーザのプロフィールを作成 --BOW -プロフィールは単語ベクトルで表される --ベクトルの各要素はTFIDF --Self-Profile -ユーザがフォローしているユーザ群が発信した単語ベクトルで表す --ＴＦはある単語を頻繁に使用するユーザ（フォローしている）の数 --Followee-Profile -URLを含むツイートに含まれる単語でURLの単語ベクトルを作る --ツイートに含まれる単語は少ないため、キーワード拡張を使う -URLの単語ベクトルと、ユーザの単語ベクトルとの類似度を測り、ランキング --類似度はコサイン類似度を用いる --算出した類似度は、self-profileを用いていたらself-topic、followee-profileを用いていたらfollowee-topicと呼ぶソーシャルな情報でURLをランキング -グループ内で多くポストされたURLをグループメンバに推薦する --一人一票 -Twitterにこれを拡張する --グループはフォロー関係で近くにいるユーザ --ユーザは自分の興味に従ってフォローするユーザを選ぶ --一人一票ではなく、信頼できるユーザは何票も持つようにする ---信頼性の伝搬。多くフォローされるユーザは信頼できる --ツイート数が少ないユーザは信頼できる -URLにスコア付け --ユーザuのfollowee of followee達のうち、そのURLをポストしたユーザの信頼度の合計がURLのスコアとなる --followee of followeeの信頼度はfolloweeのうち何人がfollowee of followeeをフォローしているかに比例する --また、followee of followeeの信頼度はその人のツイート頻度のタイムインターバルに比例する *EMPIRICAL STUDIES -FoF, Self, Voteが最も精度が良かった（72%) --URLの候補集合はfollowee-of-followeeがポストしたもの --URLと自分との類似度は自分のツイートを用いる --ソーシャルVoteを用いる 2011-06-17T12:10:39+09:00 1308280239 Information Filtering on Micro-blogging Services https://w.atwiki.jp/ut_ymgc/pages/15.html *ABSTRACT Twitterからはリッチでリアルタイムな情報が多く入手できるが、フィルタリングツールがないために、全てのツイートを受信している。本研究では、リストに注目してツイートをフィルタリングするシステムを提案する。リスト内ではあるトピックに特化したツイートが発信されるが、ノイズも多くある。本システムではリストからのノイズを取り除く。時系列情報や、ツイートに含まれるリンクを利用する。実験によると、本システムは８５から９５パーセントの精度を実現した。 *INTRODUCTION Twitterからあるトピックに関する情報を検索するのは難しい -ユーザは一つのチャネルを用いて情報発信をするため --様々な目的に応じたツイートを発信する（会話、ジョーク、情報の共有） --ユーザが受信しているツイートのうちのいくらかは欲しているものではない -フォローしているユーザからのツイートは一つのフィードとしてまとめられるため --ユーザは様々な興味をもっていて、その興味に応じて様々なユーザをフォローしている --様々なトピックのツイートがひとまとめにされてしまう。上記二つ目の問題点を解決するためにTwitterはリスト機能を提供した -リストは一つのフィードととらえることが出来る。 -良いリストは情報源として用いられる。リストは一つのトピックの情報を得るために用いることが出来るが、以下の二つのノイズがある -ユーザは様々なトピックに関する情報発信をするため、リストに関連しないトピックの情報発信をすることもある -Twitter全体を通じてのトレンド。これらはどのようなリストにも登場する。以上より、ツイートをフィルタリングする機能が必要。しかし、マイクロブログのコンテンツをフィルタリングするのには以下に挙げる課題がある -短いテキスト --短いテキストを分類するのは難しい -トピック推定 --トピックの粒度がいろいろあるため、むずかしい -単語の揺らぎ --略語やスラングを含むため、語彙が大きくなり、wikipediaやwordnetで対応できない --どの単語がキーワードで、どの単語が一般的な単語なのかを判別しなくてはならない。 ---言語が違うため、ストップワードリストは使えない。 -語彙の変化 --例えば、新しい映画、製品、イベントの名前などが突如現れ、すぐに話題になる。 --そのため、語彙は静的ではなく、常に変化する -異なる言語本研究では、リストを用いた情報フィルタリングシステムを提案する -リストから発信されるツイートのうち、リストのトピックに合致しないものを除去 -リストは類似する興味を持つユーザの集合になっているリストのメイントピックを抽出する -メイントピックに関する単語は頻出、Twitter全体においてのトレンドに関する単語も頻出 --リスト内での頻度と、全体での頻度を比較してスコアリングする --頻度はリアルタイムに計算できる -ツイートがリストのメイントピックとどれだけ似ているかを測る --ツイートが短いという問題点は、ツイートに含まれるURLを用いることで回避するリスト内のツイートを適合、非適合に分類する -分類器には以下の四つの特徴を用いる --ツイートのテキストの特徴 --ユーザのコミュニティの特徴 --時系列の特徴 --リンクの特徴 -分類器は各リストにつき一つ作成する -分類器は動的な変化に対応できる *RELATED WORK **Text Classification and Filtering テキスト分類は以下の二つの方法に分けられる -コンテンツベース --テキストから抽出した情報を用いる -ソーシャルベース --他のユーザがテキストに付加した注釈を用いるテキストフィルタリングは、適合または非適合へのテキスト分類と考えることが出来る。短いテキストの分類をする手法はいくつかある -wikipediaを用いる手法 -サーチエンジンを用いる手法 -トピックモデルを用いる手法（LDAを用いている） -コーパスベース、知識ベースでテキストの類似度を測る手法 **Twitter Related いっぱいある *Filtering as a Classification Problem TFつかってる 2011-06-16T02:50:08+09:00 1308160208