適当なまとめ
クラスタベースでambiguityとredundancyを評価した。タグとリソースをクラスタリングする。ambiguityは異なるクラスタに属すリソースに付けられるタグに対して大きくなる。redundancyは推薦したタグのうち、同じクラスタに属すペアの割合が大きければ大きくなる。
ABSTRACT
- tag ambiguity
- tag redundancy
これらはタグ推薦の精度や評価を妨げる。本研究では5つのタグ推薦手法(人気度、協調フィルタリング、リンク分析)を調査し、これらの影響を調べる。クラスタベースの手法を用いてambiguityとredundancyを定義する。
INTRODUCTION
tag ambiguityとredundancyはタグ推薦の有効性を判断しづらくする。例えば、ambiguityタグが持つ一つの意味が合っていれば正しいタグ推薦をしたと判断してしまう。また、redundancyタグに関しては、正解セットに"Java"があるときに、"java"が推薦されても不正解としてしまう。
本論文ではambiguityとredundancyがタグ推薦にどれくらい影響を与えるかを評価する。クラスタベースの評価手法は言語非依存である。
クラスタベースの手法を用いてambiguityとredundancyを評価
- リソースとタグをクラスタリングする
- 別のクラスタに属すリソースに付けられているタグはambiguity
- 一つのクラスタに属すタグはredundancy
RELATED WORK
タグ推薦手法
- link analysis
- collaborative filtering
- entorpy
MEASURING AMBIGUITY AND REDUNDANCY
リソースをタグベクトルで表す。タグベクトルの各要素はタグがリソースに付けられた頻度で表す。タグ同士の類似度はコサイン類似度で表す。
タグの類似度は、タグをリソースベクトルで表し、コサイン類似度を用いる。
クラスタリングの精度はhubbert's correlationで測る
Ambiguity
Ambiguous tags have multiple meanings.
それぞれのクラスタにタグが付けられた頻度をもとめ、そのエントロピーが大きいタグはambiguity
- 多くのクラスタにまんべんなく付けられているタグはambiguity
Redundancy
消えたからやる気なくなった。
以下、メモ
- データセットからambiguityタグを除去してもユーザ数、リソース数は減らない
- ユーザはリソースにタグ付けする時、ambiguityタグのみでタグ付けすることは少ないから
最終更新:2011年07月23日 01:14