「Analyzing Spammer's Social Networks for Fun and Profit」の編集履歴(バックアップ)一覧はこちら
追加された行は緑色になります。
削除された行は赤色になります。
Analyzing Spammer's Social Networks for Fun and Profit -- A Case Study of Cyber Criminal Ecosystem on Twitter
- Chao Yang, Robert Harkreader, Jialong Zhang, Seungwon Shin, Guofei Gu
-- Texas A&M Universityの人々
- In WWW 2012
* 概要
- Twitterのスパムに関するcase study
- スパム同士は結合しやすい、強固に
- small-world
- 外部とのつながりを見ると、3カテゴリに分けられることが分かった
- スパムっぽいのの生態系
-- アカウントコミュニティ
-- サポーターのコミュニティ
-- スパム同士はどう繋がってる?
-- 外部とのつながり
- Contribution
-- スパム同士はsmall-world、葉よりハブの方がスパムをフォローしてる
-- アルゴリズム Mr.SPA
--- サポーター発見
--- social butterflies: てきとーにフォローバックする
-- アルゴリズム CIA
---小さいseed setからスパムを推測
* やりたいこと
- スパムはTwitter内でいかにして生きているか(潜伏しているか)
* データセット
- スパムは昔の手法で解析
- 2010年4月~7月
- 485,721 ユーザー
- 14,401,157 ツイート
- 5,805,351 URL
-- 短縮URLがあるので最終的に着くのだけにする
- 10,004アカウントは悪意あるの
- 2,060はスパム
- URL は URL blacklist Google Safe Browsing
* 内部の関係
** 関係の特徴
- Finding 1: 悪意あるアカウントは連結しやすくsmall-worldを構成する
- 図から
- グラフ密度
-- スパム: 2.33*10^-3
-- 普通: 8.45*10^-7
- Reciprocity
-- bi-directionalな辺の数/出辺の数
-- 悪垢: 95%が0.2以上
--- 互いにフォロバするからだね
-- 普通: 55%が0.2以上
- 平均最短路長
-- 普通: 4.12
-- 悪垢: 2.60
--- でかい連結成分
- じゃあ何でそうなるの?
- Possible Factor 1: 悪垢は何も考えずにフォローしまくる
-- following quality: あるアカウントをフォローしている人のフォロワー数
-- 明確な差が出た
- Possible Factor 2: 同じ組織に属する悪垢は、意図的に結合しあう
-- ポストしたURLでクラスタリング
-- それっぽい
- criminal hubとcriminal leaf
-- 何か違いはあるのか?
- ハブスコア…HITSアルゴリズム
-- 出入の辺に応じて再帰的な式
- Finding 2: 葉と比べてハブは悪垢をフォローしやすい
- Possible Explanation: ↑をするとフォロワーは効率的に獲得できる
- Shared Follower Ratio: ???よくわからん
- 結局、どうやってフォロワーを得ているかというと
-- 蜂コミュニティっぽい
-- ハブが女王、葉が働き
-- 餌?がフォロワー
* 外部の関係
** サポーターの抽出
- Mr.SPA: Malicious Relevance Score Propagation
- 3ヒューリスティクスにもとづいてアカウントにスコアを割り当てる
+ 悪垢をフォローしているとスコア増(?
+ 悪垢から遠いとスコア減
+ 悪垢に近いほどスコア増
- 良さげな定式化をする
** サポーターの特徴
- 3つある: social butterflies, social promoters, dummies
*** Social Butterflies
- フォローもフォロワーも多い
- 2,000フォローをしきい値
- 4,000くらいいた
- 蝶は何も考えずにフォローバックを返すから悪垢もフォローしちゃう
- 検証もした
*** Social Promoters
- フォローがフォロワーに比べてめちゃ多い
- ビジネス
- URLが全ツイートの10%以上
- とにかくフォローをしたいから
*** Dummies
- フォロワーが多いけど、ポストが少ない
- 5 ツイート
- 悪意ある人によるもの(bot)じゃね
- 凍結されたり、やばげなURL流したり、フィッシングとか
-- 最初はそんなことなかったのに…
* 悪垢推定法
- CIA: Criminal accounts Inference Algorithm
+ 悪垢は連結しようとする
+ 似たような単語/URLをシェアする
- Semantic Similarity scoreとかいうのを使う
- seedを選んでそこからどうにかするらしい
- 何かイイらしい
* まとめ
- こういう現象解析は面白いね
- Twitterの中の人がいなくてもそこそこ大きいデータでできるんね
- 悪垢検出みたいなのは難しそう
- あんまり分からんのでスコアの定式化が良いのかどうか分からない
&tags()
&update()
Analyzing Spammer's Social Networks for Fun and Profit -- A Case Study of Cyber Criminal Ecosystem on Twitter
- Chao Yang, Robert Harkreader, Jialong Zhang, Seungwon Shin, Guofei Gu
-- Texas A&M Universityの人々
- In WWW 2012
- 参考
-- http://www.slideshare.net/KuoE0/www2012-analyzing-spammers-social-networks-for-fun-and-profit
* 概要
- Twitterのスパムに関するcase study
- スパム同士は結合しやすい、強固に
- small-world
- 外部とのつながりを見ると、3カテゴリに分けられることが分かった
- スパムっぽいのの生態系
-- アカウントコミュニティ
-- サポーターのコミュニティ
-- スパム同士はどう繋がってる?
-- 外部とのつながり
- Contribution
-- スパム同士はsmall-world、葉よりハブの方がスパムをフォローしてる
-- アルゴリズム Mr.SPA
--- サポーター発見
--- social butterflies: てきとーにフォローバックする
-- アルゴリズム CIA
---小さいseed setからスパムを推測
* やりたいこと
- スパムはTwitter内でいかにして生きているか(潜伏しているか)
* データセット
- スパムは昔の手法で解析
- 2010年4月~7月
- 485,721 ユーザー
- 14,401,157 ツイート
- 5,805,351 URL
-- 短縮URLがあるので最終的に着くのだけにする
- 10,004アカウントは悪意あるの
- 2,060はスパム
- URL は URL blacklist Google Safe Browsing
* 内部の関係
** 関係の特徴
- Finding 1: 悪意あるアカウントは連結しやすくsmall-worldを構成する
- 図から
- グラフ密度
-- スパム: 2.33*10^-3
-- 普通: 8.45*10^-7
- Reciprocity
-- bi-directionalな辺の数/出辺の数
-- 悪垢: 95%が0.2以上
--- 互いにフォロバするからだね
-- 普通: 55%が0.2以上
- 平均最短路長
-- 普通: 4.12
-- 悪垢: 2.60
--- でかい連結成分
- じゃあ何でそうなるの?
- Possible Factor 1: 悪垢は何も考えずにフォローしまくる
-- following quality: あるアカウントをフォローしている人のフォロワー数
-- 明確な差が出た
- Possible Factor 2: 同じ組織に属する悪垢は、意図的に結合しあう
-- ポストしたURLでクラスタリング
-- それっぽい
- criminal hubとcriminal leaf
-- 何か違いはあるのか?
- ハブスコア…HITSアルゴリズム
-- 出入の辺に応じて再帰的な式
- Finding 2: 葉と比べてハブは悪垢をフォローしやすい
- Possible Explanation: ↑をするとフォロワーは効率的に獲得できる
- Shared Follower Ratio: ???よくわからん
- 結局、どうやってフォロワーを得ているかというと
-- 蜂コミュニティっぽい
-- ハブが女王、葉が働き
-- 餌?がフォロワー
* 外部の関係
** サポーターの抽出
- Mr.SPA: Malicious Relevance Score Propagation
- 3ヒューリスティクスにもとづいてアカウントにスコアを割り当てる
+ 悪垢をフォローしているとスコア増(?
+ 悪垢から遠いとスコア減
+ 悪垢に近いほどスコア増
- 良さげな定式化をする
** サポーターの特徴
- 3つある: social butterflies, social promoters, dummies
*** Social Butterflies
- フォローもフォロワーも多い
- 2,000フォローをしきい値
- 4,000くらいいた
- 蝶は何も考えずにフォローバックを返すから悪垢もフォローしちゃう
- 検証もした
*** Social Promoters
- フォローがフォロワーに比べてめちゃ多い
- ビジネス
- URLが全ツイートの10%以上
- とにかくフォローをしたいから
*** Dummies
- フォロワーが多いけど、ポストが少ない
- 5 ツイート
- 悪意ある人によるもの(bot)じゃね
- 凍結されたり、やばげなURL流したり、フィッシングとか
-- 最初はそんなことなかったのに…
* 悪垢推定法
- CIA: Criminal accounts Inference Algorithm
+ 悪垢は連結しようとする
+ 似たような単語/URLをシェアする
- Semantic Similarity scoreとかいうのを使う
- seedを選んでそこからどうにかするらしい
- 何かイイらしい
* まとめ
- こういう現象解析は面白いね
- Twitterの中の人がいなくてもそこそこ大きいデータでできるんね
- 悪垢検出みたいなのは難しそう
- あんまり分からんのでスコアの定式化が良いのかどうか分からない
&tags()
&update()