Influence Maximization: Near-Optimal Time Complexity Meets Practical Efficiency - todo314 @ ウィキ - atwiki（アットウィキ）

todo314 @ ウィキ

todo314 @ ウィキ

Influence Maximization: Near-Optimal Time Complexity Meets Practical Efficiency

Influence Maximization: Near-Optimal Time Complexity Meets Practical Efficiency

Youze Tang, Xiaokui Xiao, Yanchen Shi
SIGMOD 2014

概要

RIS (SODA'14)を実用的に改良するよ！
提案手法 TIM, TIM+
- サンプリング回数をいい感じにしました。
- $$ O(\epsilon^{-2}(k+\ell)(n+m)\log n) $$時間
- ヒューリスティックで更に効率改善→TIM+
triggeringモデルにも拡張したよ

提案手法 Two-phase Influence Maximization (TIM)

フェーズ1：サンプリング回数θを決める
フェーズ2：RR集合をθ回サンプルして、貪欲アルゴリズムを走らせる

必要なサンプリング回数

$$ \theta \geq (8+2\epsilon)n \cdot \frac{\ell \log n + \log {n \choose k} + \log 2}{OPT_k \cdot \epsilon^2} $$ならば、
確率$$ 1-n^\ell / {n \choose k} $$以上で、全ての高々k頂点集合について、絶対誤差が$$ \epsilon OPT_k/2 $$以下
出来るだけ正確な（k頂点集合の）最適値OPTを求められたら勝ち

OPTの下限推定

案①: 単一頂点の影響拡散の重み付き和
- $$ \mathbf{E}_{v \sim \mathcal{D}}[I(\{v\})] = \frac{n}{m}EPT $$
  - ただし、Pr[vを標本する]∝ (vの入次数)
  - EPTは一回のRR集合サンプルで見る辺の数の期待値
- 漸近的には良いけど、kが大きい時にはOPT_kとの差が出る
案②: k頂点集合の影響拡散の重み付き和
- $$ KPT \equiv $$ k頂点集合（無作為）の影響拡散の期待値
- これを直接は計算しない
- $$ KPT = n \cdot \mathbf{E}_R\left[ 1-\Bigl( 1-\frac{w(R)}{m} \Bigr)^k \right] $$
  - w(R)は見た辺の数
- KPTの推定…RR集合の数を倍々にしながら頑張る（保証付き）

改善TIM+

もうちょっとヒューリスティックで良くする
KPTを推定→KPT*
KPT*個のRR集合上で貪欲→S'
S'の影響拡散を"別の"KPT*個のRR集合で推定→KPT'
return max{KPT*, KPT'}

実験

辺確率：1/入次数「だけ」
比較手法：RIS, CELF++, IRIE, SIMPATH
データセットによっては、kが大きい方が実行時間が短い時がある
- 推定の精度の問題っぽい

まとめ

読み直したらそれ程はやばくない
実験がちょっと適当

SIGMOD 影響最大化

2017/10/01

タグ：

SIGMOD 影響最大化

「Influence Maximization: Near-Optimal Time Complexity Meets Practical Efficiency」をウィキ内検索

最終更新：2017年10月01日 19:27