Influence Maximization: Near-Optimal Time Complexity Meets Practical Efficiency
-
Youze Tang, Xiaokui Xiao, Yanchen Shi
-
SIGMOD 2014
概要
-
RIS (SODA'14)を実用的に改良するよ!
-
提案手法 TIM, TIM+
-
サンプリング回数をいい感じにしました。
-
$$ O(\epsilon^{-2}(k+\ell)(n+m)\log n) $$時間
-
ヒューリスティックで更に効率改善→TIM+
-
triggeringモデルにも拡張したよ
提案手法 Two-phase Influence Maximization (TIM)
-
フェーズ1:サンプリング回数θを決める
-
フェーズ2:RR集合をθ回サンプルして、貪欲アルゴリズムを走らせる
必要なサンプリング回数
-
$$ \theta \geq (8+2\epsilon)n \cdot \frac{\ell \log n + \log {n \choose k} + \log 2}{OPT_k \cdot \epsilon^2} $$ならば、
-
確率$$ 1-n^\ell / {n \choose k} $$以上で、全ての高々k頂点集合について、絶対誤差が$$ \epsilon OPT_k/2 $$以下
-
出来るだけ正確な(k頂点集合の)最適値OPTを求められたら勝ち
OPTの下限推定
-
案①: 単一頂点の影響拡散の重み付き和
-
$$ \mathbf{E}_{v \sim \mathcal{D}}[I(\{v\})] = \frac{n}{m}EPT $$
-
ただし、Pr[vを標本する]∝ (vの入次数)
-
EPTは一回のRR集合サンプルで見る辺の数の期待値
-
漸近的には良いけど、kが大きい時にはOPT_kとの差が出る
-
案②: k頂点集合の影響拡散の重み付き和
-
$$ KPT \equiv $$ k頂点集合(無作為)の影響拡散の期待値
-
これを直接は計算しない
-
$$ KPT = n \cdot \mathbf{E}_R\left[ 1-\Bigl( 1-\frac{w(R)}{m} \Bigr)^k \right] $$
-
KPTの推定…RR集合の数を倍々にしながら頑張る(保証付き)
改善TIM+
-
もうちょっとヒューリスティックで良くする
-
KPTを推定→KPT*
-
KPT*個のRR集合上で貪欲→S'
-
S'の影響拡散を"別の"KPT*個のRR集合で推定→KPT'
-
return max{KPT*, KPT'}
実験
-
辺確率:1/入次数「だけ」
-
比較手法:RIS, CELF++, IRIE, SIMPATH
-
データセットによっては、kが大きい方が実行時間が短い時がある
まとめ
-
読み直したらそれ程はやばくない
-
実験がちょっと適当
SIGMOD 影響最大化
2017/10/01
最終更新:2017年10月01日 19:27