強化学習攻略・考察Wiki

仮想プレイ

最終更新：2026年01月18日 12:03

reinforcement

- view

だれでも歓迎！編集

概要

仮想プレイ
英名	Fictitious Play
別名	FP

仮想プレイとは、ナッシュ均衡を求めるゲーム理論のアルゴリズムの一種。これ自体が強化学習ではないが、後続の手法であるNFSPは強化学習手法を取り入れている。

基本的に自己対戦を前提としている。

相手がこれまでに取ってきた戦略の経験分布（平均戦略)を相手の戦略とみなし、それに対する最適応答を自分は返す、ということを繰り返すことでナッシュ均衡を求める。

最終的な出力（混合分布）はこれまでに出力してきた自分の最適応答の経験分布であって、最終ステップでの最適応答の純粋戦略ではない点に注意。

2つの更新方法

FPには、同時更新型（Simultaneous Fictitious Play:SFP）と交互更新型 (AFP: Alternating Fictitious Play）があり、歴史的には交互更新型のほうが先に提案された。

今日の教科書で紹介されるのは、SFPであることのほうが多い。

同時更新型では、お互いがtターン目の行動を選択し終わったあとに、両者とも相手のtまでの経験分布をみて最適応答を決定する。じゃんけんを連想すればよい。

一方で、交互更新型では、相手が行った戦略は即座に経験分布に反映される。戦略決定は常に相手の行動を受ける形で行われる。将棋を連想すればよい。

SFPとAFPは収束するゲームが異なっていることで知られている。

参考になる文献

Iterative solution of games by fictitious play
- 1951年に発表された、最古の仮想プレイの論文。交互更新型が提案された。
An Iterative Method of Solving a Game
- 1951年。2人プレイゼロサムゲームかつ両プレイヤーの戦略数が有限の場合にナッシュ均衡に収束することが示されている。
Brown's Original Fictitious Play

タグ：

ゲーム理論ナッシュ均衡

+ タグ編集

「仮想プレイ」をウィキ内検索

記事メニュー

環境

モデル

MDP
POMDP

深層強化学習の手法

価値ベース

方策ベース

モデルベース

ゲーム理論

FP系

CFR系

DO系

勾配系

その他

Exploitability Descent

協力MARL

リンク

ここを編集

最近更新されたスレッド

+新規スレッドを作成する

最近更新されたページ

急上昇Wikiランキング

急上昇中のWikiランキングです。今注目を集めている話題をチェックしてみよう！

新規Wikiランキング

最近作成されたWikiのアクセスランキングです。見るだけでなく加筆してみよう！

人気Wikiランキング

atwikiでよく見られているWikiのランキングです。新しい情報を発見してみよう！

全体ページランキング

最近アクセスの多かったページランキングです。話題のページを見に行こう！