強化学習攻略・考察Wiki

Double Oracle

最終更新：2026年02月15日 11:46

匿名ユーザー

- view

だれでも歓迎！編集

概要

Double Oracle
英名	DO
別名	ダブル・オラクル

Double Oracleとは、ナッシュ均衡を求めるゲーム理論のアルゴリズムの一つ。

根本的なアルゴリズムの構造としては、列生成法に近い。プレイヤー1もプレイヤー2も両方がオラクルを利用して純粋戦略の候補を追加していくのがその名の由来である。

限られた純粋戦略候補の中から開始し、小さなゲームの解(混合戦略)を求める。

その得られた解に対して、オラクルは全ての戦略から最適応答を探す。そして、その最適応答の戦略を戦略候補の中に追加して、再び小さなゲームを解くということを繰り返す。

オラクルの見つける最適応答による利得が、現在の戦略の期待利得と十分近くなったときに終了し、その時点での混合戦略がナッシュ均衡戦略の近似となる。

深層学習や強化学習への拡張としては、PSROがある。

参考になる文献

Double Oracleの原論文
- Planning in the Presence of Cost Functions Controlled by an Adversary
連続ゲームへの拡張
- Double Oracle Algorithm for Computing Equilibria in Continuous Games

タグ：

ゲーム理論ナッシュ均衡

+ タグ編集

「Double Oracle」をウィキ内検索

記事メニュー

環境

モデル

MDP
POMDP

深層強化学習の手法

価値ベース

方策ベース

モデルベース

ゲーム理論

FP系

CFR系

DO系

勾配系

その他

Exploitability Descent

協力MARL

リンク

ここを編集

最近更新されたスレッド

+新規スレッドを作成する

最近更新されたページ

急上昇Wikiランキング

急上昇中のWikiランキングです。今注目を集めている話題をチェックしてみよう！

新規Wikiランキング

最近作成されたWikiのアクセスランキングです。見るだけでなく加筆してみよう！

人気Wikiランキング

atwikiでよく見られているWikiのランキングです。新しい情報を発見してみよう！

全体ページランキング

最近アクセスの多かったページランキングです。話題のページを見に行こう！