強化学習攻略・考察Wiki

PSRO

最終更新：2026年02月16日 17:53

reinforcement

- view

だれでも歓迎！編集

概要

PSRO
英名	Policy-Space Response Oracles
別名	方策空間応答オラクル

PSROは、Double Oracleのアイデアを強化学習の方策に応用したものである。元々のDOが「純粋戦略(強化学習で言えば行動)」を選択肢としていたのに対し、PSROは「方策」を選択肢とする

各プレイヤーは、方策の選択肢の集合を持っている。どの方策をどのぐらいの確率で使うかを決める確率分布をメタ戦略と呼ぶ。

まず、この方策の選択肢集合のなかで、どのようなメタ戦略が最適であるかというメタゲームを解く。これは、各方策同士を戦わせた結果である利得表から計算できる。

利得表を入力とし、適切なメタ戦略を出力するものをメタソルバーと呼ぶが、これには任意性がある。たとえば、ナッシュ均衡を計算することもできるし、単に相手がこれまでの方策を一様分布に従って出してくるとすることもできる。この場合は仮想プレイやNFSPと同様の動作になる。他にもReplicator Dynamicsなどをメタソルバーに利用することもできる。

次に、強化学習を利用することで、相手が先ほどのステップで得られたメタ戦略で固定しているときに対する最適応答となる方策を作り出す。これがオラクルに相当する。

そして、最適応答として生み出された新しい方策を、方策の選択肢集合のなかに追加する。これを繰り返すことで、最終的に、ナッシュ均衡になるメタ戦略を生み出すことができる。

参考になる文献

DeepMindによるPSROの原論文
- A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning

タグ：

深層強化学習強化学習ゲーム理論ナッシュ均衡

+ タグ編集

「PSRO」をウィキ内検索

記事メニュー

環境

モデル

MDP
POMDP

深層強化学習の手法

価値ベース

方策ベース

モデルベース

ゲーム理論

FP系

CFR系

DO系

勾配系

その他

Exploitability Descent

協力MARL

リンク

ここを編集

最近更新されたスレッド

+新規スレッドを作成する

人気記事ランキング

PSRO

最近更新されたページ

急上昇Wikiランキング

急上昇中のWikiランキングです。今注目を集めている話題をチェックしてみよう！

新規Wikiランキング

最近作成されたWikiのアクセスランキングです。見るだけでなく加筆してみよう！

人気Wikiランキング

atwikiでよく見られているWikiのランキングです。新しい情報を発見してみよう！

全体ページランキング

最近アクセスの多かったページランキングです。話題のページを見に行こう！