概要
| PSRO | |
| 英名 | Policy-Space Response Oracles |
| 別名 | 方策空間応答オラクル |
PSROは、Double Oracleのアイデアを強化学習の方策に応用したものである。元々のDOが「純粋戦略(強化学習で言えば行動)」を選択肢としていたのに対し、PSROは「方策」を選択肢とする
各プレイヤーは、方策の選択肢の集合を持っている。どの方策をどのぐらいの確率で使うかを決める確率分布をメタ戦略と呼ぶ。
まず、この方策の選択肢集合のなかで、どのようなメタ戦略が最適であるかというメタゲームを解く。これは、各方策同士を戦わせた結果である利得表から計算できる。
利得表を入力とし、適切なメタ戦略を出力するものをメタソルバーと呼ぶが、これには任意性がある。たとえば、ナッシュ均衡を計算することもできるし、単に相手がこれまでの方策を一様分布に従って出してくるとすることもできる。この場合は仮想プレイやNFSPと同様の動作になる。他にもReplicator Dynamicsなどをメタソルバーに利用することもできる。
次に、強化学習を利用することで、相手が先ほどのステップで得られたメタ戦略で固定しているときに対する最適応答となる方策を作り出す。これがオラクルに相当する。
そして、最適応答として生み出された新しい方策を、方策の選択肢集合のなかに追加する。これを繰り返すことで、最終的に、ナッシュ均衡になるメタ戦略を生み出すことができる。
参考になる文献
- DeepMindによるPSROの原論文
- A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning