概要
| RPG | |
| 英名 | Regret Policy Gradient |
| 別名 | 後悔方策勾配法 |
RPGとは報酬最大化ではなく、後悔最小化を目的とするアクタークリティックの手法である。
強化学習における目標は基本的に累積報酬の最大化である。これは環境が変わらないものとみなしており、状態、行動、報酬がある程度固定した関係を持っていることを仮定している。マルチプレイヤーの場合には、同じ状態行動をとったとしても、相手が変化するため報酬が変わってしまうということが多々ある。お互いに報酬最大化している状況では、戦略にじゃんけんのようなサイクル構造がある場合、いたちごっこになってしまい収束しないということが起こる。
RPGではアクタークリティックをベースに目的を報酬最大化ではなく、後悔最小化にすり替える。
なお、RPGでは行動空間が有限の離散空間であることを前提としており、連続行動には適用できない。
クリティックは、Q値すなわち行動価値を予測する。V値は現在の方策に従った際のQ値として計算される。
行動価値から状態価値を差し引いたものはアドバンテージと呼ばれるが、これをリグレットと読み替える。状態価値とは、現在の方策による期待利得ともみなせるからである。リグレットは、現在の方策に従った平均的な行動よりもよい純粋戦略による行動を表すものである。
アクターすなわち、方策を更新する際には、正のリグレットだけを用いる。正のリグレットの和を最小化するように、方策は更新される。これにより大きなリグレットがある行動の選択確率を増やすようにパラメータが更新される。また、平均以下の行動に関しては無視される。
RPGでは最終結果がナッシュ均衡に漸近する。
参考になる論文
- RPGの原論文
- Actor-Critic Policy Optimization in Partially Observable Multiagent Environments