概要
| QPG | |
| 英名 | Q-based Policy Gradient |
| 別名 | Qベース方策勾配法 |
QPGとはRPGのベースになったアクタークリティック手法である。
クリティックネットワークは行動価値、すなわちQ値を出力する。このQ値を現在の方策の確率で重み付けして和をとると現在のV値、あるいは状態価値となる。この計算が必要であるため、QPGは離散行動にしか適用できない。
Q値からV値を差し引いたものをアドバンテージと呼ぶ。アドバンテージが正であれば、その行動は現在の方策通りに従った際の平均よりも優れており、負であれば劣っているとなる。
A2CやPPOではそこで実際に選択した行動に対してしか更新を行わないが、QPGでは、全ての行動に関して同時にアップデートを行う。すなわち、アドバンテージ正ならばその行動を増やす方向に更新し、負ならば行動を減らす方向に更新する。
QPGでは最終結果がナッシュ均衡に漸近する。
参考になる論文
- QPGの原論文
- Actor-Critic Policy Optimization in Partially Observable Multiagent Environments