強化学習攻略・考察Wiki

RPG

最終更新：2026年02月16日 18:44

reinforcement

- view

だれでも歓迎！編集

概要

RPG
英名	Regret Policy Gradient
別名	後悔方策勾配法

RPGとは報酬最大化ではなく、後悔最小化を目的とするアクタークリティックの手法である。

強化学習における目標は基本的に累積報酬の最大化である。これは環境が変わらないものとみなしており、状態、行動、報酬がある程度固定した関係を持っていることを仮定している。マルチプレイヤーの場合には、同じ状態行動をとったとしても、相手が変化するため報酬が変わってしまうということが多々ある。お互いに報酬最大化している状況では、戦略にじゃんけんのようなサイクル構造がある場合、いたちごっこになってしまい収束しないということが起こる。

RPGではアクタークリティックをベースに目的を報酬最大化ではなく、後悔最小化にすり替える。

なお、RPGでは行動空間が有限の離散空間であることを前提としており、連続行動には適用できない。

クリティックは、Q値すなわち行動価値を予測する。V値は現在の方策に従った際のQ値として計算される。

行動価値から状態価値を差し引いたものはアドバンテージと呼ばれるが、これをリグレットと読み替える。状態価値とは、現在の方策による期待利得ともみなせるからである。リグレットは、現在の方策に従った平均的な行動よりもよい純粋戦略による行動を表すものである。

アクターすなわち、方策を更新する際には、正のリグレットだけを用いる。正のリグレットの和を最小化するように、方策は更新される。これにより大きなリグレットがある行動の選択確率を増やすようにパラメータが更新される。また、平均以下の行動に関しては無視される。

RPGでは最終結果がナッシュ均衡に漸近する。

参考になる論文

RPGの原論文
- Actor-Critic Policy Optimization in Partially Observable Multiagent Environments

タグ：

ゲーム理論後悔最小化深層強化学習強化学習 Actor-Critic

+ タグ編集

「RPG」をウィキ内検索

記事メニュー

環境

モデル

MDP
POMDP

深層強化学習の手法

価値ベース

方策ベース

モデルベース

ゲーム理論

FP系

CFR系

DO系

勾配系

その他

Exploitability Descent

協力MARL

リンク

ここを編集

最近更新されたスレッド

+新規スレッドを作成する

最近更新されたページ

急上昇Wikiランキング

急上昇中のWikiランキングです。今注目を集めている話題をチェックしてみよう！

新規Wikiランキング

最近作成されたWikiのアクセスランキングです。見るだけでなく加筆してみよう！

人気Wikiランキング

atwikiでよく見られているWikiのランキングです。新しい情報を発見してみよう！

全体ページランキング

最近アクセスの多かったページランキングです。話題のページを見に行こう！

RPG

概要