強化学習攻略・考察Wiki

QPG

最終更新：2026年02月16日 18:44

reinforcement

- view

だれでも歓迎！編集

概要

QPG
英名	Q-based Policy Gradient
別名	Qベース方策勾配法

QPGとはRPGのベースになったアクタークリティック手法である。

クリティックネットワークは行動価値、すなわちQ値を出力する。このQ値を現在の方策の確率で重み付けして和をとると現在のV値、あるいは状態価値となる。この計算が必要であるため、QPGは離散行動にしか適用できない。

Q値からV値を差し引いたものをアドバンテージと呼ぶ。アドバンテージが正であれば、その行動は現在の方策通りに従った際の平均よりも優れており、負であれば劣っているとなる。

A2CやPPOではそこで実際に選択した行動に対してしか更新を行わないが、QPGでは、全ての行動に関して同時にアップデートを行う。すなわち、アドバンテージ正ならばその行動を増やす方向に更新し、負ならば行動を減らす方向に更新する。

QPGでは最終結果がナッシュ均衡に漸近する。

参考になる論文

QPGの原論文
- Actor-Critic Policy Optimization in Partially Observable Multiagent Environments

タグ：

強化学習深層強化学習 Actor-Critic

+ タグ編集

「QPG」をウィキ内検索

記事メニュー

環境

モデル

MDP
POMDP

深層強化学習の手法

価値ベース

方策ベース

モデルベース

ゲーム理論

FP系

CFR系

DO系

勾配系

その他

Exploitability Descent

協力MARL

リンク

ここを編集

最近更新されたスレッド

+新規スレッドを作成する

最近更新されたページ

急上昇Wikiランキング

急上昇中のWikiランキングです。今注目を集めている話題をチェックしてみよう！

新規Wikiランキング

最近作成されたWikiのアクセスランキングです。見るだけでなく加筆してみよう！

人気Wikiランキング

atwikiでよく見られているWikiのランキングです。新しい情報を発見してみよう！

全体ページランキング

最近アクセスの多かったページランキングです。話題のページを見に行こう！

QPG

概要