強化学習攻略・考察Wiki

DDPG

最終更新：2026年01月27日 12:04

匿名ユーザー

- view

だれでも歓迎！編集

概要

DDPG
英名	Deep Deterministic Policy Gradient
別名	深層決定論的方策勾配法

DDPGとは、Actor-Critic系の深層強化学習アルゴリズムの一つである。大きな特徴として、方策を状態で条件付けした行動の確率分布として扱うのではなく、状態に対して一つの具体的な行動を返す決定論的方策として扱う点が挙げられる。

決定論的方策はニューラルネットワークによって近似される。これをアクターネットワークと呼ぶ。学習は、より大きな期待報酬を得られるように、状態に対する適切な行動を更新していく形で行われる。だが、その状態において、その行動の良さを定量化する指標がなければ、どのように更新すればよいか分からない。そこで、DDPGでは、状態と行動のペアの良さをクリティックネットワークと呼ばれるニューラルネットワークで近似する。

具体的なパラメータの更新方法だが、まずクリティックネットワークを、TD誤差によって更新する。次に、更新されたクリティックネットワークを用いて、現在の行動の良さを測定し、より価値が高くなるような方向へ、すなわち行動価値を最大化するような方向にアクターネットワークを更新する。

連続値行動への特化

DDPGは決定論的方策をNNでモデル化する。NNを更新するためには勾配が必要であり、そのためには微分可能である必要がある。ゆえに、DDPGの方策では基本的に連続値を出力する。DDPGでは離散行動は扱いにくい。

リプレイバッファとターゲットネットワーク

DDPGではDQNと同様に、リプレイバッファとターゲットネットワークを学習の安定性のために導入する。

ターゲットネットワークに関しては、DQNの定期的なディープコピーというハードな更新ではなく、少しずつメインのネットワークの値を反映させていくソフトな更新が行われる。

探索のためのノイズ

DDPGは常に決定論的な値を出力する。故に、学習時には行動が偏りがちであり、探索が不足する。そのため、探索用として、学習の際の行動決定時には、何らかの確率分布から生成したノイズを行動に足し合わせることで、行動を摂動する。

DDPGの問題点

行動価値の過大評価バイアス

DDPGではしばしばクリティックネットワークの値が、現実にもらえる期待報酬よりも過大に評価されてしまうという問題がある。これにより、誤った推定や、それに基づく最適でない行動が起こってしまう。

この過大評価バイアスは、クリティックの近似誤差とアクターの近似誤差の両方に起因している。

ハイパーパラメータへの敏感さ

DDPGはしばしばハイパーパラメータへの依存が強いと紹介される。

例えば、探索ノイズの分散の大きさなどである。分散が大きすぎると、精密な方策が得られず、小さすぎると、探索が進まない。

だからといって、探索ノイズを学習可能なパラメータにすると、学習初期に探索ノイズが非常に小さくなってしまい、結果的に学習が進まないということが報告されている。

参考になる文献

メンダコ氏によるDDPGの解説（日本語)

https://horomary.hatenablog.com/entry/2020/06/26/003806

DDPG元論文

https://arxiv.org/abs/1509.02971

タグ：

強化学習深層強化学習 Actor-Critic

+ タグ編集

「DDPG」をウィキ内検索

記事メニュー

環境

モデル

MDP
POMDP

深層強化学習の手法

価値ベース

方策ベース

モデルベース

ゲーム理論

FP系

CFR系

DO系

勾配系

その他

Exploitability Descent

協力MARL

リンク

ここを編集

最近更新されたスレッド

+新規スレッドを作成する

最近更新されたページ

急上昇Wikiランキング

急上昇中のWikiランキングです。今注目を集めている話題をチェックしてみよう！

新規Wikiランキング

最近作成されたWikiのアクセスランキングです。見るだけでなく加筆してみよう！

人気Wikiランキング

atwikiでよく見られているWikiのランキングです。新しい情報を発見してみよう！

全体ページランキング

最近アクセスの多かったページランキングです。話題のページを見に行こう！