概要
| DDPG | |
| 英名 | Deep Deterministic Policy Gradient |
| 別名 | 深層決定論的方策勾配法 |
DDPGとは、Actor-Critic系の深層強化学習アルゴリズムの一つである。大きな特徴として、方策を状態で条件付けした行動の確率分布として扱うのではなく、状態に対して一つの具体的な行動を返す決定論的方策として扱う点が挙げられる。
決定論的方策はニューラルネットワークによって近似される。これをアクターネットワークと呼ぶ。学習は、より大きな期待報酬を得られるように、状態に対する適切な行動を更新していく形で行われる。だが、その状態において、その行動の良さを定量化する指標がなければ、どのように更新すればよいか分からない。そこで、DDPGでは、状態と行動のペアの良さをクリティックネットワークと呼ばれるニューラルネットワークで近似する。
具体的なパラメータの更新方法だが、まずクリティックネットワークを、TD誤差によって更新する。次に、更新されたクリティックネットワークを用いて、現在の行動の良さを測定し、より価値が高くなるような方向へ、すなわち行動価値を最大化するような方向にアクターネットワークを更新する。
連続値行動への特化
DDPGは決定論的方策をNNでモデル化する。NNを更新するためには勾配が必要であり、そのためには微分可能である必要がある。ゆえに、DDPGの方策では基本的に連続値を出力する。DDPGでは離散行動は扱いにくい。
リプレイバッファとターゲットネットワーク
DDPGではDQNと同様に、リプレイバッファとターゲットネットワークを学習の安定性のために導入する。
ターゲットネットワークに関しては、DQNの定期的なディープコピーというハードな更新ではなく、少しずつメインのネットワークの値を反映させていくソフトな更新が行われる。
探索のためのノイズ
DDPGは常に決定論的な値を出力する。故に、学習時には行動が偏りがちであり、探索が不足する。そのため、探索用として、学習の際の行動決定時には、何らかの確率分布から生成したノイズを行動に足し合わせることで、行動を摂動する。
DDPGの問題点
行動価値の過大評価バイアス
DDPGではしばしばクリティックネットワークの値が、現実にもらえる期待報酬よりも過大に評価されてしまうという問題がある。これにより、誤った推定や、それに基づく最適でない行動が起こってしまう。
この過大評価バイアスは、クリティックの近似誤差とアクターの近似誤差の両方に起因している。
ハイパーパラメータへの敏感さ
DDPGはしばしばハイパーパラメータへの依存が強いと紹介される。
例えば、探索ノイズの分散の大きさなどである。分散が大きすぎると、精密な方策が得られず、小さすぎると、探索が進まない。
だからといって、探索ノイズを学習可能なパラメータにすると、学習初期に探索ノイズが非常に小さくなってしまい、結果的に学習が進まないということが報告されている。
関連手法
参考になる文献
- メンダコ氏によるDDPGの解説(日本語)
- DDPG元論文