強化学習攻略・考察Wiki

強化学習攻略・考察Wiki http://w.atwiki.jp/reinforcement/ 強化学習攻略・考察Wiki ja 2026-02-17T11:53:18+09:00 1771296798 メニュー https://w.atwiki.jp/reinforcement/pages/2.html ** 環境 *** モデル - [[MDP]] - [[POMDP]] **深層強化学習の手法 *** 価値ベース - [[DQN]] - [[DDQN]] - [[C51]] - [[Rainbow]] - [[Ape-X]] - [[IQN]] - [[R2D2]] - [[NGU]] - [[Agent57]] *** 方策ベース - [[TRPO]] - [[DDPG]] - [[A3C]] - [[A2C]] - [[ACER]] - [[ACKTR]] - [[PPO]] - [[TD3]] - [[IMPALA]] - [[SAC]] *** モデルベース - [[AlphaZero]] - [[World Models]] - [[PlaNet]] - [[MuZero]] - [[Dreamer]] - [[DreamerV2]] - [[DreamerV3]] ** ゲーム理論 *** FP系 - [[仮想プレイ]] - [[NFSP]] *** CFR系 - [[CFR]] - [[Deep CFR]] - [[DREAM]] *** DO系 - [[Double Oracle]] - [[PSRO]] *** 勾配系 - [[QPG]] - [[RPG]] - [[NeuRD]] - [[R-NaD]] - [[MMD]] *** その他 - [[Exploitability Descent]] ** 協力MARL - [[IQL]] - [[VDN]] - [[QMIX]] - [[QTRAN]] - [[QPLEX]] ---- **リンク -[[@wiki>>http://atwiki.jp]] -[[@wikiご利用ガイド>>http://atwiki.jp/guide/]] // リンクを張るには "[" 2つで文字列を括ります。 // ">" の左側に文字、右側にURLを記述するとリンクになります //**更新履歴 //#recent(20) &link_editmenu(text=ここを編集) 2026-02-17T11:53:18+09:00 1771296798 QPG https://w.atwiki.jp/reinforcement/pages/17.html * 概要 |>|BGCOLOR(#3893cd):&color(#ffffff){&bold(){QPG}}| |CENTER:BGCOLOR(#D4D4D4):&color(#0E0E0E){英名}|&bold(){Q-based Policy Gradient}| |CENTER:BGCOLOR(#D4D4D4):&color(#0E0E0E){別名}|&bold(){Qベース方策勾配法}| QPGとは[[RPG]]のベースになったアクタークリティック手法である。クリティックネットワークは行動価値、すなわちQ値を出力する。このQ値を現在の方策の確率で重み付けして和をとると現在のV値、あるいは状態価値となる。この計算が必要であるため、QPGは離散行動にしか適用できない。 Q値からV値を差し引いたものをアドバンテージと呼ぶ。アドバンテージが正であれば、その行動は現在の方策通りに従った際の平均よりも優れており、負であれば劣っているとなる。 A2CやPPOではそこで実際に選択した行動に対してしか更新を行わないが、QPGでは、全ての行動に関して同時にアップデートを行う。すなわち、アドバンテージ正ならばその行動を増やす方向に更新し、負ならば行動を減らす方向に更新する。 QPGでは最終結果がナッシュ均衡に漸近する。 * 参考になる論文 - QPGの原論文 -- Actor-Critic Policy Optimization in Partially Observable Multiagent Environments 2026-02-16T18:44:54+09:00 1771235094 RPG https://w.atwiki.jp/reinforcement/pages/16.html * 概要 |>|BGCOLOR(#3893cd):&color(#ffffff){&bold(){RPG}}| |CENTER:BGCOLOR(#D4D4D4):&color(#0E0E0E){英名}|&bold(){Regret Policy Gradient}| |CENTER:BGCOLOR(#D4D4D4):&color(#0E0E0E){別名}|&bold(){後悔方策勾配法}| RPGとは報酬最大化ではなく、後悔最小化を目的とするアクタークリティックの手法である。強化学習における目標は基本的に累積報酬の最大化である。これは環境が変わらないものとみなしており、状態、行動、報酬がある程度固定した関係を持っていることを仮定している。マルチプレイヤーの場合には、同じ状態行動をとったとしても、相手が変化するため報酬が変わってしまうということが多々ある。お互いに報酬最大化している状況では、戦略にじゃんけんのようなサイクル構造がある場合、いたちごっこになってしまい収束しないということが起こる。 RPGではアクタークリティックをベースに目的を報酬最大化ではなく、後悔最小化にすり替える。なお、RPGでは行動空間が有限の離散空間であることを前提としており、連続行動には適用できない。クリティックは、Q値すなわち行動価値を予測する。V値は現在の方策に従った際のQ値として計算される。行動価値から状態価値を差し引いたものはアドバンテージと呼ばれるが、これをリグレットと読み替える。状態価値とは、現在の方策による期待利得ともみなせるからである。リグレットは、現在の方策に従った平均的な行動よりもよい純粋戦略による行動を表すものである。アクターすなわち、方策を更新する際には、正のリグレットだけを用いる。正のリグレットの和を最小化するように、方策は更新される。これにより大きなリグレットがある行動の選択確率を増やすようにパラメータが更新される。また、平均以下の行動に関しては無視される。 RPGでは最終結果がナッシュ均衡に漸近する。 * 参考になる論文 - RPGの原論文 -- Actor-Critic Policy Optimization in Partially Observable Multiagent Environments 2026-02-16T18:44:40+09:00 1771235080 PSRO https://w.atwiki.jp/reinforcement/pages/15.html * 概要 |>|BGCOLOR(#3893cd):&color(#ffffff){&bold(){PSRO}}| |CENTER:BGCOLOR(#D4D4D4):&color(#0E0E0E){英名}|&bold(){Policy-Space Response Oracles}| |CENTER:BGCOLOR(#D4D4D4):&color(#0E0E0E){別名}|&bold(){方策空間応答オラクル}| PSROは、[[Double Oracle]]のアイデアを強化学習の方策に応用したものである。元々のDOが「純粋戦略(強化学習で言えば行動)」を選択肢としていたのに対し、PSROは「方策」を選択肢とする各プレイヤーは、方策の選択肢の集合を持っている。どの方策をどのぐらいの確率で使うかを決める確率分布をメタ戦略と呼ぶ。まず、この方策の選択肢集合のなかで、どのようなメタ戦略が最適であるかというメタゲームを解く。これは、各方策同士を戦わせた結果である利得表から計算できる。利得表を入力とし、適切なメタ戦略を出力するものをメタソルバーと呼ぶが、これには任意性がある。たとえば、ナッシュ均衡を計算することもできるし、単に相手がこれまでの方策を一様分布に従って出してくるとすることもできる。この場合は[[仮想プレイ]]や[[NFSP]]と同様の動作になる。他にもReplicator Dynamicsなどをメタソルバーに利用することもできる。次に、強化学習を利用することで、相手が先ほどのステップで得られたメタ戦略で固定しているときに対する最適応答となる方策を作り出す。これがオラクルに相当する。そして、最適応答として生み出された新しい方策を、方策の選択肢集合のなかに追加する。これを繰り返すことで、最終的に、ナッシュ均衡になるメタ戦略を生み出すことができる。 * 参考になる文献 - DeepMindによるPSROの原論文 -- A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning 2026-02-16T17:53:35+09:00 1771232015 Double Oracle https://w.atwiki.jp/reinforcement/pages/14.html * 概要 |>|BGCOLOR(#3893cd):&color(#ffffff){&bold(){Double Oracle}}| |CENTER:BGCOLOR(#D4D4D4):&color(#0E0E0E){英名}|&bold(){DO}| |CENTER:BGCOLOR(#D4D4D4):&color(#0E0E0E){別名}|&bold(){ダブル・オラクル}| Double Oracleとは、ナッシュ均衡を求めるゲーム理論のアルゴリズムの一つ。根本的なアルゴリズムの構造としては、列生成法に近い。プレイヤー1もプレイヤー2も両方がオラクルを利用して純粋戦略の候補を追加していくのがその名の由来である。限られた純粋戦略候補の中から開始し、小さなゲームの解(混合戦略)を求める。その得られた解に対して、オラクルは全ての戦略から最適応答を探す。そして、その最適応答の戦略を戦略候補の中に追加して、再び小さなゲームを解くということを繰り返す。オラクルの見つける最適応答による利得が、現在の戦略の期待利得と十分近くなったときに終了し、その時点での混合戦略がナッシュ均衡戦略の近似となる。深層学習や強化学習への拡張としては、PSROがある。 * 参考になる文献 - Double Oracleの原論文 -- Planning in the Presence of Cost Functions Controlled by an Adversary - 連続ゲームへの拡張 -- Double Oracle Algorithm for Computing Equilibria in Continuous Games 2026-02-15T11:46:02+09:00 1771123562 CFR https://w.atwiki.jp/reinforcement/pages/13.html * 概要 |>|BGCOLOR(#3893cd):&color(#ffffff){&bold(){CFR}}| |CENTER:BGCOLOR(#D4D4D4):&color(#0E0E0E){英名}|&bold(){CounterFactual Regret Minimization}| |CENTER:BGCOLOR(#D4D4D4):&color(#0E0E0E){別名}|&bold(){反実仮想後悔最小化}| &bold(){CFR}とは、ナッシュ均衡を求めるゲーム理論のアルゴリズムの一種。これ自体が強化学習ではないが、後続の深層強化学習系の手法では強化学習手法を取り入れている。 * 歴史 ** 表形式CFRの歴史 2007年、&bold(){Regret Matching}を展開型ゲームに適用した「&bold(){CFR}」が発表された。当時のCFRには、ゲーム木の全探索が必要なため、大規模なゲームには適用できないという課題があった。 2009年には、ゲーム木全体を走査するのではなく、一部をサンプリングして計算する「&bold(){MCCFR}」が発表された。 2014年には、CFRの高速化手法として「&bold(){CFR+}」が登場する。翌2015年には、このCFR+を組み込んだ手法によって、ヘッズアップ・リミット・ホールデム（Heads-up limit hold’em poker）が完全に解決された。 2018年には、MCCFRの分散を低減する「&bold(){VR-MCCFR}」が発表された。 2019年には、さらなる高速化手法として「&bold(){Linear CFR}」および「&bold(){DCFR}」が発表された。なお、Linear CFRはDCFRの特殊なケースとして位置づけられる。 2020年には、鏡像降下法とRegret Matchingのアイデアを融合させた「&bold(){PCFR+}」が発表された。 2024年には、これまでのCFR+、DCFR、PCFR+の各手法を組み合わせた「&bold(){DCFR+}/&bold(){PDCFR+}」が発表されている。 ** ニューラルCFRの歴史従来の表形式CFRでは、計算量を抑えるためにゲーム木のサイズを縮小する「&bold(){抽象化}」技術が不可欠であった。しかし、抽象化にはゲームに対する深い専門知識が必要であり、不適切な抽象化は戦略の質を低下させるという問題があった。また、特定のゲームに特化した抽象化は汎用性にも欠けていた。 2019年に発表された「&bold(){Deep CFR}」は、ニューラルネットワークによる関数近似を用いることで、手動の抽象化を不要にした。Deep CFRは、累積リグレットを近似するネットワークと、最終的な戦略を近似する平均戦略ネットワークの2つで構成されていた。同年、平均戦略ネットワークを廃止し、一つのネットワークに統合した「&bold(){SD-CFR}」も発表されている。 2020年の「&bold(){DREAM}」は、シミュレータに依存していたDeep CFRに分散削減技術を導入した手法である。これにより、モデルフリーでの安定した学習が可能となった。DREAMは重要度サンプリングにより、学習の不安定化が起こるという問題が残っていた。 2022年に発表された「&bold(){ESCHER}」は、固定されたサンプリング用方策を使うことで、重要度サンプリングを廃止して、学習を安定化させた。 2025年には、「&bold(){VR-DeepDCFR+}/&bold(){VR-DeepPDCFR+}」が発表された。これまでの手法は、LinearCFRを近似していたが、この手法では、DCFR+やPDCFR+といった最新の表形式CFRを近似することで、性能を向上させた。 * 参考になる文献 - CFRの原論文 -- Regret minimization in games with incomplete information 2026-02-13T15:41:54+09:00 1770964914 DDPG https://w.atwiki.jp/reinforcement/pages/12.html * 概要 |>|BGCOLOR(#3893cd):&color(#ffffff){&bold(){DDPG}}| |CENTER:BGCOLOR(#D4D4D4):&color(#0E0E0E){英名}|&bold(){Deep Deterministic Policy Gradient}| |CENTER:BGCOLOR(#D4D4D4):&color(#0E0E0E){別名}|&bold(){深層決定論的方策勾配法}| DDPGとは、Actor-Critic系の深層強化学習アルゴリズムの一つである。大きな特徴として、方策を状態で条件付けした行動の確率分布として扱うのではなく、状態に対して一つの具体的な行動を返す決定論的方策として扱う点が挙げられる。決定論的方策はニューラルネットワークによって近似される。これをアクターネットワークと呼ぶ。学習は、より大きな期待報酬を得られるように、状態に対する適切な行動を更新していく形で行われる。だが、その状態において、その行動の良さを定量化する指標がなければ、どのように更新すればよいか分からない。そこで、DDPGでは、状態と行動のペアの良さをクリティックネットワークと呼ばれるニューラルネットワークで近似する。具体的なパラメータの更新方法だが、まずクリティックネットワークを、TD誤差によって更新する。次に、更新されたクリティックネットワークを用いて、現在の行動の良さを測定し、より価値が高くなるような方向へ、すなわち行動価値を最大化するような方向にアクターネットワークを更新する。 ** 連続値行動への特化 DDPGは決定論的方策をNNでモデル化する。NNを更新するためには勾配が必要であり、そのためには微分可能である必要がある。ゆえに、DDPGの方策では基本的に連続値を出力する。DDPGでは離散行動は扱いにくい。 ** リプレイバッファとターゲットネットワーク DDPGではDQNと同様に、リプレイバッファとターゲットネットワークを学習の安定性のために導入する。ターゲットネットワークに関しては、DQNの定期的なディープコピーというハードな更新ではなく、少しずつメインのネットワークの値を反映させていくソフトな更新が行われる。 ** 探索のためのノイズ DDPGは常に決定論的な値を出力する。故に、学習時には行動が偏りがちであり、探索が不足する。そのため、探索用として、学習の際の行動決定時には、何らかの確率分布から生成したノイズを行動に足し合わせることで、行動を摂動する。 * DDPGの問題点 ** 行動価値の過大評価バイアス DDPGではしばしばクリティックネットワークの値が、現実にもらえる期待報酬よりも過大に評価されてしまうという問題がある。これにより、誤った推定や、それに基づく最適でない行動が起こってしまう。この過大評価バイアスは、クリティックの近似誤差とアクターの近似誤差の両方に起因している。 ** ハイパーパラメータへの敏感さ DDPGはしばしばハイパーパラメータへの依存が強いと紹介される。例えば、探索ノイズの分散の大きさなどである。分散が大きすぎると、精密な方策が得られず、小さすぎると、探索が進まない。だからといって、探索ノイズを学習可能なパラメータにすると、学習初期に探索ノイズが非常に小さくなってしまい、結果的に学習が進まないということが報告されている。 * 関連手法 - [[TD3]] - [[SAC]] * 参考になる文献 - メンダコ氏によるDDPGの解説（日本語) https://horomary.hatenablog.com/entry/2020/06/26/003806 - DDPG元論文 https://arxiv.org/abs/1509.02971 2026-01-27T12:04:47+09:00 1769483087 仮想プレイ https://w.atwiki.jp/reinforcement/pages/11.html * 概要 |>|BGCOLOR(#3893cd):&color(#ffffff){&bold(){仮想プレイ}}| |CENTER:BGCOLOR(#D4D4D4):&color(#0E0E0E){英名}|&bold(){Fictitious Play}| |CENTER:BGCOLOR(#D4D4D4):&color(#0E0E0E){別名}|&bold(){FP}| 仮想プレイとは、ナッシュ均衡を求めるゲーム理論のアルゴリズムの一種。これ自体が強化学習ではないが、後続の手法であるNFSPは強化学習手法を取り入れている。基本的に自己対戦を前提としている。相手がこれまでに取ってきた戦略の経験分布（平均戦略)を相手の戦略とみなし、それに対する最適応答を自分は返す、ということを繰り返すことでナッシュ均衡を求める。最終的な出力（混合分布）はこれまでに出力してきた自分の最適応答の経験分布であって、最終ステップでの最適応答の純粋戦略ではない点に注意。 ** 2つの更新方法 FPには、&bold(){同時更新型}（Simultaneous Fictitious Play:SFP）と&bold(){交互更新型} (AFP: Alternating Fictitious Play）があり、歴史的には交互更新型のほうが先に提案された。今日の教科書で紹介されるのは、SFPであることのほうが多い。同時更新型では、お互いがtターン目の行動を選択し終わったあとに、両者とも相手のtまでの経験分布をみて最適応答を決定する。じゃんけんを連想すればよい。一方で、交互更新型では、相手が行った戦略は即座に経験分布に反映される。戦略決定は常に相手の行動を受ける形で行われる。将棋を連想すればよい。 SFPとAFPは収束するゲームが異なっていることで知られている。 * 参考になる文献 - Iterative solution of games by fictitious play -- 1951年に発表された、最古の仮想プレイの論文。交互更新型が提案された。 - An Iterative Method of Solving a Game -- 1951年。2人プレイゼロサムゲームかつ両プレイヤーの戦略数が有限の場合にナッシュ均衡に収束することが示されている。 - Brown's Original Fictitious Play 2026-01-18T12:03:03+09:00 1768705383 トップページ https://w.atwiki.jp/reinforcement/pages/1.html ** 強化学習攻略・考察Wikiへようこそ本サイトは、&bold(){強化学習}（&bold(){Reinforcement Learning}, &bold(){RL}）における理論的背景、アルゴリズムの詳解、実装上の課題、および最新の研究動向を体系的に整理・共有するためのプラットフォームです。複雑な意思決定問題の最適化を目指す研究者、開発者、および学習者が、相互に知見を深め、技術的な課題を克服するためのリソースとして機能することを目的としています。 ** 編集・寄稿について当Wikiは、有志のエンジニアおよび研究者の知見によって維持されています。情報の正確性については細心の注意を払っておりますが、理論的誤りや記述の不備を発見した際は、修正または議論への参加をお願い申し上げます。 2026-01-18T11:42:13+09:00 1768704133 POMDP https://w.atwiki.jp/reinforcement/pages/10.html *概要 |>|BGCOLOR(#3893cd):&color(#ffffff){&bold(){POMDP}}| |CENTER:BGCOLOR(#D4D4D4):&color(#0E0E0E){英名}|&bold(){Partially Observable Markov Decision Process}| |CENTER:BGCOLOR(#D4D4D4):&color(#0E0E0E){別名}|&bold(){部分観測マルコフ決定過程}| * 定式化 &image(POMDP1.svg,width=200,center) 2025-10-13T09:56:42+09:00 1760317002