OpenCourseWare(OCW)を勉強するWiki
6.231 Dynamic Programming and Stochastic Control, Fall 2002: Lecture 1
最終更新:
ocw_reading
-
view
MIT OpenCourseWare > 6.231 Dynamic Programming and Stochastic Control, Fall 2002 > 6.231 Dynamic Programming and Stochastic Control, Fall 2002: Lecture
1
MIT OpenCourseWare 6.231 Dynamic Programming and Stochastic Control, Fall 2002, Lecture 1: Introduction to Dynamic Programming, Examples, Problem Formulation のまとめ
ラジオの方では vol.18 にあたりました。6.231 Dynamic Programming and Stochastic Control, Fall 2002のLecture NoteのPDFの内容をまとめたものです。Lecture Noteを読むときの助けにしてください。
1.1 Problem Formulation
基本的な最適化問題
min_{u∈U} g(u)
- u: optimization/decision 変数
- g(u): コスト関数
- U: uへの制約
問題の分類
離散(Discrete, Uが有限)か連続(continuous)か
gが線形(linear)か非線形(nonlinear)か
確率的(stochastic)か決定的(deterministic)か
gが線形(linear)か非線形(nonlinear)か
確率的(stochastic)か決定的(deterministic)か
- Stochasticなときはg(u) = Ew{G(u,w)}となる。wは雑音項。
確率的動的計画法(Stochastic DP)の基本構造
離散時間では、
x_{k+1} = fk(x_k, u_k, w_k)
x_{k+1} = fk(x_k, u_k, w_k)
- k: 離散時間
- x_k: k時点での状態(state)。将来の最適化に関係がある過去
- u_k: コントロール、すなわち時間kで下した決断
- w_k: 雑音項
- N: コントロールの適用期間
このときコスト関数は、
E {g_N(x_N) +\sum_{k=0}^{N-1} g_k(x_k, u_k, w_k)}
E {g_N(x_N) +\sum_{k=0}^{N-1} g_k(x_k, u_k, w_k)}
1.2 Examples
在庫管理の例
1.3 The Basic Problem
1.4 Significance of Feedback
このLecture Notesの注意
この資料はテキストではなく教えるときの補助教材です。
数学的厳密さはこの資料では期待しないでね。
図は直感的なイメージのためのものです。
詳細はテキストを見てね。I(下記)の方はrequired, IIの方はrecommended。(とは書いてあるんですが、なるべくテキストをお持ちでない方でも大丈夫なように説明していきたいと思います)
数学的厳密さはこの資料では期待しないでね。
図は直感的なイメージのためのものです。
詳細はテキストを見てね。I(下記)の方はrequired, IIの方はrecommended。(とは書いてあるんですが、なるべくテキストをお持ちでない方でも大丈夫なように説明していきたいと思います)
today's visitor: -
total visitor: -
total visitor: -
添付ファイル


