Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
1 of 93
Downloaded 1,244 times
More Related Content
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
6. 強化学習問題の概要
観測される状態 s
観測される報酬 r
行動 a
環境(外界)エージェント
苗植え
始まりから終わりまでをエピソードという
エピソードは人為的に設定される事もある
収穫
エピソード
エピソード
方策
状態 s 行動 a
状態 sでどう行動するかを定めた
確率分布 を方策という
より良い方策を求めるために試行錯
誤する方策は探索方策と呼ばれる
: ( | )p a s
( | )p a s
( | )a s :方策を表わす確率分布
報酬
= 収量(終端時刻でのみ)
-労力(各時刻)
-費用(各時刻)
7. 強化学習問題の数理的な表現
観測される状態
観測される報酬 1tr
1ts
2 3
1 2 3 4t t t tR r r r r : ( | )t tp a s方策
(行動則) の期待値。 は を満たす定数
期待値は方策πや状態遷移確率(往々にして未知)、
報酬確率に依存。
1 1( | , )t t t ts p s s a 状態遷移確率
報酬確率 1 1 1( | , , )t t t t tr p r s a s
0 1
マルコフ決定過程 (Markov Decision Process: MDP)
1ts ・次状態 (の確率)が 現在の状態
と選択した行動 によってのみ決定されること
ts
ta
1tr・報酬 (の確率)が 次状態 と現在の状態
と選択した行動 によってのみ決定されること
ts
ta
1ts
行動 ta
環境(外界)エージェント
𝛾
複数ステップ後の累積報酬(=収益R)の予測
8. 強化学習問題の数理的な表現
複数ステップ後の累積報酬(=収益R)の予測
観測される状態
観測される報酬 1tr
1ts
: ( | )t tp a s方策
(行動則)
行動 ta
環境(外界)エージェント
2 3
1 2 3 4( ) | |t t t t t t t tV s E R s E r r r r s
E[・]は以下の確率による期待値(expectation)の意味
ෑ
𝑘=𝑡
∞
𝑝 𝑟𝑘+1 𝑠 𝑘+1, 𝑠 𝑘, 𝑎 𝑘 𝑝 𝑠 𝑘+1 𝑠 𝑘, 𝑎 𝑘 𝜋 𝜃(𝑎 𝑘|𝑠 𝑘)
価値関数 の推定)𝑉 𝜋
(𝑠𝑡
累積報酬を最大にするための方策の獲得
*
arg max ( )tV s
最適方策 の推定𝜋∗
↑多くの応用での目的
20. 最適方策を求める(深層)強化学習アルゴリズム
価値ベースのアルゴリズム
最適行動価値関数を推定することに主眼がおかれる
(DQN, Double DQN, Dueling Networks, Prioritized Experience Replay
Multi-step Learning, Distributional RLなど)
方策ベースのアルゴリズム
現在の方策を改善することに主眼がおかれる
(REINFORCE, DDPG, A3C, ACER, TRPO, PPOなど)
*
arg max ( )tV s
最適方策
* *
( ) [ | ]t tV s E R s
最適状態価値関数
* *
( , ) [ | , ]t t t tQ s a E R s a
最適行動価値関数
↑後で詳しく説明
21. *
arg max ( )tV s
* *
( ) [ | ]t tV s E R s
* *
( , ) [ | , ]t t t tQ s a E R s a
最適方策を求める(深層)強化学習アルゴリズム
注意書き
強化学習のアルゴリズムは、環境 (状態, 状態遷移確率,
報酬関数)が与えられた下での如何に効率よく最適方策を
求めるかを考えたものになっている。
実際には、後半パートで述べるように環境の設計(なにを
状態とするか、どういう報酬を与えるか)は非常に重要
どういう問題設定を用意するべきかは、
教師あり学習でも強化学習でも重要な話
22. 最適方策を求める(深層)強化学習アルゴリズム
価値ベースのアルゴリズム
最適行動価値関数を推定することに主眼がおかれる
(DQN, Double DQN, Dueling Networks, Prioritized Experience Replay
Multi-step Learning, Distributional RLなど)
方策ベースのアルゴリズム
現在の方策を改善することに主眼がおかれる
(REINFORCE, DDQN, A3C, ACER, TRPO, PPOなど)
*
arg max ( )tV s
最適方策
* *
( ) [ | ]t tV s E R s
最適状態価値関数
* *
( , ) [ | , ]t t t tQ s a E R s a
最適行動価値関数
↑後で詳しく説明
25. 最適行動価値関数とは?
状態価値関数
行動価値関数
2 3
1 2 3 4( ) |t t t t t tV s E r r r r s
2 3
1 2 3 4( , ) | ,t t t t t t t tQ s a E r r r r s a
* * 2 3
1 2 3 4( ) max ( ) |t t t t t t tV s V s E r r r r s
最適状態価値関数:最適方策π*のもとでの状態価値関数
最適行動価値関数:最適方策π*のもとでの行動価値関数
* * 2 3
1 2 3 4( , ) max ( , ) | ,t t t t t t t t t tQ s a Q s a E r r r r s a
収益は、時刻t以降に、どう
いう方策に従って行動をとる
かに依存して決まる
方策πの状態価値関数
方策πの行動価値関数
28. (最適)ベルマン方程式
価値関数が満たす再帰的な関係式
2 3
1 2 3 4( , ) | ,t t t t t t t tQ s a E r r r r s a
1 1 1 1 1( , ) ( ) | , ( , ) | ,t t t t t t t t t t tQ s a E r V s s a E r Q s a s a
2
1 2 3 4( , ) | ,t t t t t t t tQ s a E r r r r s a
2 3
1 2 3 4( ) |t t t t t tV s E r r r r s
1 1( ) ( ) |t t t tV s E r V s s
2
1 2 3 4( ) |t t t t t tV s E r r r r s
(∀ 𝑠𝑡∈ 𝑆)
(∀ 𝑠𝑡∈ 𝑆, 𝑎 𝑡 ∈ 𝐴)
現在の状態sのみでその後の期待収益が決まる必要あり
・マルコフ性が必要
遅れのある報酬(Delayed Reward)では不成立
・エピソード終了時刻が決まっている問題では不成立
(∀ 𝑠𝑡∈ 𝑆)
(∀ 𝑠𝑡∈ 𝑆)
(∀ 𝑠𝑡∈ 𝑆, 𝑎 𝑡 ∈ 𝐴)
(∀ 𝑠𝑡∈ 𝑆, 𝑎 𝑡 ∈ 𝐴)
* * *
1 1( ) ( ) |t t t tV s E r V s s
(∀ 𝑠𝑡∈ 𝑆)
1
* * * * *
1 1 1 1 1( , ) ( ) | , max ( , ) | ,
t
t t t t t t t t t t t
a
Q s a E r V s s a E r Q s a s a
(∀ 𝑠𝑡∈ 𝑆, 𝑎 𝑡 ∈ 𝐴)
29. ベルマンオペレータT
最適ベルマン方程式
1
1 1 1( )( , ) max ( , ) | ,
t
t t t t t t t
a
Tf s a E r f s a s a
1
* *
1 1 1( , ) max ( , ) | ,
t
t t t t t t t
a
Q s a E r Q s a s a
最適ベルマン方程式の右辺を関数f (意味的にはQ関数)に作用して、
状態(s,a)の関数が返ってくるオペレータTとみなす
(∀ 𝑠𝑡∈ 𝑆, 𝑎 𝑡 ∈ 𝐴)
(∀ 𝑠𝑡∈ 𝑆, 𝑎 𝑡 ∈ 𝐴)
ベルマン
オペレータT
𝑓(𝑠, 𝑎) (𝑇𝑓)(𝑠, 𝑎)
関数 関数
30. ベルマンオペレータTの性質
1
1 1 1( )( , ) max ( , ) | ,
t
t t t t t t t
a
Tf s a E r f s a s a
ベルマンオペレータは一様ノルムに対して縮小写像
*
( , ) ( , )t t t tf s a Q s a
(∀ 𝑠𝑡∈ 𝑆, 𝑎 𝑡 ∈ 𝐴)
|| ( )( ) ( ')( ) || || ( ) '( ) ||Tf s Tf s f s f s
|| ( ) || sup | ( ) |
x
f x f x 一様ノルム
ベルマン
オペレータT𝑓(𝑠, 𝑎) (𝑇𝑓) 𝑠, 𝑎
関数 関数
)𝑓(𝑠𝑡, 𝑎 𝑡) = (𝑇𝑓)(𝑠𝑡, 𝑎 𝑡
(∀ 𝑠𝑡∈ 𝑆, 𝑎 𝑡 ∈ 𝐴)
・ベルマンオペレータを作用させると関数は、停留点に近づいていく
・停留点の関数は、唯一で最適価値関数そのもの
ただし
(∀ 𝑠𝑡∈ 𝑆, 𝑎 𝑡 ∈ 𝐴)
ベルマンオペレータ
𝛼 ∈ (0,1)
31. ベルマンオペレータTに基づく近似的な更新
終端状態からすべての状態を更新
1
1 1 1( , ) ( )( , ) max ( , ) | ,
t
t t t t t t t t t
a
f s a Tf s a E r f s a s a
最適ベルマン方程式が満たされるようにベルマンオペレータで関数を更新
(∀ 𝑠𝑡∈ 𝑆, 𝑎 𝑡 ∈ 𝐴)
動的計画法 (状態遷移確率,報酬は既知である必要)
モンテカルロ木探索
有望な状態を展開し、末端の状態
の価値関数をシミュレーションで推定
サンプリングした状態・行動対で平均的に成り立つ
ように各状態・行動のQ値を独立に更新
サンプリングした状態・行動対で平均的に成り立つ
ように状態・行動の関数f(s,a|θ)のパラメータθを更新
(テーブル)Q学習
DQNなどの関数近似
を使ったQ学習
35. Neural Fitted Q (Riedmiller, 05)
2
( ) ( ( , ; ))t t tJ E y Q s a
損失関数
1
1 1 1max ( , ; ')
t
t t t t
a
y r Q s a
定期的にθ’を現在のθに置き換え
(しばらくはtarget networkを固定)
教師あり学習的な損失関数に変更することで安定化
target network
Ms. Pack-Man
Space Invaders
36. 経験再生 (Experience replay) (Lin, 92)
2
( ) ( ( , ; ))t t tJ E y Q s a
損失関数
1
1 1 1max ( , ; ')
t
t t t t
a
y r Q s a
TD誤差の期待値を連続する時刻間で取得
→ サンプル間の相関が高く、バイアス発生、収束性悪化
状態遷移セット(s,a,s’,r)を直近の過去のデータ(replay memory)
からランダムに選択し、TD誤差 を計算( , ; )t t ty Q s a
replay memory: 直近100万フレームセット
過去の大量のサンプルの再利用
( ) 2 ( ( , ; )) ( , ; )t t t t tJ E y Q s a Q s a
当時は300trialだけ。学習が加速され
る効果は確かめられたが、メモリを消
費するので大規模化はできず
where
DQN Lin(1992)
( , ) ( )( , )t t t tf s a Tf s a
(∀ 𝑠𝑡∈ 𝑆, 𝑎 𝑡 ∈ 𝐴)
TD誤差
68. 応用先:アルゴリズム設計
NNアーキテクチャ(Zoph and Le, 2017; Zoph et al., 2018)/最適化アルゴリズム(Bello et al.,
2017)/活性化関数(Ramachandran et al., 2017)をRNNで系列として出力
– 報酬:バリデーションセットでの評価
– REINFORCE, TRPO, PPOでRNNを最適化
– 人手で設計されたSOTAを上回る場合も
見つかったRNN cell, 最適化アルゴリズム, 活性化関数の一部
(Zoph and Le, 2017; Bello et al., 2017; Ramachandran et al., 2017)
69. 応用先:hard attention
Attention: 入力の一部に注目することを学習する機構
– Soft attention: 場所ごとに重みを出力して足し合わせる
→微分可能だが計算コストが大きい
– Hard attention: どの場所を見るか確率的に決める
→微分可能でない→REINFORCEを使う
画像のキャプション生成 (Xu et al., 2015)、メモリアクセス (Zaremba and Sutskever, 2015)
画像キャプション生成の流れとhard attentionの例 (Xu et al., 2015)
70. 応用先:対話
対話全体としての評価を最大化可能
対話の質向上 (Li et al., 2016)
– 対話の質についての報酬関数を設計:
答えやすさ、新情報の多さ、一貫性
– 学習済みモデル同士で対話させ、REINFORCEでfine-tune
– 元のモデルより人間による評価向上、特に対話全体としての評価
ユーザ満足度を最大化する返答選択 (Serban et al., 2017)
– 人間による評価を教師として報酬関数・シミュレータを作製
(対話の性質の変化をシミュレート)
– DQNで学習し、対話全体を評価するA/Bテストで高評価
対話例と返答候補 (Serban et al., 2017)
91. 参考文献
応用先:ゲーム
– D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. Van Den Driessche, J. Schrittwieser, I. Antonoglou, V.
Panneershelvam, M. Lanctot, S. Dieleman, D. Grewe, J. Nham, N. Kalchbrenner, I. Sutskever, T. Lillicrap, M. Leach, and K.
Kavukcuoglu, “Mastering the game of Go with deep neural networks and tree search,” Nature, vol. 529, no. 7585, pp. 484–
489, 2016.
– A. Dosovitskiy and V. Koltun, “Learning to Act by Predicting the Future,” in ICLR, 2017.
– V. Firoiu, W. F. Whitney, and J. B. Tenenbaum, “Beating the World’s Best at Super Smash Bros. with Deep Reinforcement
Learning,” arXiv preprint arXiv1702.06230, 2017.
応用先:ロボット
– S. Gu, E. Holly, T. Lillicrap, and S. Levine, “Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-
policy Updates,” in ICRA, 2017.
– M. Andrychowicz, F. Wolski, A. Ray, J. Schneider, R. Fong, P. Welinder, B. McGrew, J. Tobin, P. Abbeel, and W. Zaremba,
“Hindsight Experience Replay,” in NIPS, 2017.
– F. Sadeghi and S. Levine, “(CAD)$^2$RL: Real Single-Image Flight without a Single Real Image,” in RSS, 2017.
92. 参考文献
応用先:アルゴリズム設計
– B. Zoph, Q. V Le, and G. Brain, “Neural Architecture Search with Reinforcement Learning,” in ICLR, 2017.
– I. Bello, B. Zoph, V. Vasudevan, and Q. V. Le, “Neural Optimizer Search with Reinforcement Learning,” in ICML, 2017.
– P. Ramachandran, B. Zoph, and Q. V. Le, “Searching for Activation Functions,” arXiv preprint arXiv:1710.05941, 2017.
– B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, “Learning Transferable Architectures for Scalable Image Recognition,” in
CVPR, 2018.
応用先: Hard attention
– K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhutdinov, R. Zemel, and Y. Bengio, “Show, Attend and Tell: Neural Image
Caption Generation with Visual Attention,” in ICML, 2015.
– W. Zaremba and I. Sutskever, “Reinforcement Learning Neural Turing Machines,” arXiv preprint arXiv:1505.00521, 2015.
93. 参考文献
応用先:対話
– J. Li, W. Monroe, A. Ritter, and D. Jurafsky, “Deep Reinforcement Learning for Dialogue Generation,” in EMNLP, 2016.
– I. V. Serban, C. Sankar, M. Germain, S. Zhang, Z. Lin, S. Subramanian, T. Kim, M. Pieper, S. Chandar, N. R. Ke, S.
Rajeshwar, A. de Brebisson, J. M. R. Sotelo, D. Suhubdy, V. Michalski, A. Nguyen, J. Pineau, and Y. Bengio, “A Deep
Reinforcement Learning Chatbot,” arXiv preprint arXiv:1709.02349, 2017.
深層強化学習の使い方
– P. Henderson, R. Islam, P. Bachman, J. Pineau, D. Precup, and D. Meger, “Deep Reinforcement Learning that Matters,” in
AAAI, 2018.
– M. Hessel, J. Modayil, H. van Hasselt, T. Schaul, G. Ostrovski, W. Dabney, D. Horgan, B. Piot, M. Azar, and D. Silver,
“Rainbow: Combining Improvements in Deep Reinforcement Learning,” in AAAI, 2018.
– R. Houthooft, X. Chen, Y. Duan, J. Schulman, F. De Turck, and P. Abbeel, “Variational Information Maximizing Exploration,”
NIPS, 2016.