SlideShare a Scribd company logo
全脳アーキテクチャ 若手の会 勉強会
後援:ドワンゴ人工知能研究所
強化学習
=脳へのアプローチ=
法政大学 理工学部 応用情報工学科
川崎 雄介
yusuke.kawasaki.hosei@gmail.com
自己紹介
川崎 雄介
– 所属:法政大学 理工学部
– 出身:東京都 八丈島
– 研究:植物病自動診断
– 特技:少林寺拳法
2
身近になった人工知能
• Pepper (Aldebaran Robotics,Softbank 社 )
– 人間の声のトーンなどから感情認識
• 将棋電王戦 (niconico)
– 人間 vs コンピュータでの将棋
– 人間1勝、コンピュータ4勝 (2014第3回)
3
身近になった人工知能
• 総務省 2015年2月
– インテリジェント化が加速する
ICTの未来像に関する研究会
– 2045年問題に関する議論
人工知能が人間並みの知能を持つようになる?地点
– 政府機関によるこういった会議は異例
4
最近、こんなことが話題に
• グーグル開発の人工知能DQN ネットでは「命名事故?」「奇跡的」
(2015年 2月26日 withnews , 抜粋 )
米国のIT大手グーグルが、画期的な人工知能を開発した、と26日号の科学情
報誌「ネイチャー」(電子版)で発表しました。その名も「DQN」。「DQN
(ドキュン)」とは、「知的水準が低く、常識がない」という意味の日本のネッ
トスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの
間で「ドキュン」が浸透するかもしれません。
ネイチャー電子版によると、この人工知能(AI)は、グーグルの子会社
「ディープマインド」のチームが開発しました。
他企業が開発している既存のAIは、単一の目的に特化されているものが多く
ありました。
それに対してDQNは、「得点が最大になるような行動を選ぶ」「データから
対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題に
ゼロから取り組んで成果を上げられるのが特徴です。
たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手
くなっていくそうです。 5
最近、こんなことが話題に
• グーグル開発の人工知能DQN ネットでは「命名事故?」「奇跡的」
(2015年 2月26日 withnews , 抜粋 )
米国のIT大手グーグルが、画期的な人工知能を開発した、と26日号の科学情
報誌「ネイチャー」(電子版)で発表しました。その名も「DQN」。「DQN
(ドキュン)」とは、「知的水準が低く、常識がない」という意味の日本のネッ
トスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの
間で「ドキュン」が浸透するかもしれません。
ネイチャー電子版によると、この人工知能(AI)は、グーグルの子会社
「ディープマインド」のチームが開発しました。
他企業が開発している既存のAIは、単一の目的に特化されているものが多く
ありました。
それに対してDQNは、「得点が最大になるような行動を選ぶ」「データから
対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題に
ゼロから取り組んで成果を上げられるのが特徴です。
たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手
くなっていくそうです。 6
最近、こんなことが話題に
• グーグル開発の人工知能DQN ネットでは「命名事故?」「奇跡的」
(2015年 2月26日 withnews , 抜粋 )
米国のIT大手グーグルが、画期的な人工知能を開発した、と26日号の科学情
報誌「ネイチャー」(電子版)で発表しました。その名も「DQN」。「DQN
(ドキュン)」とは、「知的水準が低く、常識がない」という意味の日本のネッ
トスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの
間で「ドキュン」が浸透するかもしれません。
ネイチャー電子版によると、この人工知能(AI)は、グーグルの子会社
「ディープマインド」のチームが開発しました。
他企業が開発している既存のAIは、単一の目的に特化されているものが多く
ありました。
それに対してDQNは、「得点が最大になるような行動を選ぶ」「データから
対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題に
ゼロから取り組んで成果を上げられるのが特徴です。
たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手
くなっていくそうです。 7
このメカニズムを探る
話題にのぼることの多くなった人工知能。
今回は「強化学習」という枠組みから
発表させて頂きます。
8
ろぼみ
今回の講演につきまして
• 第1部
– この分野に馴染みのない方向け
– ざっくりとしたお話になります(数式なし)
• 第2部
– この分野(情報系)の方向け
– 数式を使って、可能な限り詳説します
何度か質問コーナー挟んでいきます!
9
第1部
10
脳ってどんな構造なの?
• 各部位ごとの神経のネットワーク
11
前頭葉
側頭葉
頭頂葉
後頭葉
ネットワークの構成要素
• ニューロン(Neuron)
– 脳内の神経細胞
– 入力ー処理ー出力の機構
– 強い電気信号のみに発火
12
銅谷 賢治, “計算神経科学への招待” より
細胞体
(soma)
樹状突起
(dendrite)
軸索
(axon)
脳を模してみよう
• McCulloch-Pitts モデル [Mcculloch,Pitts , 1943]
– ニューロンを真似た構造の実現
13
出力
脳を模してみよう
• パーセプトロン [Rosenblatt, 1958]
– 脳のネットワークのような構造
– 任意の識別面も表現できるように[Rumenhert,1986]
14
多層パーセプトロン
じゃあ、何故 今になって
再注目されてきたのか
15
しかし
• 計算リソースが足りなかった!
– ここにきてハードウェアの発展
• 人間の表現力が高すぎた!
– 大域的な最適解を出せない
16
しかし
• 計算リソースが足りなかった!
– ここにきてハードウェアの発展
• 人間の表現力が高すぎた!
– 大域的な最適解を出せない
17
ここに来てそれを打ち破る技術が誕生
Deep Learning
機械学習の春
• 一般物体認識コンテスト [Krizhevsky et al , 2012]
大量の画像を読み込ませ
1,000種類のクラス識別問題
error率 15.3%
視覚野のような特徴を確認
18
Krizhevsky et al, “Imagenet Classification with Deep Convolutional Neural Network,” 2012
機械学習の春
• Googleの猫認識 [Quoc et al,2011]
これが猫だと 教えずに 猫の概念を獲得
19
Quoc et al, “Building High-level Features Using Large Scale Unsupervised Learning,” 2011
機械学習の春
• Deep Q-Network [Volodymyr et al,2015]
コンピュータに「行動則」を学ばせる
20
Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015
本日のメイントピック
21
教師有り学習 教師なし学習 強化学習
スロットマシン(k-armed bandit)
4本の腕がある無料スロットマシンがあります。
それぞれの腕毎に出てくる賞金が違います。
限られた回数で多くの賞金を得るためには、
どのように腕を選ぶのが良いでしょう?
22
スロットマシン(k-armed bandit)
4本の腕がある無料スロットマシンがあります。
それぞれの腕毎に出てくる賞金が違います。
限られた回数で多くの賞金を得るためには、
どのように腕を選ぶのが良いでしょう?
23
強化学習における目標
スロットマシン(k-armed bandit)
• とりあえず一本ずつ引いてみる
24
A: 100
B: 50
C: 10
D: 1
スロットマシン(k-armed bandit)
• とりあえず一本ずつ引いてみる
25
A: 100
B: 50
C: 10
D: 1
スロットマシン(k-armed bandit)
• とりあえず一本ずつ引いてみる
26
A: 100
B: 50
C: 10
D: 1
もらえるご褒美は
多い方がいい
(欲張り方策)
スロットマシン(k-armed bandit)
• もし次に出る額を知っていたら?
27
A: 100 (1)
B: 50 (10)
C: 10 (100)
D: 1 (500)
スロットマシン(k-armed bandit)
• 1回引くたびに出る額が変わったら?
28
A: ???
B: ???
C: ???
D: ???
探索と知識利用
• 探索 (exploration)
– 最終的に多くの報酬を貰いたい
– あえて別の行動をとる
29
B
探索と知識利用
• 知識利用 (exploitation)
– 今も貰えた ならば 次も貰える
– 大きな報酬が期待できる行動をとる
30
A
探索と知識利用
• 探索 vs. 知識利用
– 相反する性質
– ずっと欲張らず違う腕も引いてみる
– 最初は適当に、時間が経つにつれて欲張りに
– レバーを引く、という行動をどう選ぶのが最適?
31
強化学習と脳?
• 大脳基底核
– 大脳皮質の内側の器官
– ここが強化学習に
関わっているのでは?
2部の後半で
紐解いていきます
32
強化学習で何ができそうか?
• 被災地の復興支援ロボット
– 自ら危険なところを回避し人を探す、情報を送る
• 介護ロボット
– 介護の現場での運用
• 病気の解析
– コンピュータでシミュレート出来るか?
– パーキンソン病などの治療への足掛かり?
33
第1部のまとめ
• 人工知能分野の春
– 計算資源確立、ヒトの表現力の突破
• 脳と似た振舞いを持つ?
– コンピュータも脳のような振舞いを見せた
• 強化学習の導入
– 多くのご褒美を得ることが目標
– k-armed bandit問題
34
宣伝
★ 全脳アーキテクチャ若手の会
全脳アーキテクチャ達成に貢献することが本会の目的です。
研究者のみならず、専門外の方でも積極的に
ご参加いただき、多くの方が自分なりに力を
発揮していただける環境を作っていきたいと思っています。
ホームページ:http://wbawakate.jp/
facebook:https://www.facebook.com/groups/713921892010595/
35
第2部
36
第2部目次
1 問題設定
2 動的計画法 vs モンテカルロ法
3 TD学習、Q学習
4 脳との関連性
5 研究動向、まとめ
37
第2部目次
1 問題設定
2 動的計画法 vs モンテカルロ法
3 TD学習、Q学習
4 脳との関連性
5 研究動向、まとめ
38
強化学習の位置づけ
• 教師あり学習
– 正解付のデータから規則を算出
– ILSVRC2012 (一般物体認識)
• 教師なし学習
– 膨大なデータから規則を算出
– Googleの猫認識
• 強化学習
– ある行動に対する「ご褒美」から規則を算出
– Deep Q Network
39
用語の定義
• エージェント(agent)
– 動作する主体のこと
– 人間、ロボット、etc
40
用語の定義
• 環境(environment)
– エージェントが動作する空間のこと
41
環 境
用語の定義
• 状態(states)
– 現在エージェントが置かれている状態
– :時刻tでの状態
42
環 境
用語の定義
• 行動(action)
– エージェントが環境に対して働きかける動作
– :時刻tでのエージェントの行動
43
環 境
用語の定義
• 報酬 (rewards)
– 取ったその行動がどの程度良かったか
44
環 境
用語の定義
再び状態が与えられ、行動選択に戻る
このループ
45
環 境
用語の定義
• 方策(policy)
– ある状態においてのエージェントの行動規則
– :状態sで行動aをとる確率
46
環 境
• 以下本発表においては
– s:任意の状態
– a:任意の行動
– π :任意の方策
– t:ステップ数
– Pr:確率
– P:確率の集合
– R:報酬の集合
– A:行動の集合
47
具体的に
状態s:A~F
行動a:{down,right}
方策 π :(A, down )
(C, right )
報酬r:
Cが持つ価値
(後述)
49環境
B
DC
E F
A
START
GOAL
タスクの種類
• 連続タスク (continuing tasks)
– 有限時間内でタスクの終了が保障されない
– ロボットの実問題への適用など
• エピソード的タスク(episode tasks)
– 有限時間内で1つのタスクが終了
– 迷路の解の算出など
– 今回はこちらメイン
50
マルコフ性(Markov property)
• 以前までに得た情報を保持できるような過程
– 1段階前の状態からの判断で、後続の状態を
判断しても遜色がない
51
マルコフ決定過程(Markov Decision Process)
• MDP
• マルコフ過程に「意思決定=行動aの選択」を
付与したもの
• 強化学習全般がこの理論をベースにしている
52
強化学習の目標
• 累積報酬の最大化
エージェントの報酬をタスク終了時に最大にする
53
強化学習の目標
• 累積報酬の最大化
エージェントの報酬をタスク終了時に最大にする
エージェントの
「今おかれた立場の価値」= 状態価値
「そこでの各振舞の価値」= 行動価値
を評価する
54
状態に価値を設定する
55
• 状態の価値?
– ある状態の期待報酬
– その状態でどの程度最終的にご褒美が期待できるか
状態に価値を設定する
56
• 状態の価値?
– ある状態の期待報酬
– その状態でどの程度最終的にご褒美が期待できるか
• 状態価値関数(state-value function for policy π)
期待値
行動に価値を設定する
57
• 行動の価値?
– ある状態である行動をすることの期待報酬
– ここでこれするとどの程度ご褒美が期待できるか
行動に価値を設定する
58
• 行動の価値?
– ある状態である行動をすることの期待報酬
– ここでこれするとどの程度ご褒美が期待できるか
• 行動価値関数(action-value function for policy π)
期待値
状態と行動の価値の関連性
• VとQの関係性
状態価値関数は、行動価値関数の方策固定版
「その場の状況のみで」判断するのか?
「そこでの行動も同時に」判断するのか?
59
γ?
60
割引率
• 割引率(discount rate)γ
– 遠い先の報酬を割引くための定数 (0 <= γ <= 1)
– 0なら即時報酬のみ
– 1なら先々の報酬も同様に考慮
• イメージ
– 10,000円を今貰うか? 11,000円を一年後貰うか?
61
強化学習の目標(再掲)
• 累積報酬の最大化
エージェントの報酬をタスク終了時に最大にする
62
強化学習の目標(再掲)
• 累積報酬の最大化
エージェントの報酬をタスク終了時に最大にする
63
価値関数を最大にする方策の発見
Bellman方程式
64
• 累積報酬= 即時報酬+その先の期待報酬
と解釈したもの
つまり以下で定式化できる
Bellman方程式の再帰性
65
s: 現在の状態
s’ : 次の状態
a: 行動
P : 状態sで行動aを取ってs‘に遷移する確率集合
R : 〃 報酬集合
π(s,a): 状態sで行動aを取る確率
Bellman方程式の再帰性
66
即時報酬 期待報酬
即時報酬 期待報酬
V、Qの再帰的表現
1節まとめ
• 強化学習の目標
– 累積報酬の最大化 価値関数の設定
• マルコフ性
– 得られるものは全て以前までの情報の集大成
67
第2部目次
1 問題設定
2 動的計画法 vs モンテカルロ法
3 TD学習、Q学習
4 脳との関連性
5 研究動向、まとめ
68
動的計画法とは?
69
• 動的計画法(Dynamic Programming)
– 環境の完全なモデルを持つ(モデルベース)
– 後続の価値を現在の価値に従って更新
– 厳密な最適解 が求まる (理論的には)
– ベルマン方程式を厳密に解く方法
モデルベース
70
• イメージ:地図を持っている!
そこへ至る経路や報酬は既知
あとは最適経路を計算するだけ!
B
DC
E F
A
動的計画法の流れ
① 各状態、その状態で取りうる方策の初期化
② ある方策を選ぶ
③ 各状態においての状態価値を ひたすら 計算
④ 方策が最適か確かめる
71
動的計画法の流れ
③ 各状態においての状態価値を ひたすら 計算
④ 方策が最適か確かめる
(よりよい方策が無いか?)
72
方策改善定理
• ある方策と価値関数を考える
– よりよい価値が得られるように更新
73
greedy方策
④の更新式と同値
改善後方策
greedy方策
• より多くの報酬を得ようとする行動選択法
74
s0 s1 s2
10 20
20 10
緑 緑
greedy方策
• より多くの報酬を得ようとする行動選択法
75
s0 s1 s2
10 20
20 10
赤 緑
方策改善定理
• ある方策と価値関数を考える
– よりよい価値が得られるように更新
– 必ず最適解に収束すると知られている
76
動的計画法の流れ
① 初期化
A~Fの価値を
任意の値で初期化
77
B
DC
E F
A
動的計画法の流れ
② 方策選択
どのようにFに
辿り着くかを選ぶ
(赤が最適とします)
78
B
DC
E F
A
動的計画法の流れ
② 方策選択
方策緑を選ぶ
(A,right)
(B,down)
(D,down)
79
B
DC
E F
A
動的計画法の流れ
③ 計算
②の方策に従い、
全ての状態価値を計算
(方策上ありえない
箇所も計算する)
80
B
DC
E F
A
動的計画法の流れ
④ 確認
選んだ方策は本当に
greedyな方策か
否!
81
B
DC
E F
A
動的計画法の流れ
② 方策選択
方策赤を選ぶ
(A,down)
(C,right)
(D,down)
82
B
DC
E F
A
動的計画法の流れ
③ 計算
同様に全て計算
この際、方策 緑 の
計算結果を利用する
状態CではDの状態価値が
利用できる
83
B
DC
E F
A
動的計画法の流れ
④ 確認
選んだ方策は本当に
greedyな方策か
是!
84
B
DC
E F
A
動的計画法の流れ
ようやく移動。
85
B
DC
E F
A
バックアップ線図(Backup Diagram)
更新時に関わる情報を
図式化したもの
:状態s
:行動a
:各sの更新時
必要な情報の
範囲
86
A
B C
D
F
D
F
E
F
動的計画法のバックアップ線図
87
A
B C
D
F
D
F
E
F
:状態s
:行動a
:各sの更新時
必要な情報の
範囲
動的計画法のバックアップ線図
88
A
B C
D
F
D
F
E
F
:状態s
:行動a
:各sの更新時
必要な情報の
範囲
動的計画法の難点
• 必ず最適解に辿り着くけど・・・
• 計算量が多い!
– 状態数が増えると現実的には計算不可
• モデルを持たないと使えない!
– 実際はそれがふつう
– モデルなしで知的な
エージェントを実現したい
89
モンテカルロ法とは?
90
• モンテカルロ法(Monte Carlo method)
– 環境のモデルを一切持たない(モデルフリー)
– 「エピソード」を多数生成し、試行錯誤する
– 方策オン/オフ
モデルフリー
91
• イメージ:情報なにもなし!
何もわからない ので
とりあえず行ってみるしかない
判断基準は「ゴールにいるか」
ただひとつ
B
DC
E F
A
エピソード
• エピソード(episode)
– 始点から終点までの状態s、行動a、報酬rの列
92
B
DC
E F
A
A→r→b→B→d→d→D→d→f→F
動的計画法 vs モンテカルロ法
• 動的計画法
– 「先読み」が可能
– 次に貰える報酬と、次の状態が利用可能!
– 「今の状態価値」だけで十分
• モンテカルロ法
– 「先読み」が不可
– 「今の状態価値」+「そこでとる行動」セット評価
93
モンテカルロ法の流れ
94
以下を繰り返す
① エピソードを生成
② エピソード中の「ある状態のある行動」
についての報酬を積算、平均
③ 各状態で が最大となる方策を選ぶ
モンテカルロ法の流れ
① エピソード生成
95
B
DC
E F
A
A→r→b→B→d→d→D→d→f→F
モンテカルロ法の流れ
② 報酬の積算、平均
96
B
DC
E F
A
(b+d+f)/3 (b+d+f)/3
(b+d+f)/3
モンテカルロ法の流れ
③ 最大の行動価値に
従って方策の更新
97
B
DC
E F
A
(b+d+f)/3 (b+d+f)/3
(b+d+f)/3
モンテカルロ法の流れ
① エピソード生成
98
B
DC
E F
A
(b+d+f)/3 (b+d+f)/3
(b+d+f)/3
A→d→c→B→r→d→D→d→f→F
モンテカルロ法の流れ
② 報酬の積算、平均
99
B
DC
E F
A
(b+d+f)/3 (b+d+f)/3
(b+d+f)/3(c+d+f)/3
(c+d+f)/3
(c+d+f)/3
モンテカルロ法の流れ
③ 最大の行動価値に
従って方策の更新
緑より赤の方が
良い報酬!
100
B
DC
E F
A
(b+d+f)/3 (b+d+f)/3
(b+d+f)/3(c+d+f)/3
(c+d+f)/3
(c+d+f)/3
モンテカルロ法のバックアップ線図
101
A
B C
D
F
D
F
E
F
:状態s
:行動a
:各sの更新時
必要な情報の
範囲
モンテカルロ法のバックアップ線図
102
A
B C
D
F
D
F
E
F
:状態s
:行動a
:各sの更新時
必要な情報の
範囲
103
A
B C
D
F
D
F
E
F
A
B C
D
F
D
F
E
F
動的計画法 モンテカルロ法
ホントにいいのか?
• 実はとんでもない仮定
「全ての状態-行動が無限回訪問される」
こんなの絶対おかしい
104
ホントにいいのか?
105
ホントにいいのか?
• 実はとんでもない仮定
「全ての状態-行動が無限回訪問される」
106
エピソードはランダムに生成し、各回greedyな行動
実際は「もっといい行動がある」可能性があるのに
訪問しない(十分な「探索」が行われない)
モンテカルロ法の種類
• モンテカルロES法
– 全ての状態、行動が確認されると仮定
• 方策オン型 モンテカルロ法
– 少し危ない橋を渡らせる
• 方策オフ型 モンテカルロ法
– 挙動方策と推定方策
107
モンテカルロ法の種類
• モンテカルロES法
– 全ての状態、行動が確認されると仮定
• 方策オン型 モンテカルロ法
– 少し危ない橋を渡らせる
• 方策オフ型 モンテカルロ法
– 挙動方策と推定方策
108
方策オンと方策オフ
• 方策オン型
– 行動を選ぶ方策 そのものを評価、改善
• 方策オフ型
– 行動を選ぶ方策とは別に、評価用の方策を用意
109
モンテカルロ法の種類
• モンテカルロES法
– 全ての状態、行動が確認されると仮定
• 方策オン型 モンテカルロ法
– 少し危ない橋を渡らせる
• 方策オフ型 モンテカルロ法
– 挙動方策と推定方策
110
方策オン型モンテカルロ
• 危ない橋を渡らせる?
問題点:
更新ごと、報酬を良くしようとする為
訪問されない状態ー行動が出てくること
わずかな確率でも、そのルートを選ばせたい!
111
方策オン型モンテカルロ
• ε-greedy手法
– ある確率 ε で 非greedy方策を選ぶ
– それ以外の場合にはgreedy方策を選ぶ
112
方策オン型モンテカルロ
• ε-greedy手法
– ある確率 ε で 非greedy方策を選ぶ
– それ以外の場合にはgreedy方策を選ぶ
113
方策オン型モンテカルロ
• ε-greedy手法
– ある確率 ε で 非greedy方策を選ぶ
– それ以外の場合にはgreedy方策を選ぶ
114
方策オン型モンテカルロ
115
非greedy greedy
モンテカルロ法の種類
• モンテカルロES法
– 全ての状態、行動が確認されると仮定
• 方策オン型 モンテカルロ法
– 少し危ない橋を渡らせる
• 方策オフ型 モンテカルロ法
– 挙動方策と推定方策
116
方策オフ型モンテカルロ法
• 2つの方策を考える
– 挙動方策(behavior policy) π’
エージェントが可能な行動の観測を行う
– 推定方策(estimation policy) π
実際にエージェントを行動させる
色々な状態ー行動を見つつ、greedyな探索が出来る!
117
方策オフ型モンテカルロ法
各方策を与える(状態、行動、報酬)
118
A→r→b→B→r→d→D→d→f
A→d→c→C→r→d→D→d→f
π
π’
B
DC
E F
A
方策オフ型モンテカルロ法
各方策を与える(状態、行動、報酬)
119
[ A,r,b,B,d,d,D,d,f ]
この時の行動価値を両者計算
> なら方策変更
π
π’
B
DC
E F
A
π’ π
A→r→b→B→r→d→D→d→f
A→d→c→C→r→d→D→d→f
2節まとめ
120
• 動的計画法(DP)
– モデルベース
– 各状態価値をあらかじめ全て計算
– 必ず最適解に辿り着くが 現実的ではない
• モンテカルロ法
– モデルフリー
– 様々な経験則から最適行動価値関数を見積もる
– 方策オン型/方策オフ型
第2部目次
1 問題設定
2 動的計画法 vs モンテカルロ法
3 TD学習、Q学習
4 脳との関連性
5 研究動向、まとめ
121
TD学習とは
122
• 現在の源流となる強化学習手法の 祖
– Bellman方程式の近似
– 動的計画法のように「以前の結果を利用」
– モンテカルロ法のように「環境のモデルが不要」
TD学習とは
• TD学習(Temporal Difference Learning)
– その場更新型のモンテカルロ法
– 今の状態と次の状態の報酬を最大化
• α:更新率(0<α<=1)
「今を大事にするか」 α≈ 0
「次を大事にするか」 α≈ 1
123
モンテカルロ法との違い
• モンテカルロ法
– 各エピソードの報酬の和だけ見る
– エピソード終端まで更新が不可
• TD学習
– 1回1回そこで得られる報酬を使う
– 最短、次の状態の予測までで更新可
124
・・・
!
一体何がすごいのか
• 報酬と次の状態のモデルを必要としない
– モデルフリー
– 「次の状態」はエピソード毎に記憶する
• モンテカルロ法より早い!
– 問題が複雑になればなるほど、モンテカルロ法は
更新に時間がかかる
(短ければ良い)
125
TD学習の流れ
① 各状態価値 V(s) を任意に初期化 評価するπを設定
以下各エピソード毎にループ
② エピソードの各ステップ毎に
・πで与えられる行動aをとってr,s’を観測
・s(行動前)の状態価値V(s)を更新
・次状態 s ’へ移行
s’が終端状態なら次のエピソードへ移行
126
TD学習の流れ
① 初期化
各状態価値を初期化
方策緑を評価
γ=1
127
B
DC
E F
A
TD学習の流れ
② 行動
方策π=緑に従い
行動a=rightをとる
報酬 b と次状態Bを
観測
128
B
DC
E F
A
b
TD学習の流れ
② V(s)更新
状態価値を設定
エージェントが移動
129
B
DC
E F
A
α*b
TD学習の流れ
② 終端まで確認
続いて方策赤を評価
130
B
DC
E F
A
α*b α*d
α*f
TD学習の流れ
② 行動
方策π=赤に従い
行動a=downをとる
報酬 c と次状態Cを
観測
131
B
DC
E F
A
α*b α*d
α*f
c
TD学習の流れ
132
B
DC
E F
A
new α*d
α*f
② V(s)更新
状態価値を設定
先ほどの状態価値利用
エージェントが移動
TD学習の流れ
133
B
DC
E F
A
new α*d
new
② 終端まで確認
以上繰り返して、
最適な方策を探すα*d
DQN の Q !
• Q学習(Q-learning)
– ある行動をとったら、その時の自分はどうなるか?
– 方策オフ型のTD学習と考えられる
– 現代の強化学習のメイン
134
Q学習を数式で見る
135
• 行動価値関数の最適化を目指す
– 1ステップごとに現在の方策を改善する
– α:学習率
「今を大事に」ー「次を大事に」のTrade-off
次状態が最適な行動の選択
TD学習とQ学習の違い
• TD学習
– 状態価値に従って更新
– 方策に従って遷移した先の評価値のみ見る
• Q学習
– 行動価値に従って更新
– 方策とは関係なしに、複数の評価値を見る
136
Q学習の流れ
① 各行動価値 Q(s,a) を任意に初期化 評価するπを設定
以下各エピソード毎にループ
② エピソードの各ステップ毎に
・Qで与えられる行動aをとってr,s’を観測
・s(行動前)の状態価値V(s)を更新
・次状態 s ’へ移行
s’が終端状態なら次のエピソードへ移行
137
Q学習の流れ
① 初期化
各状態価値を初期化
方策緑を評価
γ=1
138
B
DC
E F
A
Q学習の流れ
② 行動価値から選択
b とc どちらが良いか?
効率よく試行錯誤する
139
B
DC
E F
A
b
dc
e
f
d
Q学習の流れ
② 行動価値から選択
方策赤におけるdとeは
どちらが良いか?
効率よく試行錯誤する
140
B
DC
E F
A
b
dc
e
f
d
141
動的計画法 モンテカルロ法 TD学習 Q学習
モデル 必要 不要 不要 不要
主な
更新対象
状態価値関数
V(s)
行動価値関数
Q(s,a)
状態価値関数
V(s)
行動価値関数
Q(s,a)
概要
全ての状態を
総当たり計算
計算量が多い
エピソードから
価値関数推測
行動選択の方法
エピソードの
1ステップ毎に
状態価値更新
次の行動報酬が
最も良くなるよ
う選択
Backup
Diagram
第2部目次
1 問題設定
2 動的計画法 vs モンテカルロ法
3 TD学習、Q学習
4 脳との関連性
5 研究動向、まとめ
142
強化学習と脳
• 強化学習を脳がしている?
143
注目箇所
• 大脳基底核(Basal Ganglia)
144
注目箇所
• 大脳基底核(Basal Ganglia)
145
尾状核
淡蒼球
被殻
線条体
黒質
視床下核
各部位の働き
• 線条体
– 運動機能、意思決定
• 淡蒼球
– 報酬予測
• 黒質
– ドーパミンの放出
• 視床下核
– 運動の調整
146
ループ構造
147
大脳皮質
ストリオゾーム マトリックス
淡蒼球外節
黒質緻密部
腹側被蓋野
淡蒼球内節
黒質網様部
視床下核
銅谷 賢治, “計算神経科学への招待” より
視床
線条体
ループ構造
148
大脳皮質
淡蒼球外節
黒質緻密部
腹側被蓋野
淡蒼球内節
黒質網様部
視床下核
銅谷 賢治, “計算神経科学への招待” より
視床
大脳皮質~基底核ループ
ストリオゾーム マトリックス
線条体
大脳皮質~基底核ループ
ループ構造
149
大脳皮質
ストリオゾーム マトリックス
淡蒼球外節
黒質緻密部
腹側被蓋野
淡蒼球内節
黒質網様部
視床下核
銅谷 賢治, “計算神経科学への招待” より
視床
線条体
ドーパミンニューロンの観測
• 予測と報酬の神経回路 [Schultz et al, 1997]
ランプの点灯に従って
レバーを操作すると
ジュース(報酬)が貰える
この時のサルの線条体
ドーパミンニューロンを計測
150
http://www.wakosozai.com/
ドーパミンニューロンの観測
• 予測と報酬の神経回路 [Schultz et al, 1997]
ランプの点灯に従って
レバーを操作すると
ジュース(報酬)が貰える
この時のサルの線条体
ドーパミンニューロンを計測
151
http://www.wakosozai.com/
ドーパミンニューロンの観測
• 報酬あり
– r: 実際の報酬
– V: 期待報酬
– δ: TD誤差
152
http://www.wakosozai.com/
学習後
学習前
ドーパミンニューロンの観測
• 報酬あり
– r: 実際の報酬
– V: 期待報酬
– δ: TD誤差
153
http://www.wakosozai.com/
報酬の「予測」に
対して応答
ドーパミンニューロンの観測
• 報酬なし
– r: 実際の報酬
– V: 期待報酬
– δ: TD誤差
154
http://www.wakosozai.com/
学習前
学習後
ドーパミンニューロンの観測
• 報酬なし
– r: 実際の報酬
– V: 期待報酬
– δ: TD誤差
155
http://www.wakosozai.com/
ニューロン抑制
この実験で分かったこと
• 線条体ではTD誤差のような振舞いがある?
156
実際にもらえた報酬
もらえるであろう報酬
どのように行動選択しているのか
• 行動価値の観測 [Samejima et al , 2005]
サルの線条体ニューロンの観測
倒す方向によって貰える確率が変化
157
Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005
どのように行動選択しているのか
• 最初はランダムに選んでいた
• 次第に報酬が貰えそうな方に
レバーを倒し始めた
158
Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005
どのように行動選択しているのか
• 最初はランダムに選んでいた
• 次第に報酬が貰えそうな方に
レバーを倒し始めた
159
Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005
状態に応じて最適な行動を選んでいる?
ループ構造
160
大脳皮質
ストリオゾーム マトリックス
淡蒼球外節
黒質緻密部
腹側被蓋野
淡蒼球内節
黒質網様部
視床下核
銅谷 賢治, “計算神経科学への招待” より
視床
線条体
大脳基底核のモデル化
161
鮫島和行,銅谷賢治, “強化学習と大脳基底核” 参考
大脳皮質
線条体
淡蒼球外節
黒質網様部
視床
黒質
input output
大脳基底核のモデル化
162
鮫島和行,銅谷賢治, “強化学習と大脳基底核” 参考
大脳皮質
線条体
淡蒼球外節
黒質網様部
視床
黒質
input output
TD誤差
Q(s,a)算出
第2部目次
1 問題設定
2 動的計画法 vs モンテカルロ法
3 TD学習、Q学習
4 脳との関連性
5 研究動向、まとめ
163
強化学習の応用研究
• ヘルプから適切な操作の遂行
[Branavan et al,2009]
Windowsのヘルプを解釈し
見合った操作を自律的に行う
164
Click run, and press OK.
強化学習の応用研究
• ゲームへの応用(DQN)
[Volodymyr et al,2015]
ゲーム画面4フレーム分を入力
出力は動作
最初2層はCNN
最適行動価値関数Q*への近似
165
Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015
強化学習の応用研究
• 未学習データの検出および強化学習への応用
[Osawa,Hagiwara,2015]
RBM,Deep Belief Networkを用い
長期スパンでの “戦略” の立案を
可能にするようなモデルを提唱
166
状態、行動
価値判定
まだ見えてない部分
• 脳モデルについて
– マルコフ性と仮定することは適切か
– モデルフリーから経験でモデルベースにしている?
• 強化学習が「最も効率的」なのか?
167
まとめ
• 強化学習のアルゴリズムを紹介
– 動的計画法、モンテカルロ法
– TD学習、Q学習
– モデルベース、モデルフリー
– 行動の選択(greedy, ε-greedy)
• 脳との関連性を紹介
– 線条体にTD学習やQ学習のような振舞い
168
主な参考文献
[1] Richard S.Sutton , Andrew G.Barto , “Reinforcement Learning” , 1998
[2] 三上 貞芳, 皆川 雅章 共訳 , “強化学習”, ([1]の日本語版)
[3] 銅谷 賢治, “計算神経科学への招待” , 2007
[4] 牧野 貴樹, “強化学習をベイズで理解する”, 2014 (スライド)
[5] Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015
その他 多くのWeb上のスライド、記述、論文、書籍など
使用した脳の画像: 3D-brain(free)
169
ありがとうございました!
170

More Related Content

全脳アーキテクチャ若手の会 強化学習

Editor's Notes

  1. 参考:日経コンピュータ http://itpro.nikkeibp.co.jp/atcl/news/15/020900464/
  2. http://withnews.jp/article/f0150226003qq000000000000000W00b0901qq000011569A
  3. http://withnews.jp/article/f0150226003qq000000000000000W00b0901qq000011569A
  4. http://withnews.jp/article/f0150226003qq000000000000000W00b0901qq000011569A
  5. 脳へのアプローチということで、脳のお話から現在の機械学習技術、強化学習技術をざっくりとお話しします。
  6. 前頭葉:理性、運動(理性が保てない) 頭頂葉:体性感覚(体の痺れ) 側頭葉:記憶、触覚、嗅覚 後頭葉:視覚
  7. 全か無かの法則
  8. マカロック、ピッツモデル (ステップ関数 0 or 1)
  9. なんだできてんじゃん? パーセプトロンがRosenblatt バックプロパゲーションはRumenhert 1986
  10. この間は、サポートベクターマシンであったり、反教師有り学習がブームになってた
  11. 最新研究ではgoogleが同じタスクで5%切っている
  12. ヴォロジミール Atari 210*160pixel を84*84*3にサンプリング ※ 最適行動価値関数は   人間に実際に制限された環境の中でゲームをさせて、   より人間的なら「1」に近い報酬、ランダムな動きなら「0」の報酬を与えることによって算出 時系列データを扱っている為、関数近似の必要性: パラメータベクトルθを導入し、それを近似することによって実現 experience replay : エージェントがそれまでに行った経験をデータとして貯め込み、ランダムサンプリングして重み更新を行う
  13. お断り:Deep Learningの話ではありません
  14. 4本あるので4回以上は引けます。
  15. この場合であれば、Aをガシャンガシャン引きまくるという「行動」が「欲張り」
  16. 後に続く報酬が分かる「モデルベース」
  17. 分布や状況が全く分からない「モデルフリー」
  18. Boltzmann分布に従う レバーの引き方は、この後方策オン型モンテカルロ法やQ学習にもつながってくる 脳どこいった?
  19. サルでの実験 遅延報酬
  20. ①http://miuse.mie-u.ac.jp/bitstream/10076/13555/1/2012D007.pdf 三重大学大学院 パーキンソン病:ふるえ、筋肉の硬直などが起こる 黒質から線条体へ分泌されるドーパミンが出なくなってしまう事から
  21. CNNなど
  22. 教師有 : 与えられた正解に関数を近似する なし: 与えられた分布の統計的な性質を見る 強化: 直接正解は与えられないが、どの程度良かったかを環境から入手
  23. おことわり 方策π :::π(A,down)と記載するのが本来正しい。  方策πは確率分布であるため。 直観的な理解をしていただくための記法だと思ってください。
  24. 全部が全部 : 非マルコフ
  25. k-armed banditであれば 「どの腕を引けばよいか」が予めわかっている状態
  26. ④の処理をかませることで、更新される
  27. フルバックアップが必要:即ち、後に続く状態の完全な分布が必要となる
  28. 判断基準; エージェントは「どうすればゴールに辿り着けるか」という環境のダイナミクスを知らない為 「出口にいるかいないか」という事でしか評価ができない
  29. Aではrightへ行くよりもdownをした方がよい! とエージェントが学ぶ
  30. P94アルゴリズム 探索は有限回で打ち切る
  31. ランダムで、全ての状態行動対を評価しなければならない 
  32. 探索が不十分。 ここに辿り着いた報酬だけで終えてしまう問題。 :実用上は有限回で切る  見つかった後に「ほんとにこれでいいのか」と判断するのは人間 ゴールに来たという報酬だけじゃ
  33. とりあえず、greedyな選び方(より報酬が高い方高い方へ流れて行きすぎないようにすればOK)
  34. とりあえず、greedyな選び方(より報酬が高い方高い方へ流れて行きすぎないようにすればOK)
  35. 状態数の期待値として定義   A(s)が分母に来てる理由
  36. ∑Q(s,a) の部分だけは行動後に決まる。 
  37. 本来は異なった瞬間、それ以降すべてのエピソードについて評価し、argmax(a) Q(s,a) なる方策を考える
  38. 式・・・
  39. 行動前の値と行動後の値 V(s)との誤差をどんどん減らしていく
  40. モンテカルロは腕の分岐の組合せに厳しい
  41. s’に移動してからsの状態価値を更新する。Temporal Difference と言われる所以
  42. 初期化時はV(s)=0 γ=1
  43. αb + α{c+γαb-αb}
  44. αb + α{c+γαb-αb}
  45. なぜ方策オフか? 現在行っている方策とは関係なしに、常に最大の行動価値を選択しながら行動価値関数を更新しているから
  46. Q学習するためには、「自分がある行動を取ったとして、その時に自分の状態がどうなるか」
  47. s’に移動してからsの状態価値を更新する。Temporal Difference と言われる所以
  48. 初期化時はV(s)=0 γ=1
  49. 初期化時はV(s)=0 γ=1 簡略化のため、BとCの行動価値関数はすでに理解しているものとする(本来は経験によって得るもの)
  50. 初期化時はV(s)=0 γ=1 簡略化のため、BとCの行動価値関数はすでに理解しているものとする(本来は経験によって得るもの)
  51. 動的計画法:フルバックアップ         :後に続く状態の完全な分布が必要 モンテカルロ、TD、Q:サンプルバクアップ  :                  不要
  52. 銅谷先生の本には「オタマジャクシみたいな尾状核、ハマグリみたいな被殻」とあった・・・ ピンクの部分は側坐核 ここも報酬に関与している??(不明)
  53. 赤:興奮性 青:抑制性 黒質緻密部からドーパミンを放出することによって興奮
  54. 赤:興奮性 青:抑制性 どっちがどっちだ… 入力ー○出力
  55. 赤:興奮性 青:抑制性 黒質緻密部からドーパミンを放出することによって興奮
  56. 上:学習前 下:学習後
  57. 上:学習前 下:学習後
  58. 左に倒すと90%で
  59. 赤:興奮性 青:抑制性 黒質緻密部からドーパミンを放出することによって興奮
  60. BartoらのActor-Critic モデルなどがベースになっている
  61. BartoらのActor-Critic モデルなどがベースになっている
  62. 方策は確率過程(ボルツマン分布) 最適状態価値関数V*の推定 真の分布が不明なので、Vを最大にするようなθを仮定し、最尤推定を行っている
  63. Atari 210*160pixel を84*84*3にサンプリング 最初の2層で有用な特徴量を抽出 ※ 最適行動価値関数は   人間に実際に制限された環境の中でゲームをさせて、   より人間的なら「1」に近い報酬、ランダムな動きなら「0」の報酬を与えることによって算出 時系列データを扱っている為、関数近似の必要性: パラメータベクトルθを導入し、それを近似することによって実現 experience replay : エージェントがそれまでに行った経験をデータとして貯め込み、ランダムサンプリングして重み更新を行う
  64. MITの研究
  65. 強化学習を使う場合は、問題を強化学習 自律的に正解を見つけていく場面であればよい 対応があればいい、というだけであれば教師有り学習