全脳アーキテクチャ若手の会強化学習

全脳アーキテクチャ若手の会勉強会
後援：ドワンゴ人工知能研究所
強化学習
＝脳へのアプローチ＝
法政大学理工学部応用情報工学科
川崎雄介
yusuke.kawasaki.hosei@gmail.com

自己紹介
川崎雄介
– 所属：法政大学理工学部
– 出身：東京都八丈島
– 研究：植物病自動診断
– 特技：少林寺拳法
2

身近になった人工知能
• Pepper (Aldebaran Robotics,Softbank 社 )
– 人間の声のトーンなどから感情認識
• 将棋電王戦 (niconico)
– 人間 vs コンピュータでの将棋
– 人間１勝、コンピュータ４勝 (2014第3回)
3

身近になった人工知能
• 総務省 2015年2月
– インテリジェント化が加速する
ICTの未来像に関する研究会
– 2045年問題に関する議論
人工知能が人間並みの知能を持つようになる？地点
– 政府機関によるこういった会議は異例
4

最近、こんなことが話題に
• グーグル開発の人工知能DQN ネットでは「命名事故？」「奇跡的」
（2015年 2月26日 withnews , 抜粋 )
米国のＩＴ大手グーグルが、画期的な人工知能を開発した、と２６日号の科学情
報誌「ネイチャー」（電子版）で発表しました。その名も「ＤＱＮ」。「ＤＱＮ
（ドキュン）」とは、「知的水準が低く、常識がない」という意味の日本のネッ
トスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの
間で「ドキュン」が浸透するかもしれません。
ネイチャー電子版によると、この人工知能（ＡＩ）は、グーグルの子会社
「ディープマインド」のチームが開発しました。
他企業が開発している既存のＡＩは、単一の目的に特化されているものが多く
ありました。
それに対してＤＱＮは、「得点が最大になるような行動を選ぶ」「データから
対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題に
ゼロから取り組んで成果を上げられるのが特徴です。
たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手
くなっていくそうです。 5

ありました。

ありました。
このメカニズムを探る

話題にのぼることの多くなった人工知能。
今回は「強化学習」という枠組みから
発表させて頂きます。
8
ろぼみ

今回の講演につきまして
• 第１部
– この分野に馴染みのない方向け
– ざっくりとしたお話になります（数式なし）
• 第２部
– この分野（情報系）の方向け
– 数式を使って、可能な限り詳説します
何度か質問コーナー挟んでいきます！
9

脳ってどんな構造なの？
• 各部位ごとの神経のネットワーク
11
前頭葉
側頭葉
頭頂葉
後頭葉

ネットワークの構成要素
• ニューロン（Neuron）
– 脳内の神経細胞
– 入力ー処理ー出力の機構
– 強い電気信号のみに発火
12
銅谷賢治, “計算神経科学への招待” より
細胞体
(soma)
樹状突起
(dendrite)
軸索
(axon)

脳を模してみよう
• McCulloch-Pitts モデル [Mcculloch,Pitts , 1943]
– ニューロンを真似た構造の実現
13
出力

脳を模してみよう
• パーセプトロン [Rosenblatt, 1958]
– 脳のネットワークのような構造
– 任意の識別面も表現できるように[Rumenhert,1986]
14
多層パーセプトロン

じゃあ、何故今になって
再注目されてきたのか
15

しかし
• 計算リソースが足りなかった！
– ここにきてハードウェアの発展
• 人間の表現力が高すぎた！
– 大域的な最適解を出せない
16

しかし
• 計算リソースが足りなかった！
– ここにきてハードウェアの発展
• 人間の表現力が高すぎた！
– 大域的な最適解を出せない
17
ここに来てそれを打ち破る技術が誕生
Deep Learning

機械学習の春
• 一般物体認識コンテスト [Krizhevsky et al , 2012]
大量の画像を読み込ませ
1,000種類のクラス識別問題
error率 15.3%
視覚野のような特徴を確認
18
Krizhevsky et al, “Imagenet Classification with Deep Convolutional Neural Network,” 2012

機械学習の春
• Googleの猫認識 [Quoc et al,2011]
これが猫だと教えずに猫の概念を獲得
19
Quoc et al, “Building High-level Features Using Large Scale Unsupervised Learning,” 2011

機械学習の春
• Deep Q-Network [Volodymyr et al,2015]
コンピュータに「行動則」を学ばせる
20
Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015

本日のメイントピック
21
教師有り学習教師なし学習強化学習

スロットマシン（k-armed bandit）
４本の腕がある無料スロットマシンがあります。
それぞれの腕毎に出てくる賞金が違います。
限られた回数で多くの賞金を得るためには、
どのように腕を選ぶのが良いでしょう？
22

４本の腕がある無料スロットマシンがあります。
それぞれの腕毎に出てくる賞金が違います。
限られた回数で多くの賞金を得るためには、
どのように腕を選ぶのが良いでしょう？
23
強化学習における目標

• とりあえず一本ずつ引いてみる
24
A: 100
B: 50
C: 10
D: 1

25
A: 100
B: 50
C: 10
D: 1

26
A: 100
B: 50
C: 10
D: 1
もらえるご褒美は
多い方がいい
（欲張り方策）

• もし次に出る額を知っていたら？
27
A: 100 (1)
B: 50 (10)
C: 10 (100)
D: 1 (500)

• １回引くたびに出る額が変わったら？
28
A: ？？？
B: ？？？
C: ？？？
D: ？？？

探索と知識利用
• 探索（exploration）
– 最終的に多くの報酬を貰いたい
– あえて別の行動をとる
29
B

• 知識利用（exploitation）
– 今も貰えたならば次も貰える
– 大きな報酬が期待できる行動をとる
30
A

• 探索 vs. 知識利用
– 相反する性質
– ずっと欲張らず違う腕も引いてみる
– 最初は適当に、時間が経つにつれて欲張りに
– レバーを引く、という行動をどう選ぶのが最適？
31

強化学習と脳？
• 大脳基底核
– 大脳皮質の内側の器官
– ここが強化学習に
関わっているのでは？
２部の後半で
紐解いていきます
32

強化学習で何ができそうか？
• 被災地の復興支援ロボット
– 自ら危険なところを回避し人を探す、情報を送る
• 介護ロボット
– 介護の現場での運用
• 病気の解析
– コンピュータでシミュレート出来るか？
– パーキンソン病などの治療への足掛かり？
33

第１部のまとめ
• 人工知能分野の春
– 計算資源確立、ヒトの表現力の突破
• 脳と似た振舞いを持つ？
– コンピュータも脳のような振舞いを見せた
• 強化学習の導入
– 多くのご褒美を得ることが目標
– k-armed bandit問題
34

宣伝
★ 全脳アーキテクチャ若手の会
全脳アーキテクチャ達成に貢献することが本会の目的です。
研究者のみならず、専門外の方でも積極的に
ご参加いただき、多くの方が自分なりに力を
発揮していただける環境を作っていきたいと思っています。
ホームページ：http://wbawakate.jp/
facebook:https://www.facebook.com/groups/713921892010595/
35

第２部目次
1 問題設定
2 動的計画法 vs モンテカルロ法
3 ＴＤ学習、Ｑ学習
4 脳との関連性
5 研究動向、まとめ
37

第２部目次
1 問題設定
38

強化学習の位置づけ
• 教師あり学習
– 正解付のデータから規則を算出
– ILSVRC2012 (一般物体認識)
• 教師なし学習
– 膨大なデータから規則を算出
– Googleの猫認識
• 強化学習
– ある行動に対する「ご褒美」から規則を算出
– Deep Q Network
39

用語の定義
• エージェント（agent）
– 動作する主体のこと
– 人間、ロボット、etc
40

用語の定義
• 環境（environment）
– エージェントが動作する空間のこと
41
環境

用語の定義
• 状態（states）
– 現在エージェントが置かれている状態
– ：時刻ｔでの状態
42
環境

用語の定義
• 行動（action）
– エージェントが環境に対して働きかける動作
– ：時刻ｔでのエージェントの行動
43
環境

用語の定義
• 報酬（rewards）
– 取ったその行動がどの程度良かったか
44
環境

用語の定義
再び状態が与えられ、行動選択に戻る
このループ
45
環境

用語の定義
• 方策（policy）
– ある状態においてのエージェントの行動規則
– ：状態ｓで行動ａをとる確率
46
環境

• 以下本発表においては
– ｓ：任意の状態
– ａ：任意の行動
– π ：任意の方策
– ｔ：ステップ数
– Pr：確率
– Ｐ：確率の集合
– Ｒ：報酬の集合
– Ａ：行動の集合
47

具体的に
状態ｓ：Ａ～Ｆ
行動ａ：{down,right}
方策 π ：(Ａ, down )
（Ｃ, right ）
報酬ｒ：
Ｃが持つ価値
（後述）
49環境
Ｂ
ＤＣ
ＥＦ
Ａ
ＳＴＡＲＴ
ＧＯＡＬ

タスクの種類
• 連続タスク（continuing tasks）
– 有限時間内でタスクの終了が保障されない
– ロボットの実問題への適用など
• エピソード的タスク（episode tasks）
– 有限時間内で１つのタスクが終了
– 迷路の解の算出など
– 今回はこちらメイン
50

マルコフ性（Markov property）
• 以前までに得た情報を保持できるような過程
– １段階前の状態からの判断で、後続の状態を
判断しても遜色がない
51

マルコフ決定過程（Markov Decision Process）
• MDP
• マルコフ過程に「意思決定＝行動ａの選択」を
付与したもの
• 強化学習全般がこの理論をベースにしている
52

強化学習の目標
• 累積報酬の最大化
エージェントの報酬をタスク終了時に最大にする
53

強化学習の目標
エージェントの
「今おかれた立場の価値」＝状態価値
「そこでの各振舞の価値」＝行動価値
を評価する
54

状態に価値を設定する
55
• 状態の価値？
– ある状態の期待報酬
– その状態でどの程度最終的にご褒美が期待できるか

状態に価値を設定する
56
• 状態の価値？
– ある状態の期待報酬
– その状態でどの程度最終的にご褒美が期待できるか
• 状態価値関数（state-value function for policy π）
期待値

行動に価値を設定する
57
• 行動の価値？
– ある状態である行動をすることの期待報酬
– ここでこれするとどの程度ご褒美が期待できるか

行動に価値を設定する
58
• 行動の価値？
– ある状態である行動をすることの期待報酬
– ここでこれするとどの程度ご褒美が期待できるか
• 行動価値関数（action-value function for policy π）
期待値

状態と行動の価値の関連性
• ＶとＱの関係性
状態価値関数は、行動価値関数の方策固定版
「その場の状況のみで」判断するのか？
「そこでの行動も同時に」判断するのか？
59

割引率
• 割引率（discount rate）γ
– 遠い先の報酬を割引くための定数 (0 <= γ <= 1)
– 0なら即時報酬のみ
– 1なら先々の報酬も同様に考慮
• イメージ
– 10,000円を今貰うか？ 11,000円を一年後貰うか？
61

強化学習の目標（再掲）
62

強化学習の目標（再掲）
63
価値関数を最大にする方策の発見

Bellman方程式
64
• 累積報酬＝即時報酬＋その先の期待報酬
と解釈したもの
つまり以下で定式化できる

Bellman方程式の再帰性
65
ｓ：現在の状態
ｓ’ : 次の状態
ａ：行動
P ：状態ｓで行動ａを取ってｓ‘に遷移する確率集合
R : 〃報酬集合
π(s,a)：状態ｓで行動ａを取る確率

Bellman方程式の再帰性
66
即時報酬期待報酬
即時報酬期待報酬
Ｖ、Ｑの再帰的表現

１節まとめ
• 強化学習の目標
– 累積報酬の最大化価値関数の設定
• マルコフ性
– 得られるものは全て以前までの情報の集大成
67

第２部目次
1 問題設定
68

動的計画法とは？
69
• 動的計画法（Dynamic Programming）
– 環境の完全なモデルを持つ（モデルベース）
– 後続の価値を現在の価値に従って更新
– 厳密な最適解が求まる（理論的には）
– ベルマン方程式を厳密に解く方法

モデルベース
70
• イメージ：地図を持っている！
そこへ至る経路や報酬は既知
あとは最適経路を計算するだけ！
Ｂ
ＤＣ
ＥＦ
Ａ

動的計画法の流れ
① 各状態、その状態で取りうる方策の初期化
② ある方策を選ぶ
③ 各状態においての状態価値をひたすら計算
④ 方策が最適か確かめる
71

③ 各状態においての状態価値をひたすら計算
④ 方策が最適か確かめる
（よりよい方策が無いか？）
72

方策改善定理
• ある方策と価値関数を考える
– よりよい価値が得られるように更新
73
greedy方策
④の更新式と同値
改善後方策

greedy方策
• より多くの報酬を得ようとする行動選択法
74
s0 s1 s2
10 20
20 10
緑緑

greedy方策
• より多くの報酬を得ようとする行動選択法
75
s0 s1 s2
10 20
20 10
赤緑

方策改善定理
• ある方策と価値関数を考える
– よりよい価値が得られるように更新
– 必ず最適解に収束すると知られている
76

① 初期化
Ａ～Ｆの価値を
任意の値で初期化
77
Ｂ
ＤＣ
ＥＦ
Ａ

② 方策選択
どのようにＦに
辿り着くかを選ぶ
（赤が最適とします）
78
Ｂ
ＤＣ
ＥＦ
Ａ

② 方策選択
方策緑を選ぶ
(A,right)
(B,down)
(D,down)
79
Ｂ
ＤＣ
ＥＦ
Ａ

③ 計算
②の方策に従い、
全ての状態価値を計算
（方策上ありえない
箇所も計算する）
80
Ｂ
ＤＣ
ＥＦ
Ａ

④ 確認
選んだ方策は本当に
greedyな方策か
否！
81
Ｂ
ＤＣ
ＥＦ
Ａ

② 方策選択
方策赤を選ぶ
(A,down)
(C,right）
(D,down)
82
Ｂ
ＤＣ
ＥＦ
Ａ

③ 計算
同様に全て計算
この際、方策緑の
計算結果を利用する
状態CではDの状態価値が
利用できる
83
Ｂ
ＤＣ
ＥＦ
Ａ

④ 確認
選んだ方策は本当に
greedyな方策か
是!
84
Ｂ
ＤＣ
ＥＦ
Ａ

ようやく移動。
85
Ｂ
ＤＣ
ＥＦ
Ａ

バックアップ線図（Backup Diagram）
更新時に関わる情報を
図式化したもの
：状態ｓ
：行動ａ
：各ｓの更新時
必要な情報の
範囲
86
A
ＢＣ
Ｄ
Ｆ
Ｄ
Ｆ
Ｅ
Ｆ

動的計画法のバックアップ線図
87
A
ＢＣ
Ｄ
Ｆ
Ｄ
Ｆ
Ｅ
Ｆ
：状態ｓ
：行動ａ
必要な情報の
範囲

動的計画法のバックアップ線図
88
A
ＢＣ
Ｄ
Ｆ
Ｄ
Ｆ
Ｅ
Ｆ
：状態ｓ
：行動ａ
必要な情報の
範囲

動的計画法の難点
• 必ず最適解に辿り着くけど・・・
• 計算量が多い！
– 状態数が増えると現実的には計算不可
• モデルを持たないと使えない！
– 実際はそれがふつう
– モデルなしで知的な
エージェントを実現したい
89

モンテカルロ法とは？
90
• モンテカルロ法（Monte Carlo method）
– 環境のモデルを一切持たない（モデルフリー）
– 「エピソード」を多数生成し、試行錯誤する
– 方策オン／オフ

モデルフリー
91
• イメージ：情報なにもなし！
何もわからないので
とりあえず行ってみるしかない
判断基準は「ゴールにいるか」
ただひとつ
Ｂ
ＤＣ
ＥＦ
Ａ

エピソード
• エピソード（episode）
– 始点から終点までの状態ｓ、行動ａ、報酬ｒの列
92
Ｂ
ＤＣ
ＥＦ
Ａ
A→r→b→B→d→d→D→d→f→F

動的計画法 vs モンテカルロ法
• 動的計画法
– 「先読み」が可能
– 次に貰える報酬と、次の状態が利用可能！
– 「今の状態価値」だけで十分
• モンテカルロ法
– 「先読み」が不可
– 「今の状態価値」＋「そこでとる行動」セット評価
93

モンテカルロ法の流れ
94
以下を繰り返す
① エピソードを生成
② エピソード中の「ある状態のある行動」
についての報酬を積算、平均
③ 各状態でが最大となる方策を選ぶ

① エピソード生成
95
Ｂ
ＤＣ
ＥＦ
Ａ
A→r→b→B→d→d→D→d→f→F

② 報酬の積算、平均
96
Ｂ
ＤＣ
ＥＦ
Ａ
(b+d+f)/3 (b+d+f)/3
(b+d+f)/3

③ 最大の行動価値に
従って方策の更新
97
Ｂ
ＤＣ
ＥＦ
Ａ
(b+d+f)/3 (b+d+f)/3
(b+d+f)/3

① エピソード生成
98
Ｂ
ＤＣ
ＥＦ
Ａ
(b+d+f)/3 (b+d+f)/3
(b+d+f)/3
A→d→c→B→r→d→D→d→f→F

② 報酬の積算、平均
99
Ｂ
ＤＣ
ＥＦ
Ａ
(b+d+f)/3 (b+d+f)/3
(b+d+f)/3(c+d+f)/3
(c+d+f)/3
(c+d+f)/3

③ 最大の行動価値に
従って方策の更新
緑より赤の方が
良い報酬！
100
Ｂ
ＤＣ
ＥＦ
Ａ
(b+d+f)/3 (b+d+f)/3
(b+d+f)/3(c+d+f)/3
(c+d+f)/3
(c+d+f)/3

モンテカルロ法のバックアップ線図
101
A
ＢＣ
Ｄ
Ｆ
Ｄ
Ｆ
Ｅ
Ｆ
：状態ｓ
：行動ａ
必要な情報の
範囲

モンテカルロ法のバックアップ線図
102
A
ＢＣ
Ｄ
Ｆ
Ｄ
Ｆ
Ｅ
Ｆ
：状態ｓ
：行動ａ
必要な情報の
範囲

103
A
ＢＣ
Ｄ
Ｆ
Ｄ
Ｆ
Ｅ
Ｆ
A
ＢＣ
Ｄ
Ｆ
Ｄ
Ｆ
Ｅ
Ｆ
動的計画法モンテカルロ法

ホントにいいのか？
• 実はとんでもない仮定
「全ての状態-行動が無限回訪問される」
こんなの絶対おかしい
104

105

• 実はとんでもない仮定
「全ての状態-行動が無限回訪問される」
106
エピソードはランダムに生成し、各回greedyな行動
実際は「もっといい行動がある」可能性があるのに
訪問しない（十分な「探索」が行われない）

モンテカルロ法の種類
• モンテカルロＥＳ法
– 全ての状態、行動が確認されると仮定
• 方策オン型モンテカルロ法
– 少し危ない橋を渡らせる
• 方策オフ型モンテカルロ法
– 挙動方策と推定方策
107

108

方策オンと方策オフ
• 方策オン型
– 行動を選ぶ方策そのものを評価、改善
• 方策オフ型
– 行動を選ぶ方策とは別に、評価用の方策を用意
109

110

方策オン型モンテカルロ
• 危ない橋を渡らせる？
問題点：
更新ごと、報酬を良くしようとする為
訪問されない状態ー行動が出てくること
わずかな確率でも、そのルートを選ばせたい！
111

• ε-greedy手法
– ある確率 ε で非greedy方策を選ぶ
– それ以外の場合にはgreedy方策を選ぶ
112

• ε-greedy手法
113

• ε-greedy手法
114

115
非greedy greedy

116

方策オフ型モンテカルロ法
• ２つの方策を考える
– 挙動方策（behavior policy） π’
エージェントが可能な行動の観測を行う
– 推定方策（estimation policy） π
実際にエージェントを行動させる
色々な状態ー行動を見つつ、greedyな探索が出来る！
117

各方策を与える（状態、行動、報酬）
118
A→r→b→B→r→d→D→d→f
A→d→c→C→r→d→D→d→f
π
π’
Ｂ
ＤＣ
ＥＦ
Ａ

各方策を与える（状態、行動、報酬）
119
[ A,r,b,B,d,d,D,d,f ]
この時の行動価値を両者計算
> なら方策変更
π
π’
Ｂ
ＤＣ
ＥＦ
Ａ
π’ π
A→r→b→B→r→d→D→d→f
A→d→c→C→r→d→D→d→f

２節まとめ
120
• 動的計画法（DP）
– モデルベース
– 各状態価値をあらかじめ全て計算
– 必ず最適解に辿り着くが現実的ではない
– モデルフリー
– 様々な経験則から最適行動価値関数を見積もる
– 方策オン型／方策オフ型

第２部目次
1 問題設定
121

ＴＤ学習とは
122
• 現在の源流となる強化学習手法の祖
– Bellman方程式の近似
– 動的計画法のように「以前の結果を利用」
– モンテカルロ法のように「環境のモデルが不要」

ＴＤ学習とは
• TD学習（Temporal Difference Learning）
– その場更新型のモンテカルロ法
– 今の状態と次の状態の報酬を最大化
• α：更新率（0<α<=1）
「今を大事にするか」 α≈ 0
「次を大事にするか」 α≈ 1
123

モンテカルロ法との違い
– 各エピソードの報酬の和だけ見る
– エピソード終端まで更新が不可
• TD学習
– １回１回そこで得られる報酬を使う
– 最短、次の状態の予測までで更新可
124
・・・
！

一体何がすごいのか
• 報酬と次の状態のモデルを必要としない
– モデルフリー
– 「次の状態」はエピソード毎に記憶する
• モンテカルロ法より早い！
– 問題が複雑になればなるほど、モンテカルロ法は
更新に時間がかかる
（短ければ良い）
125

ＴＤ学習の流れ
① 各状態価値 V(s) を任意に初期化評価するπを設定
以下各エピソード毎にループ
② エピソードの各ステップ毎に
・πで与えられる行動aをとってr,s’を観測
・s（行動前）の状態価値V(s)を更新
・次状態 s ’へ移行
s’が終端状態なら次のエピソードへ移行
126

① 初期化
各状態価値を初期化
方策緑を評価
γ=1
127
Ｂ
ＤＣ
ＥＦ
Ａ

② 行動
方策π＝緑に従い
行動a=rightをとる
報酬 b と次状態Ｂを
観測
128
Ｂ
ＤＣ
ＥＦ
Ａ
b

② V(s)更新
状態価値を設定
エージェントが移動
129
Ｂ
ＤＣ
ＥＦ
Ａ
α*b

② 終端まで確認
続いて方策赤を評価
130
Ｂ
ＤＣ
ＥＦ
Ａ
α*b α*d
α*f

② 行動
方策π＝赤に従い
行動a=downをとる
報酬 c と次状態Ｃを
観測
131
Ｂ
ＤＣ
ＥＦ
Ａ
α*b α*d
α*f
c

132
Ｂ
ＤＣ
ＥＦ
Ａ
new α*d
α*f
② V(s)更新
状態価値を設定
先ほどの状態価値利用
エージェントが移動

133
Ｂ
ＤＣ
ＥＦ
Ａ
new α*d
new
② 終端まで確認
以上繰り返して、
最適な方策を探すα*d

DQN の Q ！
• Q学習（Q-learning）
– ある行動をとったら、その時の自分はどうなるか？
– 方策オフ型のTD学習と考えられる
– 現代の強化学習のメイン
134

Q学習を数式で見る
135
• 行動価値関数の最適化を目指す
– １ステップごとに現在の方策を改善する
– α：学習率
「今を大事に」ー「次を大事に」のTrade-off
次状態が最適な行動の選択

ＴＤ学習とＱ学習の違い
• ＴＤ学習
– 状態価値に従って更新
– 方策に従って遷移した先の評価値のみ見る
• Ｑ学習
– 行動価値に従って更新
– 方策とは関係なしに、複数の評価値を見る
136

Q学習の流れ
① 各行動価値 Q(s,a) を任意に初期化評価するπを設定
以下各エピソード毎にループ
② エピソードの各ステップ毎に
・Qで与えられる行動aをとってr,s’を観測
・s（行動前）の状態価値V(s)を更新
・次状態 s ’へ移行
s’が終端状態なら次のエピソードへ移行
137

Q学習の流れ
① 初期化
各状態価値を初期化
方策緑を評価
γ=1
138
Ｂ
ＤＣ
ＥＦ
Ａ

Q学習の流れ
② 行動価値から選択
b とc どちらが良いか？
効率よく試行錯誤する
139
Ｂ
ＤＣ
ＥＦ
Ａ
b
dc
e
f
d

Q学習の流れ
② 行動価値から選択
方策赤におけるdとeは
どちらが良いか？
効率よく試行錯誤する
140
Ｂ
ＤＣ
ＥＦ
Ａ
b
dc
e
f
d

141
動的計画法モンテカルロ法 TD学習Ｑ学習
モデル必要不要不要不要
主な
更新対象
状態価値関数
Ｖ(ｓ)
行動価値関数
Ｑ(ｓ，ａ)
状態価値関数
Ｖ(ｓ)
行動価値関数
Ｑ(ｓ，ａ)
概要
全ての状態を
総当たり計算
計算量が多い
エピソードから
価値関数推測
行動選択の方法
エピソードの
1ステップ毎に
状態価値更新
次の行動報酬が
最も良くなるよ
う選択
Backup
Diagram

第２部目次
1 問題設定
142

強化学習と脳
• 強化学習を脳がしている？
143

注目箇所
• 大脳基底核（Basal Ganglia）
144

注目箇所
• 大脳基底核（Basal Ganglia）
145
尾状核
淡蒼球
被殻
線条体
黒質
視床下核

各部位の働き
• 線条体
– 運動機能、意思決定
• 淡蒼球
– 報酬予測
• 黒質
– ドーパミンの放出
• 視床下核
– 運動の調整
146

ループ構造
147
大脳皮質
ストリオゾームマトリックス
淡蒼球外節
黒質緻密部
腹側被蓋野
淡蒼球内節
黒質網様部
視床下核
視床
線条体

ループ構造
148
大脳皮質
淡蒼球外節
黒質緻密部
腹側被蓋野
淡蒼球内節
黒質網様部
視床下核
視床
大脳皮質～基底核ループ
線条体
大脳皮質～基底核ループ

ループ構造
149
大脳皮質
淡蒼球外節
黒質緻密部
腹側被蓋野
淡蒼球内節
黒質網様部
視床下核
視床
線条体

ドーパミンニューロンの観測
• 予測と報酬の神経回路 [Schultz et al, 1997]
ランプの点灯に従って
レバーを操作すると
ジュース（報酬）が貰える
この時のサルの線条体
ドーパミンニューロンを計測
150
http://www.wakosozai.com/

• 予測と報酬の神経回路 [Schultz et al, 1997]
ランプの点灯に従って
レバーを操作すると
ジュース（報酬）が貰える
この時のサルの線条体
ドーパミンニューロンを計測
151

• 報酬あり
– r: 実際の報酬
– V: 期待報酬
– δ: TD誤差
152
学習後
学習前

• 報酬あり
– V: 期待報酬
– δ: TD誤差
153
報酬の「予測」に
対して応答

• 報酬なし
– V: 期待報酬
– δ: TD誤差
154
学習前
学習後

• 報酬なし
– V: 期待報酬
– δ: TD誤差
155
ニューロン抑制

この実験で分かったこと
• 線条体ではＴＤ誤差のような振舞いがある？
156
実際にもらえた報酬
もらえるであろう報酬

どのように行動選択しているのか
• 行動価値の観測 [Samejima et al , 2005]
サルの線条体ニューロンの観測
倒す方向によって貰える確率が変化
157
Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005

• 最初はランダムに選んでいた
• 次第に報酬が貰えそうな方に
レバーを倒し始めた
158

• 最初はランダムに選んでいた
• 次第に報酬が貰えそうな方に
レバーを倒し始めた
159
状態に応じて最適な行動を選んでいる？

ループ構造
160
大脳皮質
淡蒼球外節
黒質緻密部
腹側被蓋野
淡蒼球内節
黒質網様部
視床下核
視床
線条体

大脳基底核のモデル化
161
鮫島和行,銅谷賢治, “強化学習と大脳基底核” 参考
大脳皮質
線条体
淡蒼球外節
黒質網様部
視床
黒質
input output

大脳基底核のモデル化
162
鮫島和行,銅谷賢治, “強化学習と大脳基底核” 参考
大脳皮質
線条体
淡蒼球外節
黒質網様部
視床
黒質
input output
TD誤差
Ｑ(s,a)算出

第２部目次
1 問題設定
163

強化学習の応用研究
• ヘルプから適切な操作の遂行
[Branavan et al,2009]
Windowsのヘルプを解釈し
見合った操作を自律的に行う
164
Click run, and press OK.

• ゲームへの応用（DQN）
[Volodymyr et al,2015]
ゲーム画面４フレーム分を入力
出力は動作
最初２層はＣＮＮ
最適行動価値関数Ｑ*への近似
165
Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015

• 未学習データの検出および強化学習への応用
[Osawa,Hagiwara,2015]
RBM,Deep Belief Networkを用い
長期スパンでの “戦略” の立案を
可能にするようなモデルを提唱
166
状態、行動
価値判定

まだ見えてない部分
• 脳モデルについて
– マルコフ性と仮定することは適切か
– モデルフリーから経験でモデルベースにしている？
• 強化学習が「最も効率的」なのか？
167

まとめ
• 強化学習のアルゴリズムを紹介
– 動的計画法、モンテカルロ法
– ＴＤ学習、Ｑ学習
– モデルベース、モデルフリー
– 行動の選択（greedy, ε-greedy）
• 脳との関連性を紹介
– 線条体にＴＤ学習やＱ学習のような振舞い
168

主な参考文献
[1] Richard S.Sutton , Andrew G.Barto , “Reinforcement Learning” , 1998
[2] 三上貞芳, 皆川雅章共訳 , “強化学習”, （[1]の日本語版）
[3] 銅谷賢治, “計算神経科学への招待” , 2007
[4] 牧野貴樹, “強化学習をベイズで理解する”, 2014 (スライド)
[5] Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015
その他多くのWeb上のスライド、記述、論文、書籍など
使用した脳の画像: 3D-brain(free)
169

ありがとうございました！
170

全脳アーキテクチャ若手の会強化学習

More Related Content