SlideShare a Scribd company logo
全脳アーキテクチャ勉強会(第2回)

Deep  Learning  技術の今
得居  誠也
2014年年1⽉月30⽇日
⾃自⼰己紹介
l 

得居  誠也  (Seiya  Tokui)
株式会社Preferred  Infrastructure,  Jubatus  Pj.  リサーチャー

l 

専⾨門は機械学習(修⼠士、現職)

l 

– 

系列列ラベリング→ハッシュ・近傍探索索→深層学習

l 

今の興味は深層学習、表現学習、分散学習、映像解析

l 

@beam2d  (Twitter,  Github,  etc.)

2 /  47
2011年年:  ⾳音声認識識における成功

l 

l 

3 /  47

DNN-‐‑‒HMM  を使った⼿手法が、⾳音声認識識の  word  error  rate  で従来
法  (GMM)  より  10%  前後も改善
携帯端末における⾳音声操作に  Deep  Learning  が利利⽤用されるように

F. Seide, G. Li and D. Yu.
Conversational Speech Transcription Using Context-Dependent Deep Neural
Network, in INTERSPEECH, pp. 437-440 (2011)
2012年年:  画像認識識における成功
l 

⼀一般物体認識識のコンテスト  
ILSVRC2012  において
Deep  Convolutional  
Neural  Network  を⽤用い
たチーム  Supervision  が
他者に  10%  のエラー差
をつけて勝利利

J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla and F.-F. Li
. Large Scale Visual Recognition Challenge 2012. ILSVRC2012 Workshop.	

4 /  47
2013年年:  ⼤大企業による投資、⼈人材争奪戦
l 

3⽉月:Google  が  DNNresearch  を買収
– 

l 

4⽉月:Baidu  が  Institute  of  Deep  Learning  を設⽴立立
– 

l 

Deep  learning  group  を作るための布⽯石と報じられる

12⽉月:Facebook  AI  Lab  設⽴立立
– 

l 

最初の研究者として  Kai  Yu  を迎えた

8,  10⽉月:Yahoo  が画像認識識のスタートアップ  IQ  Engines  と  
LookFlow  を買収
– 

l 

Geoffrey  Hinton,  Alex  Krizhevsky  and  Ilya  Sutskever

Yann  LeCun  所⻑⾧長、他にも  Marcʼ’Aurelio  Ranzato  など

2014年年1⽉月:Google  が  DeepMind  を買収
– 

G.  Hinton  の研究室の卒業⽣生、Deep  Learning  による強化学習技術

5 /  47
今⽇日のお話
l 

Deep  Learning(深層学習)の技術を基礎・応⽤用と広めに紹介
– 

l 

Zoo  of  deep  learning  みたいなノリで……

全脳アーキテクチャを考える上で参考になるようなモデル・学習
⾯面での現状をお伝えします
– 

l 

6 /  47

モデルの紹介が多めです

盛りだくさんなのでいろいろ流流していきます
– 

詳細は後⽇日スライドおよび参考⽂文献をご覧ください
⽬目次
l 
l 
l 
l 
l 

Deep  Learning  の成功
Deep  Learning  の基礎
Deep  Learning  と認識識
Deep  Learning  と構造
Deep  Learning  の今後

7 /  47
基礎となるモデル・学習⼿手法

Deep Learning の基礎
8
9 /  47

A. Ranzato.
Deep  Learning  の地図(アレンジ) Cf.) Y. LeCun and M.ICML 2013.	
Deep Learning Tutorial.

Boosting

浅い

AE ニューラルネット

Perceptron

Sparse  
Coding
RBM

決定⽊木
GMM
SVM

RF

DAE

DNN

深い
CNN

SFFNN
DBN

GSN
DBM

Bayes  NP Sum-‐‑‒Product
確率率率モデル

RNN
Feed-‐‑‒Forward  Neural  Network

10 /  47

(結合)重み

x1

wj1

x2

wj2

x3

wj3
wj4

x4
ユニット

活性  (activation)

hj = f (wj1 x1 + wj2 x2 + wj3 x3 + wj4 x4 )
>
= f (wj x)

前活性  (pre-‐‑‒activation)
活性化関数  (activation  function)

hj
          の計算全体は⾏行行列列を使って                                              と書ける
h = f (W x)
(層を⾶飛び越える結合は考えない)
バイアス項もよく使う:   h = f (W x + b)
11 /  47
順伝播  fprop
逆伝播  bprop

誤差逆伝播法  backpropagation

誤差関数
(error)

L
⼊入⼒力力層

隠れ層

重みの勾配

隠れ層

重みの勾配

出⼒力力層

重みの勾配

正解
(groundtruth)
活性化関数  (activation  function)
l 

従来はシグモイド型の関数が⽤用いられてきた
1
1+e

1 e
tanh(x) =
1+e

x

シグモイド関数
l 

12 /  47

双曲線正接関数

最近よく使われるのは  Rectified  Linear  Unit  (ReLU)
– 

サチらない、つまり勾配が消えにくいので学習しやすい

l 

恒等関数は  Linear  Unit  と呼ばれる

l 

複数の  Linear  Unit  の  max  を取る:  maxout  unit*

* I. Goodfellow, D. W.-Farley, M. Milza, A. Courville
and Y. Bengio. Maxout Networks. ICML 2013.	

ReLU

max(0, x)

x
x
13 /  47

Neural  Network  の学習⼿手法
l 

l 

教師データを  B  個ずつ⾒見見る  Mini-‐‑‒Batch  SGD  がよく使われる
以下の⼿手法と組合せて使われる

w

w

– 
– 

L2  正則化  (weight  decay)、L1  正則化

– 

l 

Momentum,  Nesterovʼ’s  Accelerated  Gradient*

B
1 X @L(xBi )
B i=1 @w

ステップ幅の⾃自動調整  (AdaGrad**,  vSGD***)

最適化が難しいケースではニュートン法ベースの⼿手法も(L-‐‑‒BFGS,  
Hessian-‐‑‒Free  法など)

* I. Sutskever, J. Martens, G. Dahl and G. Hinton. On the importance of initialization and momentum in deep learning. ICML 2013.
** J. Duchi, E. Hazan and Y. Singer. Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. JMLR 12 (2011) 2121-2159.
*** T. Schaul, S. Zhang and Y. LeCun. No More Pesky Learning Rates. ICML 2013.
Dropout

14 /  47
l 

SGD  学習時、ランダムに選んだユニ
ットの活性を  0  にする
– 

経験上、⼊入⼒力力ユニットは  20%、隠れユニット
は  50%  の  dropout  率率率だと性能が良良い

l 

強い正則化の効果がある
– 
– 

l 
G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever
and R. R. Salakhutdinov.
l 
Improving neural networks by preventing co-adaptation of
feature detectors. ArXiv 1207.0580.
* S. Wager, S. Wang and P. Liang.
Dropout Training as Adaptive Regularization. NIPS 2013.	

アンサンブル学習
フィッシャー情報⾏行行列列で歪ませた  L2  正則化*

区分線形ユニット  (ReLU,  maxout)  
で特に効果的
亜種も出てきている  (DropConnect,  
Adaptive  Dropout,  etc.)
15 /  47

Restricted  Boltzmann  Machine
観測変数

W

潜在変数

l 
l 

v

h

無向⼆二部グラフのグラフィカルモデル
左下のようなエネルギー関数を持つボル
ツマン分布
– 

2式はそれぞれ        が⼆二値および連続値の場合の
v
エネルギー関数(        は共に⼆二値変数)
h

l 

E(v, h) =
E(v, h) =

a> v

(v

a)

2

2

b> h
2

h> W v

>

b h

バイアスパラメータ

1

>

h Wv

対数尤度度勾配は次式で書ける

@ log p(v)
= hvi hj idata
@wij

hvi hj imodel

データに対する
期待値

RBM  が表す
分布に対する
期待値
16 /  47

Contrastive  Divergence  (CD-‐‑‒k)
l 

W
v

Model  期待値は計算が難しいので、k  往復復
だけサンプリングして得た観測変数を使う

wij = hvi hj idata

h
l 

hvi hj ireconstruction

対数尤度度の勾配ではなくなってしまう
– 

Contrastive  Divergence  という値の勾配の近
似(厳密にはどんな関数の勾配としても書けない)

l 

深層学習の応⽤用上は  k=1  で良良い性能を発揮
– 

単に  CD  と⾔言ったら  CD-‐‑‒1  を指す
Deep  Belief  Network*
l 
l 

17 /  47

最後の1層だけ無向なグラフィカルモデル
各層ごとに  RBM  の重みが良良い初期値になる
– 

Greedy  Layer-‐‑‒wise  Pre-‐‑‒training  と呼ばれる

– 

Deep  Learning  のブレイクスルー

l 

最後に  Up-‐‑‒down  法で  fine-‐‑‒tuning
全層それぞれで  Contrastive  Divergence  を

l 

⽤用いる⽅方法も  (top-‐‑‒down  regularization**)
特徴抽出に使うか、DNN  の初期値にする

l 

* G. E. Hinton, S. Osindero and Y.-W. Teh.
A fast learning algorithm for deep belief nets. Neural Computation 2006.
** H. Goh, N. Thome, M. Cord and J.-H. Lim.
Top-Down Regularization of Deep Belief Networks. NIPS 2013.
18 /  47

Deep  Boltzmann  Machine
l 
l 

層ごとにわかれた無向グラフィカルモデル
DBN  と違い、内側の層は上下両⽅方の層からの
フィードバックを受ける
– 

l 

モデルを組み⽴立立てる際の⾃自由度度が上がる

RBM  で事前学習、全体を  RBM  のように学習

@ log p(v)
= hvi hj idata
@wij
– 

– 

R. Salakhutdinov and G. Hinton.
Deep Boltzmann Machines. AISTATS 2009.	

hvi hj imodel

ただし  data  期待値も簡単に計算できない(条件付き
分布が  factorize  されない)→  変分推定
Model  期待値は  Persistent  MCMC
19 /  47

Autoencoder  (AE)
l 
l 

⼊入⼒力力を復復元する2層の  NN
恒等関数を学習しないように以下の⼯工夫
– 

⼊入⼒力力層より⼩小さな隠れ層  (bottleneck)

– 

正則化(Contractive  AE*,  Sparse  AEなど)

W

⼊入⼒力力層

誤差関数

L

⼊入⼒力力層にノイズを加える(Denoising  AE**)
l  制約                                    をよく置く  (tied  weights)
W0 = W>

隠れ層

W0

– 

– 

⼆二乗誤差  DAE  はこの制約のもと、別の⽬目的関数(score  
matching  の亜種)と⼀一致し、RBM  と似たエネルギー関
数を持つ***

復復元層

* S. Rifai, P. Vincent, X. Muller, X. Glorot and Y. Bengio. Contractive Auto-Encoders: Explicit Invariance During Feature Extraction. ICML 2011.
** P. Vincent, H. Larochelle, Y. Bengio and P.-A. Manzagol. Extracting and Composing Robust Features with Denoising Autoencoders. ICML 2008.
*** P. Vincent. A Connection Between Score Matching and Denoising Autoencoders. TR 1358, Dept. IRO, Universite de Montreal.
Denoising  Autoencoder  (DAE)

l 

⼊入⼒力力にノイズを加えてから2層の  
NN  で復復元する
ノイズはガウスノイズや  Salt-‐‑‒and-‐‑‒
Pepper  ノイズ(ランダムなノード
を  0  か  1  で上書き)を使う

l 

ノイズにある条件を仮定すれば、最適な  

l 

W
ノイズ

W0
誤差関数

L

20 /  47

DAE  解はノイズと復復元の操作の繰り返
しが表すマルコフ連鎖の定常分布によ
って⼊入⼒力力データの分布を表現する*
* Y. Bengio, L. Yao, G. Alain and P. Vincent.
Generalized Denoising Auto-Encoders as Generative Models. NIPS 2013.
Stacked  Denoising  Autoencoder
l 
l 

DAE  を重ねる
2層⽬目以降降の  DAE  を学習する
場合、それ以前の層はそのまま
適⽤用して、学習する層の⼊入⼒力力層
に対してノイズを加える

l 

P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio and P.-A. Manzagol.
Stacked Denoising Autoencoders: Learning Useful Representations
in a Deep Network with a Local Denoising Criterion. JMLR 11
(2010) 3371-3408.

DAE  はデータ分布の多様体を学習している
– 

曲がりくねった多様体を少し平らな空間に展開する  (disentanglement)

– 

l 

21 /  47

Stacked  DAE  は多様体を少しずつ平らに展開していくことに対応する

DAE  に限らず他の  AE  も重ねて  deep  net  を作ることが多い
22 /  47

Deep  Learning
l 
l 

データの深い(多段の)処理理全体を通して学習する
利利点は、複雑なモデルを⽐比較的少ないリソースで学習できること
– 

2層の  Neural  Network  でも任意の関数を、RBM  でも任意の分布を表現でき
るが、それには⼤大量量の隠れユニットと⼤大量量の学習データが必要になる

– 

Deep  Learning  の場合、同じ関数・分布を表現するのに必要なユニット・デー
タ数が浅いモデルに⽐比べて圧倒的に少なくて済む

– 

Deep  Neural  Net  で学習した関数を「教師」として浅い  Neural  Net  を学習さ
せられる*が、同じ⽔水準のモデルを浅い  Neural  Net  で直接得ることは、同じ学
習コストでは(今のところ)できない

* L. J. Ba and R. Caruana.
Do Deep Nets Really Need to be Deep? ArXiv 1312.6184.
画像認識識を中⼼心に

Deep Learning と認識識
23
Convolutional  Neural  Network  (CNN)
l 

画像の縦横⽅方向に、同じ重みの窓を
スライドさせながら適⽤用
– 

l 
l 
l 
l 

パラメータの⼤大幅な節約

– 

Feature  maps

物体認識識は位置不不変という事前知識識

– 

24 /  47

スパースなネットワーク(局所受容野)

強い正則化の効果
GPU  計算との親和性
FFT  を使って⾼高速化する話もある
Simple  cell  との対応
Convolutional Neural Network (LeNet) in Deep Learning 0.1 Documentation.
http://deeplearning.net/tutorial/lenet.html#details-and-notation
25 /  47

Pooling  (subsampling)
l 
l 

0
@

Feature  map  毎に、矩形上の活性を集約する処理理
L2-‐‑‒pooling,  max-‐‑‒pooling,  average-‐‑‒pooling  がよく使われる
1

1
|rectangle|
– 

X

(i,j)2rectangle

12

x2 A
ij

max

(i,j)2rectangle

xij

1
|rectangle|

X

xij

(i,j)2rectangle

L2-‐‑‒pooling  や  average-‐‑‒pooling  ではガウス平均を使うこともある

l 

平⾏行行移動不不変性を獲得するのに役⽴立立つ
CNN  は基本的に  convolution  /  activation  /  pooling  の繰り返し

l 

Complex  cell  との対応

l 
26 /  47

Local  Contrast  Normalization
l 

局所的(空間⽅方向および同⼀一座標での複数  feature  maps  間)に
X
活性を正規化する
vijk = xijk
wpq xi,j+p,k+q
– 
– 

Divisive

– 

細かい定義は使⽤用例例によってまちまち

– 

l 

Subtractive

使い⽅方もまちまち

vijk / max(c,

X

2
wpq vi,j+p,k+q )

ipq

K. Jarrett, K. Kavukcuoglu, M. A. Ranzato and Y. LeCun.
What is the Best Multi-Stage Architecture for Object Recognition? ICCV 2009.

正規化がどれくらい精度度に影響するのかは不不明
– 

l 

ipq

正規化なくても精度度出るという報告もある

⼀一次視覚野のニューロンの性質を参考にしている
27 /  47

Supervision

A. Krizhevsky, I. Sutskever and G. E. Hinton.
ImageNet Classification with Deep Convolutional Neural Networks. NIPS 2012.

l 

図にはないが  pooling  の後ろに  Local  Response  Normalization

l 

2台の  GPU  で実装(上下のパイプラインがそれぞれ対応、異異なる  feature  
maps  を持っている)

l 

2013年年はこれを使った(拡張する)研究が多かった
ユニットの可視化  
Deconvolutional  NN
l 

Max-‐‑‒pooling  が不不可逆なので
ユニットの可視化が難しい
– 

実際に画像を⼊入れて、pooling  で
選択されたピクセルを覚えておく

l 

ILSVRC2013  の分類タスク優勝
者  (clarifai)  の⼿手法
– 

ユニット可視化の⼿手法

– 

チューニングが⼤大事

M. D. Zeiler and R. Fergus.
Visualizing and Understanding Convolutional Networks. ArXiv 1131.2901v3.

28 /  47
29 /  47

Stochastic  Feedforward  NN
l 

l 

途中にベルヌーイ分布に従うユ
ニットを⼊入れる
学習は  EM  アルゴリズム  
– 
– 

l 

E-‐‑‒step  は重点サンプリング
M-‐‑‒step  は  backpropagation

Stochastic  neuron  のおかげで
マルチモーダルな予測ができる
– 

Y. Tang and R. Salakhutdinov.
Learning Stochastic Feedforward Neural Networks. NIPS 2013.

右図は左カラムの画像から7通りの
表情を予測するタスクの結果
Decoder

再構成型  Topographic  ICA
l 
l 

l 

30 /  47
Encoder

Sparse  Autoencoder  の変種
Pooling  後の活性に対してスパース
化ペナルティーを与える
⾮非畳み込みの局所受容野と組み合わ
せると、近くにあるユニットが似た
重みを持つようになる

Pooling  処理理に相当
する重み

– 

⼀一次視覚野のニューロンと似た性質

– 

平⾏行行移動不不変性よりも複雑な不不変性の獲得

Q. V. Lee, M. A. Ranzato, R. Monga, M. Devin, K. Chen, G. S.
Corrado, J. Dean and A. Y. Ng.
Building High-level Features Using Large Scale Unsupervised
Learning. ICML 2012.
Google  の猫認識識
l 

3段の再構成型  TICA
– 

Local  Contrast  Normalization  も使っている

– 

l 

31 /  47

Convolution  ではない(重みを共有しない)

Youtube  の動画  10,000,000  フレーム
で学習すると猫や顔、⼈人の体などに対応
するユニットが得られる

これが3段重なったもの
Q. V. Lee, M. A. Ranzato, R. Monga, M. Devin, K. Chen, G. S.
Corrado, J. Dean and A. Y. Ng.
Building High-level Features Using Large Scale Unsupervised
Learning. ICML 2012.
DNN  としての  Recurrent  Neural  Network
l 

l 

l 

Part  units

32 /  47

隠れ層の活性を⼊入⼒力力の⼀一部として次の
時間ステップでの隠れ層に⼊入⼒力力する
隠れ層を  N  回ループさせれば  N  層の  
DNN  と対応する(重みが共有される)
⼿手書き数字に対する適⽤用で、⾃自動的に  
part  unit  と  categorical  unit  が得られる
(図は  Recurrent  Sparse  Autoencoder)

Categorical
units

J. T. Rolfe and Y. LeCun.
Discriminative Recurrent Sparse Auto-Encoders. ICLR 2013.
構造や⾔言語を学習する

Deep Learning と構造
Recursive  Neural  Network
l 
l 

34 /  47

同じ重みの層を⽊木の形に重ねる
⽊木構造の予測
– 

下図のように2ノードからそれらが
兄弟ノードにふさわしいかを判別

l 

l 

再帰的な構造を
Neural  Network
  で学習
⽊木が⼤大きければ  
deep  なモデル

R. Socher, C. C.-Y. Lin, A. Y. Ng and C. D. Manning.
Parsing Natural Scenes and Natural Language with
Recursive Neural Networks. ICML 2011.
Recursive  NN  の発展形

35 /  47

R. Socher, B. Huval, C. D. Manning and A. Y. Ng.
Semantic Compositionality through Recursive
Matrix-Vector Spaces. EMNLP 2012.
R. Socher, A. Perelygin, J. Y. Wu, J. Chuang, C. D. Manning,
A. Y. Ng and C. Potts.
Recursive Deep Models for Semantic Compositionality Over a
Sentiment Treebank. EMNLP 2013.

デモあり:
http://nlp.stanford.edu/sentiment/
36 /  47

Recurrent  Neural  Network  Language  Model  (RNNLM)
⽂文字、単語

l 

隠れ層

次の⼊入⼒力力
の予測

l 

⽂文章を読んで、次の⽂文字や単語を予測す
るモデル(⾔言語モデル)
Recurrent  Neural  Network  でモデル化
– 
– 

N-‐‑‒gram  モデルをゆるく可変⻑⾧長にしたような感じ

– 

時刻  t-‐‑‒1  の隠れ層

隠れ層は最近の⼊入⼒力力に関する記憶を保持する

– 

コピー

隠れ層の活性が、次の時刻の⼊入⼒力力に含まれる

隠れ層は単語や⽂文章の低次元埋め込み  (word  
embeddings)  となっている

T. Mikolov, M. Karafiat, L. Burget, J. H. Cernocky and S. Khudanpur.
Recurrent neural network based language model. INTERSPEECH 2010.
RNN  の学習:  Backpropagation  through  Time
t=1
l 

l 

l 

RNN  の適⽤用を時間⽅方向に展
開すると  DNN  のようになる
過去の活性を覚えておけば、  
Backpropagation  で勾配が
計算できる
適当な単語数で打ち切切ることも

t=2

t=3

37 /  47
Deep  Recurrent  Neural  Network
l 

l 

38 /  47

DNN  の各層にループがある  
Recurrent  Net
深い層ほど⻑⾧長い時間の記憶
を保持する
– 

深くし過ぎると記憶のスケー
ルは変わらなくなる

M. Hermans and B. Schrauwen. Training and Analyzing
Deep Recurrent Neural Networks. NIPS 2013.
Skip-‐‑‒gram  model

39 /  47
l 

l 

l 

まわりの単語を予測できるように
低次元埋め込みを学習する
Deep  Learning  ではないが、単語
の表現学習
Analogical  Reasoning  に有効
– 

v(“brother”)  -‐‑‒  v(“sisiter”)  +  
v(“queen”)  ≒  v(“king”)

l 

実装が公開されている:  word2vec
– 

たくさんの⿊黒魔術

T. Mikolov, K. Chen, G. Corrado and J. Dean.
Efficient Estimation of Word Representations in Vector Space.
ICLR 2013.
画像認識識との融合:  DeViSE

40 /  47
A. Frome, G. S. Corrado, J. Shlens, S. Bengio, J. Dean, M. A.
Ranzato and T. Mikolov.
DeViSE: A Deep Visual-Semantic Embedding Model. NIPS 2013.

l 

Supervision  と  Skip-‐‑‒gram  model  を組合せて、画像から単語埋

l 

め込みベクトルを予測できるようにする
初めて⾒見見る物体でも、意味的な事前知識識があればラベルを予測でき
る  (zero-‐‑‒shot  learning)
Deep Learning の今後
41
強化学習との統合
l 
l 

42 /  47

報酬を最⼤大化するような⽅方策の選び⽅方を深層モデルで学習する
⼿手は付けられ始めている:  Deep  Q-‐‑‒Networks
– 

ゲームプレイングのタスク。POMDP  の設定で、⾏行行動価値関数を過去数フレー
ムの画⾯面に対する畳み込みニューラルネットで表現する

l 

DeepMind(先⽇日  Google  に買収された)

V. Mnih, K. Karukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra and M. Riedmiller. Playing Atari with Deep Reinforcement Learning.
NIPS Deep Learning Workshop 2013.
Neural  Network  の教育
l 

43 /  47

C. Gulcehre and Y. Bengio.
Knowledge Matters: Importance of Prior Information for
Optimization. NIPS Deep Learning Workshop 2012.

ペントミノがすべて同じ形か
の⼆二値分類は直接学習できない
– 

ペントミノの識識別を  NN  で学習
したあと、出⼒力力層を取り替えて
2層⾜足せば学習できる

l 
l 

Curriculum  Learning*
論論理理的な思考を学習させるには適切切な教育が必要
– 

論論理理的な思考をどうやってモデル化するかという問題⾃自体を考える必要もある

* Y. Bengio, J. Louradour, R. Collobert and J. Weston.
Curriculum Learning. ICML 2009.
44 /  47

空間認識識
l 

画像分類を超えて、検出、追跡、空間把握へ
– 
– 

追跡:連続するフレーム間での検出結果のひも付け

– 

l 

検出:物体の位置を特定する
空間把握:三次元的な検出、何がどこにあるのか、⾃自分がどこを向いているか

分類と検出の統合はすでに始まっている
– 

ILSVRC2013  に出場した  LeCun  らのチーム  OverFeat  は  Supervision  ベー
スの分類・検出システムを構築した

l 

⾳音声や運動(ロボティクス)との統合

P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus and Y. LeCun
. OverFeat: Integrated Recognition, Localization and Detection using
Convolutional Networks. ArXiv 1312.6229.
⾔言語による⽂文化の学習
l 

l 

45 /  47

⾔言語によるコミュニケー
ションを通じて知識識や常
識識を共有
深い層の活性を共有する
イメージ
– 

共有するときにノイズが乗る

Y. Bengio. Evolving Culture vs Local Minima.
ArXiv 1203.2990, 2012.
まとめ
l 
l 

Deep  Learning  の重要な技術を広く浅く紹介しました
2014  年年はさらに応⽤用が広がる年年になると思います
– 

l 

研究者⼈人⼝口の増加、⼤大企業の参⼊入

基礎研究、理理論論解析も着実に増えています
– 

特に  Dropout、DAE、確率率率的ニューロンなど確率率率的に摂動を加える⼿手法への
理理論論解析が多い印象

– 

l 

46 /  47

Recurrent  Net  の効率率率的な学習も進歩してきています

神経科学との関連性は今後の課題
©  Preferred  Infrastructure,  Inc.  2014

More Related Content

Deep Learning技術の今

  • 2. ⾃自⼰己紹介 l  得居  誠也  (Seiya  Tokui) 株式会社Preferred  Infrastructure,  Jubatus  Pj.  リサーチャー l  専⾨門は機械学習(修⼠士、現職) l  –  系列列ラベリング→ハッシュ・近傍探索索→深層学習 l  今の興味は深層学習、表現学習、分散学習、映像解析 l  @beam2d  (Twitter,  Github,  etc.) 2 /  47
  • 3. 2011年年:  ⾳音声認識識における成功 l  l  3 /  47 DNN-‐‑‒HMM  を使った⼿手法が、⾳音声認識識の  word  error  rate  で従来 法  (GMM)  より  10%  前後も改善 携帯端末における⾳音声操作に  Deep  Learning  が利利⽤用されるように F. Seide, G. Li and D. Yu. Conversational Speech Transcription Using Context-Dependent Deep Neural Network, in INTERSPEECH, pp. 437-440 (2011)
  • 4. 2012年年:  画像認識識における成功 l  ⼀一般物体認識識のコンテスト   ILSVRC2012  において Deep  Convolutional   Neural  Network  を⽤用い たチーム  Supervision  が 他者に  10%  のエラー差 をつけて勝利利 J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla and F.-F. Li . Large Scale Visual Recognition Challenge 2012. ILSVRC2012 Workshop. 4 /  47
  • 5. 2013年年:  ⼤大企業による投資、⼈人材争奪戦 l  3⽉月:Google  が  DNNresearch  を買収 –  l  4⽉月:Baidu  が  Institute  of  Deep  Learning  を設⽴立立 –  l  Deep  learning  group  を作るための布⽯石と報じられる 12⽉月:Facebook  AI  Lab  設⽴立立 –  l  最初の研究者として  Kai  Yu  を迎えた 8,  10⽉月:Yahoo  が画像認識識のスタートアップ  IQ  Engines  と   LookFlow  を買収 –  l  Geoffrey  Hinton,  Alex  Krizhevsky  and  Ilya  Sutskever Yann  LeCun  所⻑⾧長、他にも  Marcʼ’Aurelio  Ranzato  など 2014年年1⽉月:Google  が  DeepMind  を買収 –  G.  Hinton  の研究室の卒業⽣生、Deep  Learning  による強化学習技術 5 /  47
  • 6. 今⽇日のお話 l  Deep  Learning(深層学習)の技術を基礎・応⽤用と広めに紹介 –  l  Zoo  of  deep  learning  みたいなノリで…… 全脳アーキテクチャを考える上で参考になるようなモデル・学習 ⾯面での現状をお伝えします –  l  6 /  47 モデルの紹介が多めです 盛りだくさんなのでいろいろ流流していきます –  詳細は後⽇日スライドおよび参考⽂文献をご覧ください
  • 7. ⽬目次 l  l  l  l  l  Deep  Learning  の成功 Deep  Learning  の基礎 Deep  Learning  と認識識 Deep  Learning  と構造 Deep  Learning  の今後 7 /  47
  • 9. 9 /  47 A. Ranzato. Deep  Learning  の地図(アレンジ) Cf.) Y. LeCun and M.ICML 2013. Deep Learning Tutorial. Boosting 浅い AE ニューラルネット Perceptron Sparse   Coding RBM 決定⽊木 GMM SVM RF DAE DNN 深い CNN SFFNN DBN GSN DBM Bayes  NP Sum-‐‑‒Product 確率率率モデル RNN
  • 10. Feed-‐‑‒Forward  Neural  Network 10 /  47 (結合)重み x1 wj1 x2 wj2 x3 wj3 wj4 x4 ユニット 活性  (activation) hj = f (wj1 x1 + wj2 x2 + wj3 x3 + wj4 x4 ) > = f (wj x) 前活性  (pre-‐‑‒activation) 活性化関数  (activation  function) hj          の計算全体は⾏行行列列を使って                                              と書ける h = f (W x) (層を⾶飛び越える結合は考えない) バイアス項もよく使う:   h = f (W x + b)
  • 11. 11 /  47 順伝播  fprop 逆伝播  bprop 誤差逆伝播法  backpropagation 誤差関数 (error) L ⼊入⼒力力層 隠れ層 重みの勾配 隠れ層 重みの勾配 出⼒力力層 重みの勾配 正解 (groundtruth)
  • 12. 活性化関数  (activation  function) l  従来はシグモイド型の関数が⽤用いられてきた 1 1+e 1 e tanh(x) = 1+e x シグモイド関数 l  12 /  47 双曲線正接関数 最近よく使われるのは  Rectified  Linear  Unit  (ReLU) –  サチらない、つまり勾配が消えにくいので学習しやすい l  恒等関数は  Linear  Unit  と呼ばれる l  複数の  Linear  Unit  の  max  を取る:  maxout  unit* * I. Goodfellow, D. W.-Farley, M. Milza, A. Courville and Y. Bengio. Maxout Networks. ICML 2013. ReLU max(0, x) x x
  • 13. 13 /  47 Neural  Network  の学習⼿手法 l  l  教師データを  B  個ずつ⾒見見る  Mini-‐‑‒Batch  SGD  がよく使われる 以下の⼿手法と組合せて使われる w w –  –  L2  正則化  (weight  decay)、L1  正則化 –  l  Momentum,  Nesterovʼ’s  Accelerated  Gradient* B 1 X @L(xBi ) B i=1 @w ステップ幅の⾃自動調整  (AdaGrad**,  vSGD***) 最適化が難しいケースではニュートン法ベースの⼿手法も(L-‐‑‒BFGS,   Hessian-‐‑‒Free  法など) * I. Sutskever, J. Martens, G. Dahl and G. Hinton. On the importance of initialization and momentum in deep learning. ICML 2013. ** J. Duchi, E. Hazan and Y. Singer. Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. JMLR 12 (2011) 2121-2159. *** T. Schaul, S. Zhang and Y. LeCun. No More Pesky Learning Rates. ICML 2013.
  • 14. Dropout 14 /  47 l  SGD  学習時、ランダムに選んだユニ ットの活性を  0  にする –  経験上、⼊入⼒力力ユニットは  20%、隠れユニット は  50%  の  dropout  率率率だと性能が良良い l  強い正則化の効果がある –  –  l  G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever and R. R. Salakhutdinov. l  Improving neural networks by preventing co-adaptation of feature detectors. ArXiv 1207.0580. * S. Wager, S. Wang and P. Liang. Dropout Training as Adaptive Regularization. NIPS 2013. アンサンブル学習 フィッシャー情報⾏行行列列で歪ませた  L2  正則化* 区分線形ユニット  (ReLU,  maxout)   で特に効果的 亜種も出てきている  (DropConnect,   Adaptive  Dropout,  etc.)
  • 15. 15 /  47 Restricted  Boltzmann  Machine 観測変数 W 潜在変数 l  l  v h 無向⼆二部グラフのグラフィカルモデル 左下のようなエネルギー関数を持つボル ツマン分布 –  2式はそれぞれ        が⼆二値および連続値の場合の v エネルギー関数(        は共に⼆二値変数) h l  E(v, h) = E(v, h) = a> v (v a) 2 2 b> h 2 h> W v > b h バイアスパラメータ 1 > h Wv 対数尤度度勾配は次式で書ける @ log p(v) = hvi hj idata @wij hvi hj imodel データに対する 期待値 RBM  が表す 分布に対する 期待値
  • 16. 16 /  47 Contrastive  Divergence  (CD-‐‑‒k) l  W v Model  期待値は計算が難しいので、k  往復復 だけサンプリングして得た観測変数を使う wij = hvi hj idata h l  hvi hj ireconstruction 対数尤度度の勾配ではなくなってしまう –  Contrastive  Divergence  という値の勾配の近 似(厳密にはどんな関数の勾配としても書けない) l  深層学習の応⽤用上は  k=1  で良良い性能を発揮 –  単に  CD  と⾔言ったら  CD-‐‑‒1  を指す
  • 17. Deep  Belief  Network* l  l  17 /  47 最後の1層だけ無向なグラフィカルモデル 各層ごとに  RBM  の重みが良良い初期値になる –  Greedy  Layer-‐‑‒wise  Pre-‐‑‒training  と呼ばれる –  Deep  Learning  のブレイクスルー l  最後に  Up-‐‑‒down  法で  fine-‐‑‒tuning 全層それぞれで  Contrastive  Divergence  を l  ⽤用いる⽅方法も  (top-‐‑‒down  regularization**) 特徴抽出に使うか、DNN  の初期値にする l  * G. E. Hinton, S. Osindero and Y.-W. Teh. A fast learning algorithm for deep belief nets. Neural Computation 2006. ** H. Goh, N. Thome, M. Cord and J.-H. Lim. Top-Down Regularization of Deep Belief Networks. NIPS 2013.
  • 18. 18 /  47 Deep  Boltzmann  Machine l  l  層ごとにわかれた無向グラフィカルモデル DBN  と違い、内側の層は上下両⽅方の層からの フィードバックを受ける –  l  モデルを組み⽴立立てる際の⾃自由度度が上がる RBM  で事前学習、全体を  RBM  のように学習 @ log p(v) = hvi hj idata @wij –  –  R. Salakhutdinov and G. Hinton. Deep Boltzmann Machines. AISTATS 2009. hvi hj imodel ただし  data  期待値も簡単に計算できない(条件付き 分布が  factorize  されない)→  変分推定 Model  期待値は  Persistent  MCMC
  • 19. 19 /  47 Autoencoder  (AE) l  l  ⼊入⼒力力を復復元する2層の  NN 恒等関数を学習しないように以下の⼯工夫 –  ⼊入⼒力力層より⼩小さな隠れ層  (bottleneck) –  正則化(Contractive  AE*,  Sparse  AEなど) W ⼊入⼒力力層 誤差関数 L ⼊入⼒力力層にノイズを加える(Denoising  AE**) l  制約                                    をよく置く  (tied  weights) W0 = W> 隠れ層 W0 –  –  ⼆二乗誤差  DAE  はこの制約のもと、別の⽬目的関数(score   matching  の亜種)と⼀一致し、RBM  と似たエネルギー関 数を持つ*** 復復元層 * S. Rifai, P. Vincent, X. Muller, X. Glorot and Y. Bengio. Contractive Auto-Encoders: Explicit Invariance During Feature Extraction. ICML 2011. ** P. Vincent, H. Larochelle, Y. Bengio and P.-A. Manzagol. Extracting and Composing Robust Features with Denoising Autoencoders. ICML 2008. *** P. Vincent. A Connection Between Score Matching and Denoising Autoencoders. TR 1358, Dept. IRO, Universite de Montreal.
  • 20. Denoising  Autoencoder  (DAE) l  ⼊入⼒力力にノイズを加えてから2層の   NN  で復復元する ノイズはガウスノイズや  Salt-‐‑‒and-‐‑‒ Pepper  ノイズ(ランダムなノード を  0  か  1  で上書き)を使う l  ノイズにある条件を仮定すれば、最適な   l  W ノイズ W0 誤差関数 L 20 /  47 DAE  解はノイズと復復元の操作の繰り返 しが表すマルコフ連鎖の定常分布によ って⼊入⼒力力データの分布を表現する* * Y. Bengio, L. Yao, G. Alain and P. Vincent. Generalized Denoising Auto-Encoders as Generative Models. NIPS 2013.
  • 21. Stacked  Denoising  Autoencoder l  l  DAE  を重ねる 2層⽬目以降降の  DAE  を学習する 場合、それ以前の層はそのまま 適⽤用して、学習する層の⼊入⼒力力層 に対してノイズを加える l  P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio and P.-A. Manzagol. Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion. JMLR 11 (2010) 3371-3408. DAE  はデータ分布の多様体を学習している –  曲がりくねった多様体を少し平らな空間に展開する  (disentanglement) –  l  21 /  47 Stacked  DAE  は多様体を少しずつ平らに展開していくことに対応する DAE  に限らず他の  AE  も重ねて  deep  net  を作ることが多い
  • 22. 22 /  47 Deep  Learning l  l  データの深い(多段の)処理理全体を通して学習する 利利点は、複雑なモデルを⽐比較的少ないリソースで学習できること –  2層の  Neural  Network  でも任意の関数を、RBM  でも任意の分布を表現でき るが、それには⼤大量量の隠れユニットと⼤大量量の学習データが必要になる –  Deep  Learning  の場合、同じ関数・分布を表現するのに必要なユニット・デー タ数が浅いモデルに⽐比べて圧倒的に少なくて済む –  Deep  Neural  Net  で学習した関数を「教師」として浅い  Neural  Net  を学習さ せられる*が、同じ⽔水準のモデルを浅い  Neural  Net  で直接得ることは、同じ学 習コストでは(今のところ)できない * L. J. Ba and R. Caruana. Do Deep Nets Really Need to be Deep? ArXiv 1312.6184.
  • 24. Convolutional  Neural  Network  (CNN) l  画像の縦横⽅方向に、同じ重みの窓を スライドさせながら適⽤用 –  l  l  l  l  パラメータの⼤大幅な節約 –  Feature  maps 物体認識識は位置不不変という事前知識識 –  24 /  47 スパースなネットワーク(局所受容野) 強い正則化の効果 GPU  計算との親和性 FFT  を使って⾼高速化する話もある Simple  cell  との対応 Convolutional Neural Network (LeNet) in Deep Learning 0.1 Documentation. http://deeplearning.net/tutorial/lenet.html#details-and-notation
  • 25. 25 /  47 Pooling  (subsampling) l  l  0 @ Feature  map  毎に、矩形上の活性を集約する処理理 L2-‐‑‒pooling,  max-‐‑‒pooling,  average-‐‑‒pooling  がよく使われる 1 1 |rectangle| –  X (i,j)2rectangle 12 x2 A ij max (i,j)2rectangle xij 1 |rectangle| X xij (i,j)2rectangle L2-‐‑‒pooling  や  average-‐‑‒pooling  ではガウス平均を使うこともある l  平⾏行行移動不不変性を獲得するのに役⽴立立つ CNN  は基本的に  convolution  /  activation  /  pooling  の繰り返し l  Complex  cell  との対応 l 
  • 26. 26 /  47 Local  Contrast  Normalization l  局所的(空間⽅方向および同⼀一座標での複数  feature  maps  間)に X 活性を正規化する vijk = xijk wpq xi,j+p,k+q –  –  Divisive –  細かい定義は使⽤用例例によってまちまち –  l  Subtractive 使い⽅方もまちまち vijk / max(c, X 2 wpq vi,j+p,k+q ) ipq K. Jarrett, K. Kavukcuoglu, M. A. Ranzato and Y. LeCun. What is the Best Multi-Stage Architecture for Object Recognition? ICCV 2009. 正規化がどれくらい精度度に影響するのかは不不明 –  l  ipq 正規化なくても精度度出るという報告もある ⼀一次視覚野のニューロンの性質を参考にしている
  • 27. 27 /  47 Supervision A. Krizhevsky, I. Sutskever and G. E. Hinton. ImageNet Classification with Deep Convolutional Neural Networks. NIPS 2012. l  図にはないが  pooling  の後ろに  Local  Response  Normalization l  2台の  GPU  で実装(上下のパイプラインがそれぞれ対応、異異なる  feature   maps  を持っている) l  2013年年はこれを使った(拡張する)研究が多かった
  • 28. ユニットの可視化   Deconvolutional  NN l  Max-‐‑‒pooling  が不不可逆なので ユニットの可視化が難しい –  実際に画像を⼊入れて、pooling  で 選択されたピクセルを覚えておく l  ILSVRC2013  の分類タスク優勝 者  (clarifai)  の⼿手法 –  ユニット可視化の⼿手法 –  チューニングが⼤大事 M. D. Zeiler and R. Fergus. Visualizing and Understanding Convolutional Networks. ArXiv 1131.2901v3. 28 /  47
  • 29. 29 /  47 Stochastic  Feedforward  NN l  l  途中にベルヌーイ分布に従うユ ニットを⼊入れる 学習は  EM  アルゴリズム   –  –  l  E-‐‑‒step  は重点サンプリング M-‐‑‒step  は  backpropagation Stochastic  neuron  のおかげで マルチモーダルな予測ができる –  Y. Tang and R. Salakhutdinov. Learning Stochastic Feedforward Neural Networks. NIPS 2013. 右図は左カラムの画像から7通りの 表情を予測するタスクの結果
  • 30. Decoder 再構成型  Topographic  ICA l  l  l  30 /  47 Encoder Sparse  Autoencoder  の変種 Pooling  後の活性に対してスパース 化ペナルティーを与える ⾮非畳み込みの局所受容野と組み合わ せると、近くにあるユニットが似た 重みを持つようになる Pooling  処理理に相当 する重み –  ⼀一次視覚野のニューロンと似た性質 –  平⾏行行移動不不変性よりも複雑な不不変性の獲得 Q. V. Lee, M. A. Ranzato, R. Monga, M. Devin, K. Chen, G. S. Corrado, J. Dean and A. Y. Ng. Building High-level Features Using Large Scale Unsupervised Learning. ICML 2012.
  • 31. Google  の猫認識識 l  3段の再構成型  TICA –  Local  Contrast  Normalization  も使っている –  l  31 /  47 Convolution  ではない(重みを共有しない) Youtube  の動画  10,000,000  フレーム で学習すると猫や顔、⼈人の体などに対応 するユニットが得られる これが3段重なったもの Q. V. Lee, M. A. Ranzato, R. Monga, M. Devin, K. Chen, G. S. Corrado, J. Dean and A. Y. Ng. Building High-level Features Using Large Scale Unsupervised Learning. ICML 2012.
  • 32. DNN  としての  Recurrent  Neural  Network l  l  l  Part  units 32 /  47 隠れ層の活性を⼊入⼒力力の⼀一部として次の 時間ステップでの隠れ層に⼊入⼒力力する 隠れ層を  N  回ループさせれば  N  層の   DNN  と対応する(重みが共有される) ⼿手書き数字に対する適⽤用で、⾃自動的に   part  unit  と  categorical  unit  が得られる (図は  Recurrent  Sparse  Autoencoder) Categorical units J. T. Rolfe and Y. LeCun. Discriminative Recurrent Sparse Auto-Encoders. ICLR 2013.
  • 34. Recursive  Neural  Network l  l  34 /  47 同じ重みの層を⽊木の形に重ねる ⽊木構造の予測 –  下図のように2ノードからそれらが 兄弟ノードにふさわしいかを判別 l  l  再帰的な構造を Neural  Network  で学習 ⽊木が⼤大きければ   deep  なモデル R. Socher, C. C.-Y. Lin, A. Y. Ng and C. D. Manning. Parsing Natural Scenes and Natural Language with Recursive Neural Networks. ICML 2011.
  • 35. Recursive  NN  の発展形 35 /  47 R. Socher, B. Huval, C. D. Manning and A. Y. Ng. Semantic Compositionality through Recursive Matrix-Vector Spaces. EMNLP 2012. R. Socher, A. Perelygin, J. Y. Wu, J. Chuang, C. D. Manning, A. Y. Ng and C. Potts. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. EMNLP 2013. デモあり: http://nlp.stanford.edu/sentiment/
  • 36. 36 /  47 Recurrent  Neural  Network  Language  Model  (RNNLM) ⽂文字、単語 l  隠れ層 次の⼊入⼒力力 の予測 l  ⽂文章を読んで、次の⽂文字や単語を予測す るモデル(⾔言語モデル) Recurrent  Neural  Network  でモデル化 –  –  N-‐‑‒gram  モデルをゆるく可変⻑⾧長にしたような感じ –  時刻  t-‐‑‒1  の隠れ層 隠れ層は最近の⼊入⼒力力に関する記憶を保持する –  コピー 隠れ層の活性が、次の時刻の⼊入⼒力力に含まれる 隠れ層は単語や⽂文章の低次元埋め込み  (word   embeddings)  となっている T. Mikolov, M. Karafiat, L. Burget, J. H. Cernocky and S. Khudanpur. Recurrent neural network based language model. INTERSPEECH 2010.
  • 37. RNN  の学習:  Backpropagation  through  Time t=1 l  l  l  RNN  の適⽤用を時間⽅方向に展 開すると  DNN  のようになる 過去の活性を覚えておけば、   Backpropagation  で勾配が 計算できる 適当な単語数で打ち切切ることも t=2 t=3 37 /  47
  • 38. Deep  Recurrent  Neural  Network l  l  38 /  47 DNN  の各層にループがある   Recurrent  Net 深い層ほど⻑⾧長い時間の記憶 を保持する –  深くし過ぎると記憶のスケー ルは変わらなくなる M. Hermans and B. Schrauwen. Training and Analyzing Deep Recurrent Neural Networks. NIPS 2013.
  • 39. Skip-‐‑‒gram  model 39 /  47 l  l  l  まわりの単語を予測できるように 低次元埋め込みを学習する Deep  Learning  ではないが、単語 の表現学習 Analogical  Reasoning  に有効 –  v(“brother”)  -‐‑‒  v(“sisiter”)  +   v(“queen”)  ≒  v(“king”) l  実装が公開されている:  word2vec –  たくさんの⿊黒魔術 T. Mikolov, K. Chen, G. Corrado and J. Dean. Efficient Estimation of Word Representations in Vector Space. ICLR 2013.
  • 40. 画像認識識との融合:  DeViSE 40 /  47 A. Frome, G. S. Corrado, J. Shlens, S. Bengio, J. Dean, M. A. Ranzato and T. Mikolov. DeViSE: A Deep Visual-Semantic Embedding Model. NIPS 2013. l  Supervision  と  Skip-‐‑‒gram  model  を組合せて、画像から単語埋 l  め込みベクトルを予測できるようにする 初めて⾒見見る物体でも、意味的な事前知識識があればラベルを予測でき る  (zero-‐‑‒shot  learning)
  • 42. 強化学習との統合 l  l  42 /  47 報酬を最⼤大化するような⽅方策の選び⽅方を深層モデルで学習する ⼿手は付けられ始めている:  Deep  Q-‐‑‒Networks –  ゲームプレイングのタスク。POMDP  の設定で、⾏行行動価値関数を過去数フレー ムの画⾯面に対する畳み込みニューラルネットで表現する l  DeepMind(先⽇日  Google  に買収された) V. Mnih, K. Karukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra and M. Riedmiller. Playing Atari with Deep Reinforcement Learning. NIPS Deep Learning Workshop 2013.
  • 43. Neural  Network  の教育 l  43 /  47 C. Gulcehre and Y. Bengio. Knowledge Matters: Importance of Prior Information for Optimization. NIPS Deep Learning Workshop 2012. ペントミノがすべて同じ形か の⼆二値分類は直接学習できない –  ペントミノの識識別を  NN  で学習 したあと、出⼒力力層を取り替えて 2層⾜足せば学習できる l  l  Curriculum  Learning* 論論理理的な思考を学習させるには適切切な教育が必要 –  論論理理的な思考をどうやってモデル化するかという問題⾃自体を考える必要もある * Y. Bengio, J. Louradour, R. Collobert and J. Weston. Curriculum Learning. ICML 2009.
  • 44. 44 /  47 空間認識識 l  画像分類を超えて、検出、追跡、空間把握へ –  –  追跡:連続するフレーム間での検出結果のひも付け –  l  検出:物体の位置を特定する 空間把握:三次元的な検出、何がどこにあるのか、⾃自分がどこを向いているか 分類と検出の統合はすでに始まっている –  ILSVRC2013  に出場した  LeCun  らのチーム  OverFeat  は  Supervision  ベー スの分類・検出システムを構築した l  ⾳音声や運動(ロボティクス)との統合 P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus and Y. LeCun . OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks. ArXiv 1312.6229.
  • 46. まとめ l  l  Deep  Learning  の重要な技術を広く浅く紹介しました 2014  年年はさらに応⽤用が広がる年年になると思います –  l  研究者⼈人⼝口の増加、⼤大企業の参⼊入 基礎研究、理理論論解析も着実に増えています –  特に  Dropout、DAE、確率率率的ニューロンなど確率率率的に摂動を加える⼿手法への 理理論論解析が多い印象 –  l  46 /  47 Recurrent  Net  の効率率率的な学習も進歩してきています 神経科学との関連性は今後の課題