3. 2011年年: ⾳音声認識識における成功
l
l
3 / 47
DNN-‐‑‒HMM を使った⼿手法が、⾳音声認識識の word error rate で従来
法 (GMM) より 10% 前後も改善
携帯端末における⾳音声操作に Deep Learning が利利⽤用されるように
F. Seide, G. Li and D. Yu.
Conversational Speech Transcription Using Context-Dependent Deep Neural
Network, in INTERSPEECH, pp. 437-440 (2011)
4. 2012年年: 画像認識識における成功
l
⼀一般物体認識識のコンテスト
ILSVRC2012 において
Deep Convolutional
Neural Network を⽤用い
たチーム Supervision が
他者に 10% のエラー差
をつけて勝利利
J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla and F.-F. Li
. Large Scale Visual Recognition Challenge 2012. ILSVRC2012 Workshop.
4 / 47
5. 2013年年: ⼤大企業による投資、⼈人材争奪戦
l
3⽉月:Google が DNNresearch を買収
–
l
4⽉月:Baidu が Institute of Deep Learning を設⽴立立
–
l
Deep learning group を作るための布⽯石と報じられる
12⽉月:Facebook AI Lab 設⽴立立
–
l
最初の研究者として Kai Yu を迎えた
8, 10⽉月:Yahoo が画像認識識のスタートアップ IQ Engines と
LookFlow を買収
–
l
Geoffrey Hinton, Alex Krizhevsky and Ilya Sutskever
Yann LeCun 所⻑⾧長、他にも Marcʼ’Aurelio Ranzato など
2014年年1⽉月:Google が DeepMind を買収
–
G. Hinton の研究室の卒業⽣生、Deep Learning による強化学習技術
5 / 47
12. 活性化関数 (activation function)
l
従来はシグモイド型の関数が⽤用いられてきた
1
1+e
1 e
tanh(x) =
1+e
x
シグモイド関数
l
12 / 47
双曲線正接関数
最近よく使われるのは Rectified Linear Unit (ReLU)
–
サチらない、つまり勾配が消えにくいので学習しやすい
l
恒等関数は Linear Unit と呼ばれる
l
複数の Linear Unit の max を取る: maxout unit*
* I. Goodfellow, D. W.-Farley, M. Milza, A. Courville
and Y. Bengio. Maxout Networks. ICML 2013.
ReLU
max(0, x)
x
x
13. 13 / 47
Neural Network の学習⼿手法
l
l
教師データを B 個ずつ⾒見見る Mini-‐‑‒Batch SGD がよく使われる
以下の⼿手法と組合せて使われる
w
w
–
–
L2 正則化 (weight decay)、L1 正則化
–
l
Momentum, Nesterovʼ’s Accelerated Gradient*
B
1 X @L(xBi )
B i=1 @w
ステップ幅の⾃自動調整 (AdaGrad**, vSGD***)
最適化が難しいケースではニュートン法ベースの⼿手法も(L-‐‑‒BFGS,
Hessian-‐‑‒Free 法など)
* I. Sutskever, J. Martens, G. Dahl and G. Hinton. On the importance of initialization and momentum in deep learning. ICML 2013.
** J. Duchi, E. Hazan and Y. Singer. Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. JMLR 12 (2011) 2121-2159.
*** T. Schaul, S. Zhang and Y. LeCun. No More Pesky Learning Rates. ICML 2013.
14. Dropout
14 / 47
l
SGD 学習時、ランダムに選んだユニ
ットの活性を 0 にする
–
経験上、⼊入⼒力力ユニットは 20%、隠れユニット
は 50% の dropout 率率率だと性能が良良い
l
強い正則化の効果がある
–
–
l
G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever
and R. R. Salakhutdinov.
l
Improving neural networks by preventing co-adaptation of
feature detectors. ArXiv 1207.0580.
* S. Wager, S. Wang and P. Liang.
Dropout Training as Adaptive Regularization. NIPS 2013.
アンサンブル学習
フィッシャー情報⾏行行列列で歪ませた L2 正則化*
区分線形ユニット (ReLU, maxout)
で特に効果的
亜種も出てきている (DropConnect,
Adaptive Dropout, etc.)
15. 15 / 47
Restricted Boltzmann Machine
観測変数
W
潜在変数
l
l
v
h
無向⼆二部グラフのグラフィカルモデル
左下のようなエネルギー関数を持つボル
ツマン分布
–
2式はそれぞれ が⼆二値および連続値の場合の
v
エネルギー関数( は共に⼆二値変数)
h
l
E(v, h) =
E(v, h) =
a> v
(v
a)
2
2
b> h
2
h> W v
>
b h
バイアスパラメータ
1
>
h Wv
対数尤度度勾配は次式で書ける
@ log p(v)
= hvi hj idata
@wij
hvi hj imodel
データに対する
期待値
RBM が表す
分布に対する
期待値
16. 16 / 47
Contrastive Divergence (CD-‐‑‒k)
l
W
v
Model 期待値は計算が難しいので、k 往復復
だけサンプリングして得た観測変数を使う
wij = hvi hj idata
h
l
hvi hj ireconstruction
対数尤度度の勾配ではなくなってしまう
–
Contrastive Divergence という値の勾配の近
似(厳密にはどんな関数の勾配としても書けない)
l
深層学習の応⽤用上は k=1 で良良い性能を発揮
–
単に CD と⾔言ったら CD-‐‑‒1 を指す
17. Deep Belief Network*
l
l
17 / 47
最後の1層だけ無向なグラフィカルモデル
各層ごとに RBM の重みが良良い初期値になる
–
Greedy Layer-‐‑‒wise Pre-‐‑‒training と呼ばれる
–
Deep Learning のブレイクスルー
l
最後に Up-‐‑‒down 法で fine-‐‑‒tuning
全層それぞれで Contrastive Divergence を
l
⽤用いる⽅方法も (top-‐‑‒down regularization**)
特徴抽出に使うか、DNN の初期値にする
l
* G. E. Hinton, S. Osindero and Y.-W. Teh.
A fast learning algorithm for deep belief nets. Neural Computation 2006.
** H. Goh, N. Thome, M. Cord and J.-H. Lim.
Top-Down Regularization of Deep Belief Networks. NIPS 2013.
18. 18 / 47
Deep Boltzmann Machine
l
l
層ごとにわかれた無向グラフィカルモデル
DBN と違い、内側の層は上下両⽅方の層からの
フィードバックを受ける
–
l
モデルを組み⽴立立てる際の⾃自由度度が上がる
RBM で事前学習、全体を RBM のように学習
@ log p(v)
= hvi hj idata
@wij
–
–
R. Salakhutdinov and G. Hinton.
Deep Boltzmann Machines. AISTATS 2009.
hvi hj imodel
ただし data 期待値も簡単に計算できない(条件付き
分布が factorize されない)→ 変分推定
Model 期待値は Persistent MCMC
19. 19 / 47
Autoencoder (AE)
l
l
⼊入⼒力力を復復元する2層の NN
恒等関数を学習しないように以下の⼯工夫
–
⼊入⼒力力層より⼩小さな隠れ層 (bottleneck)
–
正則化(Contractive AE*, Sparse AEなど)
W
⼊入⼒力力層
誤差関数
L
⼊入⼒力力層にノイズを加える(Denoising AE**)
l 制約 をよく置く (tied weights)
W0 = W>
隠れ層
W0
–
–
⼆二乗誤差 DAE はこの制約のもと、別の⽬目的関数(score
matching の亜種)と⼀一致し、RBM と似たエネルギー関
数を持つ***
復復元層
* S. Rifai, P. Vincent, X. Muller, X. Glorot and Y. Bengio. Contractive Auto-Encoders: Explicit Invariance During Feature Extraction. ICML 2011.
** P. Vincent, H. Larochelle, Y. Bengio and P.-A. Manzagol. Extracting and Composing Robust Features with Denoising Autoencoders. ICML 2008.
*** P. Vincent. A Connection Between Score Matching and Denoising Autoencoders. TR 1358, Dept. IRO, Universite de Montreal.
20. Denoising Autoencoder (DAE)
l
⼊入⼒力力にノイズを加えてから2層の
NN で復復元する
ノイズはガウスノイズや Salt-‐‑‒and-‐‑‒
Pepper ノイズ(ランダムなノード
を 0 か 1 で上書き)を使う
l
ノイズにある条件を仮定すれば、最適な
l
W
ノイズ
W0
誤差関数
L
20 / 47
DAE 解はノイズと復復元の操作の繰り返
しが表すマルコフ連鎖の定常分布によ
って⼊入⼒力力データの分布を表現する*
* Y. Bengio, L. Yao, G. Alain and P. Vincent.
Generalized Denoising Auto-Encoders as Generative Models. NIPS 2013.
21. Stacked Denoising Autoencoder
l
l
DAE を重ねる
2層⽬目以降降の DAE を学習する
場合、それ以前の層はそのまま
適⽤用して、学習する層の⼊入⼒力力層
に対してノイズを加える
l
P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio and P.-A. Manzagol.
Stacked Denoising Autoencoders: Learning Useful Representations
in a Deep Network with a Local Denoising Criterion. JMLR 11
(2010) 3371-3408.
DAE はデータ分布の多様体を学習している
–
曲がりくねった多様体を少し平らな空間に展開する (disentanglement)
–
l
21 / 47
Stacked DAE は多様体を少しずつ平らに展開していくことに対応する
DAE に限らず他の AE も重ねて deep net を作ることが多い
22. 22 / 47
Deep Learning
l
l
データの深い(多段の)処理理全体を通して学習する
利利点は、複雑なモデルを⽐比較的少ないリソースで学習できること
–
2層の Neural Network でも任意の関数を、RBM でも任意の分布を表現でき
るが、それには⼤大量量の隠れユニットと⼤大量量の学習データが必要になる
–
Deep Learning の場合、同じ関数・分布を表現するのに必要なユニット・デー
タ数が浅いモデルに⽐比べて圧倒的に少なくて済む
–
Deep Neural Net で学習した関数を「教師」として浅い Neural Net を学習さ
せられる*が、同じ⽔水準のモデルを浅い Neural Net で直接得ることは、同じ学
習コストでは(今のところ)できない
* L. J. Ba and R. Caruana.
Do Deep Nets Really Need to be Deep? ArXiv 1312.6184.
26. 26 / 47
Local Contrast Normalization
l
局所的(空間⽅方向および同⼀一座標での複数 feature maps 間)に
X
活性を正規化する
vijk = xijk
wpq xi,j+p,k+q
–
–
Divisive
–
細かい定義は使⽤用例例によってまちまち
–
l
Subtractive
使い⽅方もまちまち
vijk / max(c,
X
2
wpq vi,j+p,k+q )
ipq
K. Jarrett, K. Kavukcuoglu, M. A. Ranzato and Y. LeCun.
What is the Best Multi-Stage Architecture for Object Recognition? ICCV 2009.
正規化がどれくらい精度度に影響するのかは不不明
–
l
ipq
正規化なくても精度度出るという報告もある
⼀一次視覚野のニューロンの性質を参考にしている
27. 27 / 47
Supervision
A. Krizhevsky, I. Sutskever and G. E. Hinton.
ImageNet Classification with Deep Convolutional Neural Networks. NIPS 2012.
l
図にはないが pooling の後ろに Local Response Normalization
l
2台の GPU で実装(上下のパイプラインがそれぞれ対応、異異なる feature
maps を持っている)
l
2013年年はこれを使った(拡張する)研究が多かった
28. ユニットの可視化
Deconvolutional NN
l
Max-‐‑‒pooling が不不可逆なので
ユニットの可視化が難しい
–
実際に画像を⼊入れて、pooling で
選択されたピクセルを覚えておく
l
ILSVRC2013 の分類タスク優勝
者 (clarifai) の⼿手法
–
ユニット可視化の⼿手法
–
チューニングが⼤大事
M. D. Zeiler and R. Fergus.
Visualizing and Understanding Convolutional Networks. ArXiv 1131.2901v3.
28 / 47
29. 29 / 47
Stochastic Feedforward NN
l
l
途中にベルヌーイ分布に従うユ
ニットを⼊入れる
学習は EM アルゴリズム
–
–
l
E-‐‑‒step は重点サンプリング
M-‐‑‒step は backpropagation
Stochastic neuron のおかげで
マルチモーダルな予測ができる
–
Y. Tang and R. Salakhutdinov.
Learning Stochastic Feedforward Neural Networks. NIPS 2013.
右図は左カラムの画像から7通りの
表情を予測するタスクの結果
30. Decoder
再構成型 Topographic ICA
l
l
l
30 / 47
Encoder
Sparse Autoencoder の変種
Pooling 後の活性に対してスパース
化ペナルティーを与える
⾮非畳み込みの局所受容野と組み合わ
せると、近くにあるユニットが似た
重みを持つようになる
Pooling 処理理に相当
する重み
–
⼀一次視覚野のニューロンと似た性質
–
平⾏行行移動不不変性よりも複雑な不不変性の獲得
Q. V. Lee, M. A. Ranzato, R. Monga, M. Devin, K. Chen, G. S.
Corrado, J. Dean and A. Y. Ng.
Building High-level Features Using Large Scale Unsupervised
Learning. ICML 2012.
31. Google の猫認識識
l
3段の再構成型 TICA
–
Local Contrast Normalization も使っている
–
l
31 / 47
Convolution ではない(重みを共有しない)
Youtube の動画 10,000,000 フレーム
で学習すると猫や顔、⼈人の体などに対応
するユニットが得られる
これが3段重なったもの
Q. V. Lee, M. A. Ranzato, R. Monga, M. Devin, K. Chen, G. S.
Corrado, J. Dean and A. Y. Ng.
Building High-level Features Using Large Scale Unsupervised
Learning. ICML 2012.
32. DNN としての Recurrent Neural Network
l
l
l
Part units
32 / 47
隠れ層の活性を⼊入⼒力力の⼀一部として次の
時間ステップでの隠れ層に⼊入⼒力力する
隠れ層を N 回ループさせれば N 層の
DNN と対応する(重みが共有される)
⼿手書き数字に対する適⽤用で、⾃自動的に
part unit と categorical unit が得られる
(図は Recurrent Sparse Autoencoder)
Categorical
units
J. T. Rolfe and Y. LeCun.
Discriminative Recurrent Sparse Auto-Encoders. ICLR 2013.
34. Recursive Neural Network
l
l
34 / 47
同じ重みの層を⽊木の形に重ねる
⽊木構造の予測
–
下図のように2ノードからそれらが
兄弟ノードにふさわしいかを判別
l
l
再帰的な構造を
Neural Network
で学習
⽊木が⼤大きければ
deep なモデル
R. Socher, C. C.-Y. Lin, A. Y. Ng and C. D. Manning.
Parsing Natural Scenes and Natural Language with
Recursive Neural Networks. ICML 2011.
35. Recursive NN の発展形
35 / 47
R. Socher, B. Huval, C. D. Manning and A. Y. Ng.
Semantic Compositionality through Recursive
Matrix-Vector Spaces. EMNLP 2012.
R. Socher, A. Perelygin, J. Y. Wu, J. Chuang, C. D. Manning,
A. Y. Ng and C. Potts.
Recursive Deep Models for Semantic Compositionality Over a
Sentiment Treebank. EMNLP 2013.
デモあり:
http://nlp.stanford.edu/sentiment/
36. 36 / 47
Recurrent Neural Network Language Model (RNNLM)
⽂文字、単語
l
隠れ層
次の⼊入⼒力力
の予測
l
⽂文章を読んで、次の⽂文字や単語を予測す
るモデル(⾔言語モデル)
Recurrent Neural Network でモデル化
–
–
N-‐‑‒gram モデルをゆるく可変⻑⾧長にしたような感じ
–
時刻 t-‐‑‒1 の隠れ層
隠れ層は最近の⼊入⼒力力に関する記憶を保持する
–
コピー
隠れ層の活性が、次の時刻の⼊入⼒力力に含まれる
隠れ層は単語や⽂文章の低次元埋め込み (word
embeddings) となっている
T. Mikolov, M. Karafiat, L. Burget, J. H. Cernocky and S. Khudanpur.
Recurrent neural network based language model. INTERSPEECH 2010.
38. Deep Recurrent Neural Network
l
l
38 / 47
DNN の各層にループがある
Recurrent Net
深い層ほど⻑⾧長い時間の記憶
を保持する
–
深くし過ぎると記憶のスケー
ルは変わらなくなる
M. Hermans and B. Schrauwen. Training and Analyzing
Deep Recurrent Neural Networks. NIPS 2013.
39. Skip-‐‑‒gram model
39 / 47
l
l
l
まわりの単語を予測できるように
低次元埋め込みを学習する
Deep Learning ではないが、単語
の表現学習
Analogical Reasoning に有効
–
v(“brother”) -‐‑‒ v(“sisiter”) +
v(“queen”) ≒ v(“king”)
l
実装が公開されている: word2vec
–
たくさんの⿊黒魔術
T. Mikolov, K. Chen, G. Corrado and J. Dean.
Efficient Estimation of Word Representations in Vector Space.
ICLR 2013.
40. 画像認識識との融合: DeViSE
40 / 47
A. Frome, G. S. Corrado, J. Shlens, S. Bengio, J. Dean, M. A.
Ranzato and T. Mikolov.
DeViSE: A Deep Visual-Semantic Embedding Model. NIPS 2013.
l
Supervision と Skip-‐‑‒gram model を組合せて、画像から単語埋
l
め込みベクトルを予測できるようにする
初めて⾒見見る物体でも、意味的な事前知識識があればラベルを予測でき
る (zero-‐‑‒shot learning)
42. 強化学習との統合
l
l
42 / 47
報酬を最⼤大化するような⽅方策の選び⽅方を深層モデルで学習する
⼿手は付けられ始めている: Deep Q-‐‑‒Networks
–
ゲームプレイングのタスク。POMDP の設定で、⾏行行動価値関数を過去数フレー
ムの画⾯面に対する畳み込みニューラルネットで表現する
l
DeepMind(先⽇日 Google に買収された)
V. Mnih, K. Karukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra and M. Riedmiller. Playing Atari with Deep Reinforcement Learning.
NIPS Deep Learning Workshop 2013.
43. Neural Network の教育
l
43 / 47
C. Gulcehre and Y. Bengio.
Knowledge Matters: Importance of Prior Information for
Optimization. NIPS Deep Learning Workshop 2012.
ペントミノがすべて同じ形か
の⼆二値分類は直接学習できない
–
ペントミノの識識別を NN で学習
したあと、出⼒力力層を取り替えて
2層⾜足せば学習できる
l
l
Curriculum Learning*
論論理理的な思考を学習させるには適切切な教育が必要
–
論論理理的な思考をどうやってモデル化するかという問題⾃自体を考える必要もある
* Y. Bengio, J. Louradour, R. Collobert and J. Weston.
Curriculum Learning. ICML 2009.