SlideShare a Scribd company logo
論論⽂文紹介
Semi-‐‑‒supervised  Learning  
with  Deep  Generative  Models
NIPS2014読み会  @  東⼤大,  2015/01/20
Preferred  Networks,  得居  誠也
@beam2d
l  ラベルありデータが少なくて,それだけでは分離離曲⾯面を決めづらい
l  ラベルなしデータを使って空間を補間して,いい感じに分離離曲⾯面を決めよう
→  半教師あり学習
半教師あり学習  (semi-‐‑‒supervised  learning)
2
猫
⽝犬
ラベルありデータ(少ない) ラベルなしデータ(多い)
従来⼿手法:⼤大きく  4  種類
3
⾃自⼰己教⽰示による学習
•  学習した予測器を使ってラベルなし
データをラベル付けする
•  ⼤大マージンの仮説を⼊入れることもあ
る(Transductive SVM)
グラフベースの⼿手法
•  データの類似度度グラフを作り,ラベ
ルを伝播させる
•  ⼤大概、グラフラプラシアンの固有値
問題に落落ちる
多様体学習による⼿手法
•  予測がデータ多様体に沿ってゆっ
くり変化する制約や正則化を使う
•  データ多様体の推定にラベルなし
データが使える
•  例例:Manifold Tangent Classifier
(MTC), AtlasRBF
⽣生成モデルを⽤用いた⼿手法
•  ⽣生成モデルを学習する
•  単に特徴学習に使うか,ラベルなし
データを不不完全データとして扱う
今⽇日はこれ
この論論⽂文の⼿手法を使うと
MNIST  をラベルありデータ  100  件で誤識識別率率率  3.33%  まで出せる
(ほかにも  SVHN  や  NORB  での実験あり)
4
単純な⽣生成モデル
5
x
z
p(x, z) = p(z)p(x|z)
これをニューラルネットで定義する
深い⽣生成モデル  M1(データが実ベクトルの場合)
6
Neural Net
(パラメータ      )
z N(z; 0, I)
(µ, )
ここは決定的
x N(x|µ, diag 2
)
深い⽣生成モデル  M1(データが⼆二値ベクトルの場合)
7
Neural Net
(パラメータ      )
z N(z; 0, I)
ここは決定的
x Bernoulli(x|µ)
µ
以降降は  Gaussian  の場合のみを考える(Bernoulli  でも同様)
ラベルを⼊入れた⽣生成モデル  M2(Gaussian  の場合)
8
Neural Net
(パラメータ      )
z N(z; 0, I)
(µ, )
y Cat(y| )
x N(x|µ, diag 2
)
推論論モデル:確率率率的な  AutoEncoder
l  有向モデル                                            は          から        を推論論しづらい
l  そこでこの推論論を別の  NN  で表す(この論論⽂文オリジナルではな
い)
9
p(z)p(x|z) x z
p(z)p(x|z) q(x)q(z|x)
z
x
NN(      ) NN(      )
⽣生成モデル   推論論モデル(認識識モデル)
(              は経験分布)q(x)
推論論モデルも  NN  で書く
10
l  M1(⼊入⼒力力データの⽣生成モデル)の場合,
l  M2(ラベルを⽤用いた⽣生成モデル)の場合,
q (z|x) = N(z|µ (x), diag 2
(x)).
NN
NN
q (z|y, x) = N(z|µ (y, x), diag 2
(y, x)),
q (y|x) = Cat(y| (x)).
M1  の⽬目的関数:変分下界(変分  AutoEncoder)
11
log p(x) Eq(z|x)[log p(x|z)] KL[q(z|x) p(z)]
  これを最⼤大化する
(                                                    のとき左辺と⼀一致)q(x, z) = p(x, z)
半教師あり学習に使う場合,                                          を特徴ベクトル
としてこれを使って識識別器を(半)教師あり学習する(例例えば  
TSVM  や  M2)                        
z q(z|x)
AutoEncoder           に関する正則化項z
M2  の⽬目的関数:変分下界+識識別学習
12
ラベルありデータに対しては
ラベルなしデータに対しては
これらとラベルありデータに対する損失を合わせて次の関数を最⼩小化する
log p(x, y) L(x, y) :=
Eq(z|x,y)[log p(x|y, z) + log p(y) + log p(z) log q(z|x, y)]
log p(x) U(x) :=
Eq(y,z|x)[log p(x|y, z) + log p(y) + log p(z) log q(y, z|x)]
(x,y):labeled
L(x, y) +
x:unlabaled
U(x)
(x,y):labeled
log q(y|x)
q(y|x)ここに                            の項が
⼊入ってない
勾配の計算法:SGVB  (SBP)
l  ⽬目的関数を略略記:
l  勾配を計算する上で                                  が厄介
l  これは  Gaussian  に関する期待値なので
と書き直せて、勾配をサンプリングで近似できる:
⽣生成・推論論モデルの変分下界の勾配を求めるこの⽅方法は  Stochastic  
Gradient  Variational  Bayes  や  Stochastic  BackProp  と呼ばれる
(それぞれ  ICLRʼ’14,  ICMLʼ’14  で独⽴立立に提案されたが,基本的には同じ⼿手
法をさす)
13
Eq(z|x,y)
Eq(z|x,y)[f(x, y, z)]
Eq(z|x,y)[f(x, y, z)] = EN ( |0,I)[f(x, y, µ(x) + (x) )]
Eq(z|x,y)[f(x, y, z)] = EN ( |0,I)[ f(x, y, µ(x) + (x) )]
学習⽅方法:SGVB(SBP)  +  勾配法
l  勾配が計算できたので,あとは確率率率的勾配法に投げれば  OK
l  論論⽂文では  AdaGrad  やモーメンタムつきの  RMSprop  を
使っている,とある
–  3.2  には前者を,4.4  には後者を使ったよと書いてありよくわ
からないが,4.4  の⽅方が詳しく書かれているのでおそらく後
者を使っているのではないかと思う
14
実験:2  種類、⽚片⽅方はその中でさらに  2  種類
l  半教師あり学習  (MNIST,  SVHN,  NORB)
l  条件つきデータ⽣生成:2  通りの実験
–  2  次元の          を使って学習し,ラベル        を固定して様々な          
から                          を⽣生成する  (MNIST)
–  テストデータ        から                を推論論し,それを使って様々なラ
ベル        で                            を再⽣生成する  (MNIST,  SVHN)
15
z zy
x|y, z
y x|y, z
x z|x
実験:半教師あり学習(値はすべて誤識識別率率率  %)
16
ラベルありデータ数
条件つきデータ⽣生成(ラベル固定)
17
2  次元の          にそって描画している.
        は筆跡・書き⽅方の癖  (style)  みたいなものをとらえている
z
z
条件つきデータ⽣生成(ラベルを取り替えて再⽣生成)
18
左端の列列が⼊入⼒力力データ,右の  10  列列が推論論された        と各ラベ
ルから再⽣生成された
z
x|y, z
まとめ・考察
l  ⽣生成・推論論モデルを使って深い⽣生成モデルを学習できる
(これ⾃自体は既存の結果)
l  これが半教師あり学習に素直に応⽤用できて,性能も⾼高い
l  ⽣生成モデルなのでアナロジーのような⾯面⽩白実験ができる
l  DBM  とくらべて推論論が簡単で,半教師ありへの応⽤用もわか
りやすい(分類器が普通の  NN  として得られる)
l  DBM  と違い,尤度度や勾配も不不偏推定できる
l  ⼤大規模データでうまく動くかは気になるところ
19
参考⽂文献
紹介した論論⽂文
Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014).
Semi-supervised Learning with Deep Generative Models. In Advances in Neural Information
Processing Systems 27 (pp. 3581–3589).
Stochastic  Gradient  VB(変分  AutoEncoder)  の論論⽂文
Kingma, D. P., & Welling, M. (2014). Auto-Encoding Variational Bayes.International
Conference on Learning Representations.
Stochastic  BackProp  の論論⽂文
Rezende, D. J., Mohamed, S., & Wierstra, D. (2014).
Stochastic Backpropagation and Approximate Inference in Deep Generative Models. In
Proceedings of the 31st International Conference on Machine Learning (pp. 1278–1286).
20

More Related Content

論文紹介 Semi-supervised Learning with Deep Generative Models