36. 表現力と層の数
• 層の数に対して表現力は指数的に上がる.
• 中間層のユニット数 (横幅) に対しては多項式的.
36
折り紙のイメージ
Montufar, Guido F., et al. "On the number of linear regions of deep neural networks." 2014.
NNの“表現力”:領域を何個の多面体に分けられるか?
𝐿:層の数
𝑛:中間層の横幅
𝑛0:入力の次元
65. 勾配法と陰的正則化
• 小さな初期値から勾配法を始めるとノルム最小
化点に収束しやすい→陰的正則化
65
[Gunasekar et al.: Implicit Regularization in Matrix Factorization, NIPS2017]
[Soudry et al.: The implicit bias of gradient descent on separable data. JMLR2018]
[Gunasekar et al.: Implicit Bias of Gradient Descent on Linear Convolutional Networks, NIPS2018]
初期値
(原点付近)
解集合
最も「単純な」解
勾配法による最適化
81. 81
[Arora et al.: Stronger generalization bounds for deep nets via a compression approach, ICML2018]
レイヤークッション𝜇ℓ: データ由来のシグナルがランダムノイズに比べてどれだ
け伝搬しやすいかを測った量.
ランダムノイズが伝搬する量
層を重ねるごとに減衰している
83. Naïve evaluation (difficulty) 83
Complexity of
compressed networks
(small)
Bias Variance
𝜓 is 1-Lipschitz continuous.
(large)Very slow rate: 𝑂(1/𝑛1/4
)
• Original network size appears to bound the difference.
• Navie evaluation give 𝑛−1/4 convergence rate (very slow).
Difficulty
84. 84
𝑓 ∈ ℱ
𝑓# ∈ ℱ#
Compress
ℱ: set of trained net
ℱ#
: set of compressed net
: data dependent!
85. General compression based bound 85
with probability at least 1 − 𝑒−𝑡
.
: local Rademacher complexity
: fixed point of local Rad.
Trained network 𝑓 can be compressed to smaller one 𝑓#.
( 𝑓 ∈ ℱ, 𝑓#
∈ ℱ#
; ℱ is a set of trained net, ℱ#
is a set of compressed net.)
:compression scheme can be data dependent.
(This assumption restricts training procedure too)
•
•
•
Theorem (compression based bound for the original net)
Fast part (O(1/n)) Main part (O(1/ 𝒏))
bias variance
[Suzuki, 2019]
87. Relation between bounds 87
Low rank
of cov. matrix
[Suzuki et al. 2018]
Low rank
of weight matrix
[Arora et al. 2018]
Sparse
[Baykal et al. 2018]
88. Singular value distribution 88
[Martin&Mahoney: Traditional and Heavy-Tailed Self Regularization in Neural Network Models. arXiv:1901.08276]
Random initialization After some epoch training
After several epoch training Over regularized
Singular value distribution of weight matrix
Eigenvalues shift
around 0.
89. Near low rank covariance 89
Distribution of eigenvalues of the covariance matrix
in an internal layer
9-th layer in VGG-13 trained on CIFAR-10
Many small eigenvalues
Output from
internal layer
Few large eigenvalues
Eigenvalue index
Magnitudeofeigenvalue
90. Near low rank weight and covariance 90
• Near low rank weight matrix:
•
• Both of weight and covariance
are near low rank
Theorem
•
where .
VC-bound:
Quadratic
(ℓ-th layer)
91. Comparison with Arora et al. 91
Comparison of intrinsic dimensionality between our degree of freedom and that in
Arora et al. (2018). They are computed on VGG-19 network trained on CIFAR-10.
larger smaller
3
134. スパースな関数クラス 134
0 < p < 1 の時,DLは線形推定量を優越する:
𝛼 =
1
𝑝
−
1
2
, とし𝛽は 𝛽 < 2𝛼を満たすとする.
𝑛−𝛽/(𝛽+1)
(0 < 𝛽 can be arbitrary small)
(sparse)
135. 例 (1) 135
where 𝑅 𝑘 is a region with smooth boundary and ℎ 𝑘 is a smooth function.
(Schmidt-Hieber, 2018)
is a univariate smooth function.
• Low dimensional feature extractor
• Piece-wise smooth function (Imaizumi & Fukumizu, 2018)
Deep is better than a kernel method (linear estimator).
Deep Shallow (linear)
: suffers from curse of dim.
Dim. reduction
136. 例 (2)
• Reduced rank regression
136
where and .
Comparison of accuracy
Low rank: non-convex
Convex hull of the low rank model is full-rank.
(LS, Ridge reg)
149. ResNet型勾配ブースティング法
149
[Nitanda&Suzuki: Functional Gradient Boosting based on Residual Network Perception. ICML2018]
[Nitanda&Suzuki: Gradient Layer: Enhancing the Convergence of Adversarial Training for Generative Models. AISTATS2018]
158. 3層NN-非線形活性化関数-
二層目の重みを固定する設定
• Li and Yuan (2017): ReLU,入力はガウス分布を仮定
SGDは多項式時間で大域的最適解に収束
学習のダイナミクスは2段階
→ 最適解の近傍へ近づく段階 + 近傍での凸最適化的段階
• Soltanolkotabi (2017): ReLU,入力はガウス分布を仮定
過完備 (横幅>サンプルサイズ)なら勾配法で最適解に線形収束
(Soltanolkotabi et al. (2017)は二乗活性化関数でより強い帰結)
• Brutzkus et al. (2018): ReLU
線形分離可能なデータなら過完備ネットワークで動かしたSGDは
大域的最適解に有限回で収束し,過学習しない.
(線形パーセプロトロンの理論にかなり依存)
158
Li and Yuan (2017): Convergence Analysis of Two-layer Neural Networks with ReLU Activation.
Soltanolkotabi (2017): Learning ReLUs via Gradient Descent.
Brutzkus, Globerson, Malach and Shalev-Shwartz (2018): SGD learns over parameterized networks that provably generalized
on linearly separable data.
固定 こちらのみ動かす
(Tian, 2017; Brutzkus and Globerson, 2017; Li and Yuan, 2017; Soltanolkotabi, 2017;
Soltanolkotabi et al., 2017; Shalev-Shwartz et al., 2017; Brutzkus et al., 2018)
159. 3層NN-非線形活性化関数-
二層目の重みも動かす設定
• Du et al. (2017): CNNを解析
勾配法は局所最適解があっても非ゼロの確率で回避可能
→ ランダム初期化を複数回行えば高い確率で大域解へ
ガウス入力を仮定
• Du, Lee & Tian (2018): CNN,vj固定だが非ガウス入力で大域的
最適解への収束を保証.
159
学習ダイナミクスとセットで議論
両方動かす
その他のアプローチ
• テンソル分解を用いた大域的最適性の議論: Ge, Lee & Ma (2018).
• カーネル法的解釈+Frank-Wolfe法による最適化:Bach (2017).
Du, Lee, Tian, Poczos & Singh (2017): Gradient Descent Learns One-hidden-layer CNN: Don’t be Afraid of Spurious
Local Minima.
Du, Lee, Tian (2018): When is a convolutional filter easy to learn?
Ge, Lee & Ma (2018): Learning one-hidden-layer neural networks with landscape design.
Bach (2017): Breaking the Curse of Dimensionality with Convex Neural Networks.
※細かい強い仮定が置
かれているので文章か
ら結果を鵜呑みにでき
ないことに注意.
160. 非凸最適化一般論
• ある条件を満たす最適化法はほとんど確実に鞍点に
はまらない
安定多様体を用いた議論
Strict Saddleの仮定 (やや強い)
勾配法,鏡像降下法,近接点法,
座標降下法等は条件を満たす.
• 非確率的勾配法は鞍点にはまると抜け出すのに次元
に関して指数時間かかる.
• わざとノイズを乗せることで鞍点から抜けられる.
SGD, 加速法などに適用可
160
Lee, Panageas, Piliouras, Simchowitz, Jordan, Recht (2017): First-order Methods Almost Always Avoid Saddle Points.
Lee, Simchowitz, Jordan, Recht (2016): Gradient Descent Only Converges to Minimizers.
Du, Jin, Lee, Jordan, Poczos, Singh (2017): Gradient Descent Can Take Exponential Time to Escape Saddle Points.
Jin, Ge, Netrapalli, Kakade, Jordan (2017): How to Escape Saddle Points Efficiently.
Jin, Netrapalli, Jordan: Accelerated Gradient Descent Escapes Saddle Points Faster than Gradient Descent.
Fig. by Staadt, Natarajan, Weber, Wiley, Hamann (2007)
161. 鞍点回避の方法 161
加速勾配法
鞍点にはまっていそうならノイズを乗せて脱出
凸っぽくなければある方法で降下方向を発見
Jin, Ge, Netrapalli, Kakade, Jordan (2017): How to Escape Saddle Points Efficiently.
Jin, Netrapalli, Jordan: Accelerated Gradient Descent Escapes Saddle Points Faster than Gradient Descent.
• 単純な勾配法への適用
• 加速勾配法への適用
ノイズを乗せるだけ
(鞍点脱出)
(普通の勾配法)
178. MF-regimeの研究動向
• Wasserstein勾配流を用いた収束の解析:
[Nitanda&Suzuki, 2017][Chizat and Bach, 2018][Sirignano an d
Spiliopoulos, 2018] [Rotskoff and Vanden-Eijnden, 2018]その他
多数
• SGLDを用いた最適解への収束解析:
[Mei, Montanari, and Nguyen, 2018](同グループからの後続研
究多数), [Rotskoff&Vanden-Eijnden, NeurIPS2018],
(ある種の強凸性を仮定した線形収束)[Hu et al.,
arXiv1905.07769]
• MMD最適化としての収束解析:
[Arbel et al., 2019]
• MCMCサンプリングおよび貪欲解法(Frank- Wolfe):
[Barron, 1993][Bengio et al., 2006][Le Roux and Bengio,
2007][Bach, 2017][Sonoda, 2019]
178
NTKと比べると難しい.
第一層の学習がより本質的に影響するので汎化性能は良いと考えられている.
(陰的正則化)
179. Sharp minima vs flat minima 179
SGDは「フラットな局所最適解」に落ちやすい→良い汎化性能を示す
という説
≅正規分布
→ランダムウォークはフラットな領域に
とどまりやすい
•「フラット」という概念は座標系の取り
方によるから意味がないという批判.
(Dinh et al., 2017)
•PAC-Bayesによる解析 (Dziugaite, Roy,
2017)
Keskar, Mudigere, Nocedal, Smelyanskiy, Tang (2017):
On large-batch training for deep learning: generalization gap and sharp minima.