2. 深層学習の広がり 2
[Glow: Generative Flow with Invertible 1x1 Convolutions. Kingma
and Dhariwal, 2018]
AlphaGo/Zero 画像の生成
画像の変換
画像認識
自動翻訳
[Zhu, Park, Isola, and Efros: Unpaired image-to-image translation using
cycle-consistent adversarial networks. ICCV2017.]
様々なタスクで高い精度
[Silver et al. (Google Deep Mind): Mastering the game of Go with
deep neural networks and tree search, Nature, 529, 484—489, 2016]
[Wu et al.: Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv:1609.08144]
[He, Gkioxari, Dollár, Girshick: Mask R-CNN, ICCV2017]
3. 諸分野への波及 3
[Litjens, et al. (2017)]
医療分野における「深層学習」
を用いた論文数
医療
- 人を超える精度
(FROC73.3% -> 87.3%)
- 悪性腫瘍の場所も特定
[Detecting Cancer Metastases on
Gigapixel Pathology Images: Liu et
al., arXiv:1703.02442, 2017]
[Niepert, Ahmed&Kutzkov: Learning Convolutional Neural Networks
for Graphs, 2016]
[Gilmer et al.: Neural Message Passing for Quantum Chemistry, 2017]
[Faber et al.:Machine learning prediction errors better than DFT
accuracy, 2017.]
量子化学計算,分子の物性予測
[Google AI Blog, “Deep Learning for Robots: Learning from Large-
Scale Interaction,” 2016/5/8]
ロボット
31. 多層が得する例 (1): 領域分割数
• 層の数に対して表現力は指数的に上がる.
• 中間層のユニット数 (横幅) に対しては多項式的.
31
折り紙のイメージ
Montufar, Guido F., et al. "On the number of linear regions of deep neural networks." 2014.
NNの“表現力”:領域を何個の多面体に分けられるか?
𝐿:層の数
𝑛:中間層の横幅
𝑛0:入力の次元
64. より正確なステートメント 64
with probability at least 1 − 𝑒−𝑡
.
: 局所Rademacher複雑度
: 局所Rad.の不動点
•
•
•
Theorem (非圧縮ネットの圧縮型バウンド)
Fast part (O(1/n)) Main part (O(1/ 𝒏))
bias variance
仮定: 𝑓 がより小さなネットワーク𝑓#
に圧縮できるとする.
( 𝑓 ∈ ℱ, 𝑓# ∈ ℱ#; ℱは学習済みネットの集合, ℱ# は圧縮したネットの集合)
65. いつどれくらい圧縮できるか? 65
[Suzuki: Fast generalization error bound of deep learning from a kernel perspective. AISTATS2018]
[Li, Sun, Liu, Suzuki and Huang: Understanding of Generalization in Deep Learning via Tensor
Methods. AISTATS2020]
[Suzuki, Abe, Nishimura: Compression based bound for non-compressed network: unified
generalization error analysis of large compressible deep neural network, ICLR2020]
[Suzuki et al.: Spectral pruning: Compressing deep neural networks via spectral analysis and its
generalization error. IJCAI-PRICAI 2020]
•「テンソル分解」の援用によりCNNの詳細な評価も実現.
元サイズ 圧縮可能
サイズ
大 小
実質的自由度
元のサイズ
[実験的観察] 実際に学習した
ネットワークは圧縮しやすい.
すぐ減衰すぐ減衰
•中間層の分散共分散行列の固有値分布
•中間層の重み行列の特異値分布
が速く減衰するなら圧縮しやすい.
重み行列の特異値分散共分散行列の固有値
分散共分散行列も重み行列も
特異値が速く減衰
→小さい統計的自由度
(AIC, Mallows’ Cp)
カーネル法の理論
(そもそもカーネルは無限次元モデル)
66. BigNAS 66
[Yu et al.: BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage Models. ECCV2020]
• 学習後のネットワークが圧縮できるように学習
• 大きなネットワークから小さなネットワークを
生成できる
• EfficientNetを上回る効率性を実現
圧縮できるように学習するとスクラッチ学習より
性能が向上することもある.
(理論と関係あるNAS手法)
87. 仮定 87
NTK corresponding to 2-layer training:
• 𝑓∗(𝑥) = E[𝑌|𝑋 = 𝑥] can be expressed as
𝑇𝑘∞
𝑟
ℎ = 𝑓∗
for ℎ ∈ 𝐿2(𝑃𝑋), and 0 < 𝑟.
• Eigenvalue decay condition:
𝜇 𝑗 = O 𝑗−𝛽 .
Standard assumption in analyzing kernel ridge regression; e.g., Dieuleveut et
al. (2016); Caponnetto and De Vito (2007).
Smoothness of the
true function.
Integral operator:
“Complexity” of the
kernel function.
population
Spectral decomp: ,
93. 勾配法と陰的正則化
• 小さな初期値から勾配法を始めるとノルム最小
化点に収束しやすい→陰的正則化
93
[Gunasekar et al.: Implicit Regularization in Matrix Factorization, NIPS2017]
[Soudry et al.: The implicit bias of gradient descent on separable data. JMLR2018]
[Gunasekar et al.: Implicit Bias of Gradient Descent on Linear Convolutional Networks, NIPS2018]
[Moroshko et al.: Implicit Bias in Deep Linear Classification: Initialization Scale vs Training
Accuracy, arXiv:2007.06738]
初期値
(原点付近)
解集合
最も「単純な」解
勾配法による最適化
多層の線形NNを判別問題でGDすると“スパースな解”
が得られる.
96. Sharp minima vs flat minima 96
SGDは「フラットな局所最適解」に落ちやすい→良い汎化性能を示す
という説
≅正規分布
→ ランダムウォークはフラットな領域に
とどまりやすい
•「フラット」という概念は座標系の取り
方によるから意味がないという批判.
(Dinh et al., 2017)
•PAC-Bayesによる解析 (Dziugaite, Roy,
2017)
Keskar, Mudigere, Nocedal, Smelyanskiy, Tang (2017):
On large-batch training for deep learning: generalization gap and sharp minima.
97. GLD/SGLD
• Stochastic Gradient Langevin Dynamics (SGLD)
97
定常分布:
(勾配Langevin動力学)
(非凸)
GLD:
SGLD:
確率的勾配
(Euler-Maruyama近似)
𝛽: 逆温度
離散化 [Gelfand and Mitter (1991); Borkar and
Mitter (1999); Welling and Teh (2011)]
110. ResNetの平均場理論と最適制御
• ResNetは入力から出力へ“最短”で繋いでいる.
→ 最適制御理論による特徴付け (HJB方程式).
110
𝑥
𝑦
[E, Han, Li: A Mean-Field Optimal Control Formulation of Deep Learning. Research in the
Mathematical Sciences, 6-10, 2019]
[Benning, Celledoni, Ehrhardt, Owren, Schönlieb: Deep learning as optimal control problems:
Models and numerical methods. Journal of Computational Dynamics, 2019, 6(2) : 171-198.]
[Lu, Ma, Lu, Lu, and Ying: A mean-field analysis of deep resnet and beyond: Towards provable
optimization via overparameterization from depth. ICML2020.]
• 最適制御を用いたResNetの平均場における最適化理論研究もある.
最短
111. ResNet型勾配ブースティング法
111
[Nitanda&Suzuki: Functional Gradient Boosting based on Residual Network Perception. ICML2018]
[Nitanda&Suzuki: Gradient Layer: Enhancing the Convergence of Adversarial Training for Generative Models. AISTATS2018]