深層学習の数理

大阪大学集中講義
深層学習の数理
鈴木大慈
東京大学大学院情報理工学系研究科数理情報学専攻
理研AIP
2019年9月2日
1

１９４６：ＥＮＩＡＣ，高い計算能力
フォン・ノイマン「俺の次に頭の良い奴ができた」
１９５２：Ａ．Ｓａｍｕｅｌによるチェッカーズプログラム
機械学習と人工知能の歴史
2
１９５７：Ｐｅｒｃｅｐｔｒｏｎ，ニューラルネットワークの先駆け
第一次ニューラルネットワークブーム
１９６３：線形サポートベクトルマシン
１９８０年代：多層パーセプトロン，誤差逆伝搬，
畳み込みネット
第二次ニューラルネットワークブーム
１９９２：非線形サポートベクトルマシン
（カーネル法）
統計的学習
線形モデルの限界
非凸性の問題
１９９６：スパース学習（Lasso）
２００３：トピックモデル（LDA）
２０１２： Supervision （Alex-net）
第三次ニューラルネットワークブーム
データの増加
＋計算機の強化
１９６０年代前半：
ＥＬＩＺＡ（イライザ），
擬似心理療法士
１９８０年代：
エキスパートシステ
ム
ルールベース
人手による学習ルール
の作りこみの限界
「膨大な数の例外」
Siriなどにつながる

ネオコグニトロン
3
[福島,79]
・人間の脳を模倣
・畳み込みネットの初期型
・自己組織型学習
→素子を足してゆく

LeNet
4
[LeCun+etal,89]
LeNet-5
[LeCun etal,98]
• 畳み込み＋プーリング：現在も使われている構造
• 誤差逆伝搬法でパラメータを更新
• 手書き文字認識データセット（MNIST）で９９％の精度を達成

ImageNet 6
ImageNet: 1,000カテゴリ，約120万枚の訓練画像データ
[J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei.
ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.]

ImageNetデータにおける識別精度の変遷 7
0
5
10
15
20
25
30
ILSVRC
2010
ILSVRC
2011
ILSVRC
2012
AlexNet
ILSVRC
2013
ILSVRC
2014
VGG
ILSVRC
2014
GoogleNet
Human ILSVRC
2015
ResNet
Classification error (%)
深層学習
ImageNet: 21841クラス，14,197,122枚の訓練画像データ
そのうち1000クラスでコンペティション
8層 8層 19層 22層 152層

諸分野への波及 8
[Litjens, et al. (2017)]
医療分野における「深層学習」
を用いた論文数
医療
- 人を超える精度
（FROC73.3% -> 87.3%）
- 悪性腫瘍の場所も特定
[Detecting Cancer Metastases on
Gigapixel Pathology Images: Liu et
al., arXiv:1703.02442, 2017]
[Niepert, Ahmed&Kutzkov: Learning Convolutional Neural Networks
for Graphs, 2016]
[Gilmer et al.: Neural Message Passing for Quantum Chemistry, 2017]
[Faber et al.:Machine learning prediction errors better than DFT
accuracy, 2017.]
量子化学計算，分子の物性予測
[タオル畳み、サラダ盛り付け「指動く」ロボット初公開,
ITMedia:http://www.itmedia.co.jp/news/articles/1711/30/news089
.html]
ロボット

教師あり学習 9
-猫 (y=1)
-犬 (y=2)
-人間 (y=3)
画像
学習：「関数」をデータに当てはめる
モデル：関数の集合（例：深層NNの表せる関数の集合）

• ☆ReLU (Rectified Linear Unit)：
10
基本的に「線形変換」と「非線形活性化関数」の繰り返し．
𝑥 𝑊1 𝑥 ℎ1(𝑊1 𝑥) 𝑊2ℎ1(𝑊1 𝑥) ℎ2(𝑊2ℎ1 𝑊1 𝑥 )
入力線形変換非線形変換線形変換非線形変換
𝑥 𝑊1 ℎ1 𝑊2 ℎ2 𝑊3 ℎ3
ℎ1 𝑢 = ℎ11 𝑢1 , ℎ12 𝑢2 , … , ℎ1𝑑 𝑢 𝑑
𝑇 活性化関数は通常要素ごとにかかる．Poolingのよ
うに要素ごとでない非線形変換もある．
• シグモイド関数：
深層学習の構造

全結合モデル
• 第ℓ層
11

☆ReLU (Rectified Linear Unit)
12
シグモイド関数
活性化関数の例

13
パラメータ：ネットワークの構造を表す変数
損失関数：パラメータがデータをどれだけ説明しているか
汎化誤差：損失の期待値訓練誤差：有限個のデータで代用
この二つには大きなギャップがある．
[過学習]
本当に最小化したいもの．代わりに最小化するもの．
訓練誤差と汎化誤差
※クラスタリング等，教師なし学習も尤度を使ってこのように書ける．

基本的な考え方
θをパラメータとする確率モデルを考え，各θで観測
データが観測される確率密度(「尤度」)を用いる．
14
：確率モデル
負の対数尤度
尤度
→最小化で観測データを良く表現するパラメータが得られる．
「最尤推定」
尤度が高ければ，観測データが観測される確率が高い→「尤もらしい」
（ベイズ推定も重要だがここでは割愛）

KL-divergence 15
真の分布モデルの分布
サンプル平均で代用
対数尤度最大化はKL-divergence最小化の近似ともみなせる
※AICはKL-divergenceが一番小さくなる予測分布を与えるモデルを選択する規準．
選択されるモデルはサンプルサイズによって変わりうる (bias-variance tradeoff)

回帰 16
正規分布
平均𝑥𝑖
⊤
𝜃, 分散1
線形回帰
→ 二乗損失 (最小二乗法)
モデル：
線形モデルを深層NNモデルにすれば深層NNを用いた最小二乗回帰になる．

（の場合）
判別 17
多値判別 (K値判別)
：実数値の出力を確率に変換
「soft-max関数」
：多項分布の尤度関数
「cross-entropy損失」
[通常，クラス𝑘がラベルなら𝑦 𝑘 = 1かつ𝑦𝑗 = 0 (𝑗 ≠ 𝑘)とする．]
：ロジスティック損失
二値の場合 ( =2)
(予測器)
soft-max + cross-entropy = logistic loss

18
回帰の損失関数
※各損失関数は必ずしも確率モデル
と対応するわけではない

二値判別の損失関数 19
凸代理損失
𝜙が判別一致性をもつ
⇔ 𝜙が原点で微分可能かつ𝜙′(0) > 0
で𝜙が凸の時
定理
判別一致性: 期待リスク最小化元が0-1損失の意味でも最適(Bayes最適)
[Bartlett et al., 2006]

損失関数最小化 20
• 基本的には確率的勾配降下法 (SGD) で最適化を実行
• AdaGrad, Adam, Natural gradientといった方法で高速化
経験損失（訓練誤差）
ℓ 𝑦, 𝑦′ = 𝑦 − 𝑦′ 2
ℓ 𝑦, 𝑦′ = −
𝑘=1
𝐾
𝑦 𝑘log(𝑦 𝑘
′
) Cross-entropy損失（多値判別）
二乗損失（回帰）
min
𝑊
𝐿 𝑊
𝑊 𝑡 = 𝑊 𝑡−1 − 𝜂𝜕 𝑊 𝐿(𝑊)
微分はどうやって求める？ → 誤差逆伝搬法
𝐿 𝑊 =
𝑖=1
𝑛
ℓ(𝑦𝑖, 𝑓(𝑥𝑖, 𝑊))
(𝑦 𝑘 ∈ 0,1 , 𝑦 𝑘
′
∈ 0,1 , ともに和が1)
(𝑦, 𝑦′ ∈ R)

誤差逆伝搬法 21
例：
合成関数
合成関数の微分

22
微分を逆に伝搬
の場合
連鎖律を用いて微分を伝搬
パラメータによる微分と入力による微分は違うが，情報をシェアできる．

23
大きな問題を分割して個別に処理
沢山データがあるときに強力
(Stochastic Gradient Descent)
確率的勾配降下法 (SGD)
重い
普通の勾配降下法：
全データの計算

24
大きな問題を分割して個別に処理
沢山データがあるときに強力
(Stochastic Gradient Descent)
確率的勾配降下法 (SGD)
重い
普通の勾配降下法：確率的勾配降下法：
毎回の更新でデータを一つ(または少量)しか見ない
t=2
t=1
t=3

理論的課題
表現能力 (第一章)
どれだけ難しい問題まで学習でき
るようになるか？
26
汎化能力(第二章)
有限個のデータで学習した時，ど
れだけ正しく初見のデータを正解
できるようになるか？
最適化能力(第三章)
最適な重みを高速に計算機で求め
ることが可能か？

要点のまとめ
• 表現能力
応用上重要な関数は大体近似できる．
重要な関数クラス(Barron, Holder, Sobolev, Besov)
はほぼ最適な効率性で近似できる．
• 汎化能力
データサイズがパラメータ数より小さくても過学習し
ない．
陰的正則化等により，実質的な統計的次元は見た目よ
りずっと小さい→汎化する．
重要な関数クラスの推定精度はミニマックス最適レー
トを達成できる→特徴抽出機能によりカーネル法を優
越．
• 最適化能力
横幅を十分広くとれば大域的最適解が勾配法で求まる．
初期パラメータのスケーリングによってNeural
Tangent KernelとMean fieldの二つの状況に大きく分
けられる．
27

第1章
深層学習の表現能力
28

• 定数
• 𝐼 = [0,1]から𝐼への狭義単調増大連続関数
Kolmogorovの加法定理
任意の連続関数は横幅固定の4層の“ニューラルネット”
で表現できる．
29
が存在して，任意の連続関数𝑓 ∈ 𝐶( 0,1 𝑑
)が次のように表現できる:
なお，𝑔 ∈ 𝐶( 0,1 )は𝑓にのみ依存した関数．
定理 (Kolmogorov’s superposition theorem)
この定理より，任意の連続関数は4層ニューラルネットの最終層だけを
学習すればよいことになる．しかし，gの滑らかさはおよび入力の次元
に強く依存し，最適な学習精度は達成できない．

万能近似能力
30
ニューラルネットの関数近似能力は80年代に盛んに研究された．
年基底関数空間
1987 Hecht-Nielsen 対象毎に構成 𝐶(𝑅 𝑑
)
1988 Gallant & White Cos 𝐿2(𝐾)
Irie & Miyake integrable 𝐿2(𝑅 𝑑
)
1989 Carroll & Dickinson Continuous sigmoidal 𝐿2(𝐾)
Cybenko Continuous sigmoidal 𝐶(𝐾)
Funahashi Monotone & bounded 𝐶(𝐾)
1993 Mhaskar + Micchelli Polynomial growth 𝐶(𝐾)
2015 Sonoda + Murata Unbounded, admissible 𝐿1(𝑅 𝑑
)
は任意のコンパクト集合
なる関数が𝑚 → ∞で任意の関数を任意の精度で近似できるか？
（「任意の関数」や「任意の精度」の意味はどのような関数空間を考えるかに依存）
がシグモイド関数やReLUなら万能性を有する．
参考：園田, “ニューラルネットの積分表現理論”, 2015.

連続関数の近似
• Cybenkoの理論
[Cybenko: Approximation by superpositions of a sigmoidal function.
Mathematics of control, signals and systems, 2(4): 303-314, 1989]
31
活性化関数がシグモイド的 ⇔
定理
活性化関数が連続なシグモイド的関数なら，任意の𝑓 ∈ 𝐶( 0,1 𝑑
)に対し，
任意の𝜖 > 0において，ある𝑔 𝑥 = 𝑗=1
𝑁
𝛼𝑖ℎ 𝑎𝑖 𝑥𝑖 + 𝑏𝑖 用いて，
とできる．
定義

証明の直感的概略
• シグモイド型の関数に対し，
32
が成り立つ．つまり，スケールを適切に選べば，
階段関数をいくらでもよく近似できる．
• 階段関数を近似できれば，それらを足し引きすることで，
cos 𝛼⊤ 𝑥 + 𝛽 や sin 𝛼⊤ 𝑥 + 𝛽 をいくらでもよく近似できる．
• cos, sinが実現できるならFourier(逆)変換もできる．
• 任意の連続関数が近似できる．

積分表現 33
(Sonoda & Murata, 2015)
真の関数有限和近似（３層NN）
• Ridgelet変換による解析（Fourier変換の親戚）
• ３層NNはridgelet変換で双対空間（中間層）に行って
から戻ってくる（出力層）イメージ

積分表現の概略 (Ridgelet変換) 34
ある𝜓: ℝ → ℝが存在して，以下の「許容条件」が成り立つとする：
( 𝜓, 𝜂はFourie変換)
(Ridgelet変換)
(双対Ridgelet変換)
𝑓, 𝑓 ∈ 𝐿1(ℝ 𝑑)の時，許容条件を満たす𝜂, 𝜓に対し以下
がほとんどいたるところの𝑥 ∈ ℝ 𝑑に対して成り立つ:
定理
なお，連続点においては等式が常に成り立つ．
.
つまり，と書ける.
Ridgelet変換
= Radon変換
+Wavelet変換

万能近似理論より三層パーセプトロンでも中間層のユ
ニット数を無限に増やせば任意の関数を任意の精度で近
似できる．
歴史的には後にSVMの理論に繋がってゆく．
(例：Gaussian kernelの万能性)
Q : ではなぜ深い方が良いのか？
A : 深さに対して指数的に表現力が増大するから．
35

表現力と層の数
• 層の数に対して表現力は指数的に上がる．
• 中間層のユニット数 (横幅) に対しては多項式的．
36
折り紙のイメージ
Montufar, Guido F., et al. "On the number of linear regions of deep neural networks." 2014.
NNの“表現力”：領域を何個の多面体に分けられるか？
𝐿：層の数
𝑛：中間層の横幅
𝑛0：入力の次元

多層で得する理由
他にも同様の結論を出している論文多数
37
• 多項式展開，テンソル解析 [Cohen et al., 2016; Cohen & Shashua, 2016]
単項式の次数
• 代数トポロジー [Bianchini & Scarselli, 2014]
ベッチ数(Pfaffian)
• リーマン幾何 + 平均場理論 [Poole et al., 2016]
埋め込み曲率
対称性の高い関数は，特に層を深く
することで得をする．
ℎ(𝑥) ℎ ∘ ℎ(𝑥) ℎ ∘ ℎ ∘ ℎ(𝑥)

多層が得する例 38
𝑥1𝑥2𝑥3
𝑔
𝑥1
2𝑥2
2𝑥3
2
四層 (中間層二層)：O(poly(𝑑 𝑥))ノードで十分
三層 (中間層一層)：Ω(exp(𝑑 𝑥))ノードが必要
まず二乗和𝑥1
2
+ ⋯ + 𝑥 𝑑 𝑥
2
を作ってからgを作用．
(Eldan&Shamir, 2016)
はBessel関数を元に構成
全方向をケアする必要がある
（座標軸方向だけではダメ）
四層三層
(中間層で座標軸方向
だけを見ればよい)

区分線形関数の表現
• 任意の区分線形関数(R 𝑑
→ R)は深さ log2(𝑑 + 1) のReLU-DNNで表現可能
• ある横幅𝑤，縦幅𝑘のReLU-DNNが存在して，それを縦幅
𝑘’(< 𝑘)のネットワークで表現するには横幅𝑘′ 𝑤 𝑘/𝑘′ − 1が必要．
39
𝑘 𝑘’
やはり層の深さに対し指数関数的に表現力が増加
上記のネットワークの例
(Arora et al., 2018)
大きな横幅が必要

有理関数の近似
• 有理関数をReLU-DNNで近似
40
: r次多項式
あるReLU-DNN が存在してノード数と近似誤差が次のように抑えられる：
ノード数近似誤差
をReLU-DNNで近似したい
• ReLU-DNNを有理関数で近似
-層で各層のノード数の任意のReLU-DNN に対しては，
次数と近似誤差が以下で抑えられる有理関数𝑝/𝑞が存在：
次数（分母qと分子pの次数の最大値）近似誤差
深さに対して指数的に増大
• ReLU-DNNを多項式で近似：の次数が必要
→有理関数に比べて表現力が低い

有理関数の近似
• 有理関数をReLU-DNNで近似
41
: r次多項式
あるReLU-DNN が存在してノード数と近似誤差が次のように抑えられる：
ノード数近似誤差
をReLU-DNNで近似したい
• ReLU-DNNを有理関数で近似
-層で各層のノード数の任意のReLU-DNN に対しては，
次数と近似誤差が以下で抑えられる有理関数𝑝/𝑞が存在：
次数（分母qと分子pの次数の最大値）近似誤差
深さに対して指数的に増大
• ReLU-DNNを多項式で近似：の次数が必要
→有理関数に比べて表現力が低い

カーネル法との関係
42

リッジ回帰
• カーネル法のアイディア：
• 機械学習には「内積」が頻繁に現れる．
→ 内積を“工夫”すれば非線形解析ができるはず．
43
• 例：リッジ回帰（Tikhonov正則化）
新しい入力xに対してはで予測．

• リッジ回帰の変数変換版
44
※ 𝑋𝑋⊤
𝑖,𝑗 = 𝑥𝑖
⊤
𝑥𝑗 は𝑥𝑖と𝑥𝑗の内積．
• カーネル法のアイディア
x の間の内積を他の関数で置き換える:
このをカーネル関数と呼ぶ．
カーネル関数の満たすべき条件
• 対称性：
• 正値性：
この条件さえ満たしていればなんでも良い

カーネルリッジ回帰 45
[https://scikit-learn.org/stable/auto_examples/plot_kernel_ridge_regression.html]
線形代数で
非線形な回帰を実現．

再生核ヒルベルト空間 47
集合Ω上の再生核ヒルベルト空間（Reproducing kernel Hilbert space, RKHS) ℋ
とは，Ω 上の関数からなるヒルベルト空間であって, 任意の𝑥 ∈ Ω に対し𝜙 𝑥 ∈ ℋが
存在し,
𝑓 𝑥 = 𝜙 𝑥, 𝑓 ℋ (𝑓 ∈ ℋ)
を満たすものをいう．
定義
• 𝑘 𝑥, 𝑦 ≔ 𝜙 𝑥, 𝜙 𝑦 ℋは正定値対称カーネル関数
• 逆に正定値対称カーネルが与えられたら対応するRKHSが一意に存在
𝑘 𝑥, 𝑦 : 正定値対称カーネル (given)
Ω上の関数からなるヒルベルト空間ℋ𝑘で以下の条件を満たすものが一意に存在：
1. 𝑘 𝑥,⋅ ∈ ℋ𝑘
2. 𝑓 = 𝑖=1
𝑛
𝛼𝑖 𝑘(𝑥𝑖,⋅)なる有限和はℋ𝑘内で稠密
3. 再生成：
𝑓 𝑥 = 𝑘 𝑥,⋅ , 𝑓 ℋ 𝑘
∀𝑥 ∈ Ω, ∀𝑓 ∈ ℋ𝑘 .
定理 (Moore-Aronszajnの定理)

再生核ヒルベルト空間のイメージ 48
• 高次元(無限次元)特徴空間に𝜙で写像して推論を行う．
• 再生核ヒルベルト空間では線形な処理が元の空間では非線形
処理になる．

カーネルリッジ回帰の再定式化 49

カーネル関数の表現力
• Universal kernel
50
𝐶0(ℝ 𝑑
) をℝ 𝑑
上の連続関数𝑓で無限遠点で消える関数の集合とする:
∀𝜖 > 0, {𝑥 ∣ 𝑓 𝑥 ≥ 𝜖}がコンパクト．
あるカーネルに対し，そのRKHSが𝐶0(ℝ 𝑑
)内で一様ノルムに関して
稠密な時，そのカーネルは「𝑐0-universal」であるという．
（∀𝑓 ∈ 𝐶 𝑋 , ∀𝜖 > 0, ∃𝑔 ∈ ℋ𝑘, s.t. 𝑓 − 𝑔 ∞ < 𝜖）
[Sriperumbudur, Fukumizu, Lanckriet: Universality, Characteristic Kernels and RKHS
Embedding of Measures, ICML2010]
と, ある有界連続な𝜓を用いて書けるとき（平行移動不変）
𝑘が正定値対称
ある有限非負測度Λが存在して以下のように書ける
⇔
𝑘が𝑐0-univeral ⇔ Λのサポートが全域: supp Λ = ℝ 𝑑.
ガウスカーネル，ラプラスカーネル，Maternカーネルなどはこれを満たす．
多項式カーネルはuniversalではない．
(Bochner)

ある非負測度𝜈に対して，が成り立つなら，
高々加算個の正実数列 𝜇𝑖 𝑖∈𝐼および𝐿2(𝜈)内の正規直交基底 𝑒𝑖 𝑖∈𝐼が存在して，
と分解できる (各点収束)．
カーネル関数の分解とRKHSの表現
• カーネル関数は対象行列の対角化に対応する分解を許す．
51
• このような分解は他にもいろいろとバージョンがある, e.g., Mercer展開．
（詳細は[Steinwart&Scovel: Constructive Approximation, 35(3):363—417, 2012] ）
• さらに 𝜇𝑖 𝑒𝑖 𝑖∈𝐼
はRKHS内の正規直交基底になる．
定理

カーネル回帰の再定式化 52
カーネル法は
• 中間層が無限次元RKHS
• 第一層は固定
• 第二層を学習
であるニューラルネットに対応
特徴抽出層はカーネル
関数によって定まって
いる．
係数はデータから学習

カーネル法と深層学習の関係
深層学習とカーネル法の違い：
• 第一層(特徴抽出機)も学習するのが深層学習
• 第一層は固定するのがカーネル法
→ この違いが学習法の“適応力”に影響 (後述)
Multiple Kernel Learning
• データに合わせてカーネル関数も学習する方法
• ILSVRCでは2011年までMKLが一位
53

Multiple kernel learning 54
𝑀𝑛−
1
1+𝑠 𝑑𝑛−
1
1+𝑠 +
𝑑log 𝑀
𝑛
非スパース
な方法 MKL
もし𝑀 ≫ 𝑑 (スパース)なら, MKLは大きく得をする．
カーネル関数の凸結合 L1-正則化
[Lanckriet et al., 2004; Bach et al., 2004]
MKLの
代表的定式化

深層NNとカーネル関数 55
𝒌ℓに対応した再生核ヒルベルト空間
(より正確には同じを与えるの中でを取る)

• 深層学習は各層でカーネル関数を逐次的に構築
する学習方法であるとも言える．
• データから適応的にカーネル関数を学習する点
が通常のカーネル法と異なる．
56

第2章
深層学習の汎化誤差
57

• 深層学習の汎化誤差において，
「Overparameterization」
は特に重要な問題である．
58
[Neyshabur et al., ICLR2019]
パラメータ数 ≫ サンプルサイズ
通常のVC次元を用いた解析では説明不能
訓練誤差が0になるくらいパラメータ数を増やしてもなお汎化誤差が減り続ける．
[Zhang et al.: Understanding deep learning requires rethinking generalization. ICLR2017.]

通常の学習理論 59
(古典的)バイアス-バリアンスのトレードオフ
cf., AIC, BIC, MDL

過学習 60
現象を説明できる範囲で
なるべく単純なモデルを当てはめるべき
適度にデータに当てはまるモデルが良い
過学習している過学習していない
説明力が高い（複雑）説明力が低い（単純）
良い学習結果悪い学習結果

Double-descent (二重降下) 61
• モデルがある複雑度 (サンプルサイズ) を超えた後，第二の降下が起きる．
• モデルサイズがデータより多いと推定量のバリアンスがむしろ減る．
※設定によるので注意が必要．
“新しい”バイアス-バリアンスのトレードオフ

線形回帰における二重降下 62
• Hastie et al.: Surprises in High-Dimensional Ridgeless Least Squares Interpolation,
arXiv:1903.08560.
• 線形回帰を考察
• 最小ノルム解：
• 期待予測誤差：
期待予測誤差は以下の値に𝑛, 𝑑 → ∞, かつ 𝑑
𝑛 → 𝛾 ∈ (0, ∞)の極限で概収束する:
バリアンスバイアス
定理

63
注意：
• 次元が大きくなると真の関数も変化している設定．
• 単なる線形回帰なので第一層も学習する深層学習とは異なる．
直感：
• 次元(d)>サンプルサイズ(n)だとデータの張る部分空間は全体の一部
→実質的自由度がdより低く，バリアンス小

Implicit regularization (陰的正則化) 64
• ニューラルネットワークの学習では様々な「陽的正則化」を用いる：
バッチノーマリゼーション，Dropout，Weight decay，...
• 実は深層学習の構造が自動的に生み出す「陰的正則化」も強く効いて
いるという説．
例：線形ネットワーク
(L2正則化学習)
任意の局所最適解は低ランクになる：
モデルの複雑さが大幅に削減されている．
※ 非線形活性化関数がある場合は完全には解明されていない（論文は多数）
(見た目のパラメータ数) 𝐿𝑊2→ 2𝑊 (実質的パラメータ数)

勾配法と陰的正則化
• 小さな初期値から勾配法を始めるとノルム最小
化点に収束しやすい→陰的正則化
65
[Gunasekar et al.: Implicit Regularization in Matrix Factorization, NIPS2017]
[Soudry et al.: The implicit bias of gradient descent on separable data. JMLR2018]
[Gunasekar et al.: Implicit Bias of Gradient Descent on Linear Convolutional Networks, NIPS2018]
初期値
（原点付近）
解集合
最も「単純な」解
勾配法による最適化

• 汎化ギャップ
67
: 損失関数 (1-Lipschitz continuous w.r.t. 𝑓)
経験誤差 (訓練誤差) 期待誤差 (汎化誤差)
任意の 𝑓 ∈ ℱに対して成り立つ一様バウンドが欲しい:
E.g., Rademacher 複雑度:

一様バウンドの必要性 68

“たまたま” うまくいくやつがいる(過学習) かもしれない．
実際，モデルが複雑な場合収束しない例が存在．

一様なバウンドによって「たまたまうまくいく」が(ほとんど) ないことを保証
(経験過程の理論)

Rademacher複雑度 71
が確率1 − 𝑒−𝑡で成り立つ．
𝑀 ≔ sup
𝑔∈𝒢
𝑔 ∞とすると，
𝑔 = 𝜓 𝑦𝑖, 𝑓(𝑥𝑖) とすれば汎化誤差のバウンドを得る.
• Rademacher複雑度:
Rademacher複雑度の評価方法：カバリングナンバー，Dudley積分，VC-次元

Covering number (被覆数)
• Covering number:
距離𝑑 で定まる半径 𝜖 のボールでℱを覆うために必
要な最小のボールの数
72
ℱ が次元パラメトリックモデルなら，典型的には以下が成り立つ．
c.f., VC-dimension.
log(𝒩(ℱ, 𝑑, 𝜖)) は“メトリックエントロピー” とも呼ばれる．

Dudley積分 73
• Dudley積分 (chaining)
Covering number
• 有限個の元でℱを近似する．
• その解像度を細かくしていって，
似ている元をまとめ上げてゆく
イメージ．

VC次元 74
（分布によらない）
ℱが指示関数の集合ではない場合も，関数のレベルセットを考えるVC-サブグラ
フクラスが定義でき，同様のバウンドを得る．

その他の技法
• Talagrand’s concentration inequality
75
Talagrand (1996); Ledoux (1997); Rio (2001,2002); Bousquet (2002)
非常に強力．局所Rademacher複雑度を導出するのに利用．

深層学習の汎化誤差バウンド 76
Norm based bound
Compression based bound
Naïve bound

Naïve bound (VC-bound) 77
?
VC-次元によるRademacher 複雑度
のバウンド
[Harvey et al. 2017]
☹ パラメータ数 ℓ=1
𝐿
𝑚ℓ 𝑚ℓ+1が直に現れてしまう．
☹ よってoverparameterizeされたネットワークの汎化誤差は説明できない.

Norm-based bound
• Golowich et al. (2018)
78
NNモデル:
横幅に依存しない.
: Frobeniusノルム
縦幅に指数的に依存する場合がある.☹
☺
• Bartlett et al. (2017): 正規化マージンバウンド
(最大特異値)
(𝑅ℓ,2より大きい)

実際に学習されたネットワークに対してはノルム
型バウンドはあまりタイトではないという報告も
ある．
79
[Arora et al. 2018]

Compression based bound 80
学習済みネットワーク圧縮したネットワーク
Good for
Bias Variance
圧縮可能 = “単純”
𝑚ℓ 𝑚ℓ
#

81
[Arora et al.: Stronger generalization bounds for deep nets via a compression approach, ICML2018]
レイヤークッション𝜇ℓ: データ由来のシグナルがランダムノイズに比べてどれだ
け伝搬しやすいかを測った量．
ランダムノイズが伝搬する量
層を重ねるごとに減衰している

問題点
• 先の圧縮バウンドは「圧縮したネットワークの
汎化誤差」しか保証しない．
• もとのネットワークの汎化誤差については何も
評価を与えていない．
→ 「非圧縮ネットワークへの圧縮バウンド」
82

Naïve evaluation (difficulty) 83
Complexity of
compressed networks
(small)
Bias Variance
𝜓 is 1-Lipschitz continuous.
(large)Very slow rate: 𝑂(1/𝑛1/4
)
• Original network size appears to bound the difference.
• Navie evaluation give 𝑛−1/4 convergence rate (very slow).
Difficulty

84
𝑓 ∈ ℱ
𝑓# ∈ ℱ#
Compress
ℱ: set of trained net
ℱ#
: set of compressed net
: data dependent!

General compression based bound 85
with probability at least 1 − 𝑒−𝑡
.
: local Rademacher complexity
: fixed point of local Rad.
Trained network 𝑓 can be compressed to smaller one 𝑓#.
( 𝑓 ∈ ℱ, 𝑓#
∈ ℱ#
; ℱ is a set of trained net, ℱ#
is a set of compressed net.)
:compression scheme can be data dependent.
(This assumption restricts training procedure too)
•
•
•
Theorem (compression based bound for the original net)
Fast part (O(1/n)) Main part (O(1/ 𝒏))
bias variance
[Suzuki, 2019]

Compression bounds for
non-compressed network
with low rank properties
86

Relation between bounds 87
Low rank
of cov. matrix
[Suzuki et al. 2018]
Low rank
of weight matrix
[Arora et al. 2018]
Sparse
[Baykal et al. 2018]

Singular value distribution 88
[Martin&Mahoney: Traditional and Heavy-Tailed Self Regularization in Neural Network Models. arXiv:1901.08276]
Random initialization After some epoch training
After several epoch training Over regularized
Singular value distribution of weight matrix
Eigenvalues shift
around 0.

Near low rank covariance 89
Distribution of eigenvalues of the covariance matrix
in an internal layer
9-th layer in VGG-13 trained on CIFAR-10
Many small eigenvalues
Output from
internal layer
Few large eigenvalues
Eigenvalue index
Magnitudeofeigenvalue

Near low rank weight and covariance 90
• Near low rank weight matrix:
•
• Both of weight and covariance
are near low rank
Theorem
•
where .
VC-bound:
Quadratic
(ℓ-th layer)

Comparison with Arora et al. 91
Comparison of intrinsic dimensionality between our degree of freedom and that in
Arora et al. (2018). They are computed on VGG-19 network trained on CIFAR-10.
larger smaller
3

各種関数クラスと
深層学習の近似/推定理論
92

非線形回帰問題 93
非線形回帰モデル
ただし，𝜉𝑖 ∼ 𝑁(0, 𝜎2)かつ𝑥𝑖 ∼ 𝑃𝑋(𝑋) (i.i.d.).
𝑓oをデータ 𝑥𝑖, 𝑦𝑖 𝑖=1
𝑛
から推定したい．
※ 以下の理論は判別問題でも展開可能

バイアスとバリアンスのトレードオフ 94
推定精度 (汎化誤差)
推定精度 = バイアス (モデル誤差) + バリアンス (分散)

重要な関数クラス
• Barronクラス
• Hölderクラス
• Sobolevクラス
• Besovクラス
95
真の関数が各クラスに含まれているときに
近似誤差はどれくらいになるか調べたい．

各種関数クラスのノルム
• Barronクラス [Barron 1991, 1993]
96
(Fourier変換)
• Hölderクラス (𝒞 𝛽)
• Soblevクラス (𝑊𝑝
𝑘) ( は自然数)
(高い周波数成分は少ない)

Barronクラスの汎化誤差
97
仮定：
(Fourier変換)
三層ニューラルネットワークのある種の正則化推定
量 𝑓が存在して次を満たす：
三層ニューラルネットワークの汎化誤差 (Barron 1991, 1993)
𝑓
活性化関数の条件： (MDL, PAC-Bayes的解析)
(例： )

Sobolevクラスの近似理論 98
𝜂がある開区間で無限回微分可能であり，その開区間のある点𝑏において
𝜕 𝑘
𝜂
𝜕𝑥 𝑘
𝑏 ≠ 0 (∀𝑘 ∈ ℤ, 𝑘 ≥ 0)
とする．すると，∀𝑓 ∈ 𝑊𝑝
𝑠
( 0,1 𝑑
)に対してある𝑔 ∈ Π 𝑁が存在して，
𝑓 − 𝑔 𝑝 ≲ 𝑁−
𝑠
𝑑 𝑓 𝑊𝑝
𝑠
定理
(ノード数𝑁の中間層を用いた近似誤差)
• この近似誤差は𝑁個の基底を用いた近似法の中で最適なオーダーを達成．
• シグモイド関数は条件を満たす．ReLUは満たさない．
• 滑らかな関数はより近似しやすい．
[Mhaskar: Neural networks for optimal approximation of smooth
and analytic functions. Neural Computation, 8(1):164–177, 1996]
中間層の横幅が𝑁の
二層ニューラルネットワーク

各種関数クラスの近似・推定理論
by ReLU-DNN
99

Hölderクラスの近似 (Yarotsky, 2016) 100
• 二次関数の構成
２次関数の近似
ℎ(𝑥)
ℎ ∘ ℎ(𝑥)
ℎ ∘ ℎ ∘ ℎ(𝑥)
層を重ねることで指数的に誤差が減少
これが全ての基本
層の数，横幅，ユニット数：
中間層１層の場合：改善（多項式オーダ→logオーダ）
(Telgarsky, 2015)

多項式の構成
• 二次関数→掛け算
• 掛け算→多項式
→ 滑らかな関数の近似に利用
101
（足し算はReLUで実現可能）
（二次関数から構成した
掛け算を繰り返し適用）
（足し算と合わせて多項式を構成）

Hölderクラスの構成 102
次多項式
滑らかな関数のクラス（Holder class）
• 滑らかな関数の局所的近似（テイラー展開）
• 全体の近似
1の分割
(Yarotsky, 2016; Liang&Srikant, 2017)

近似誤差と推定誤差
• パラメータ数と近似誤差
103
領域分割の数分割ごとのパラメータ数
横幅：縦幅：のネットワークに埋め込める
深層学習の汎化誤差（Schmidt-Hieber, 2017）
縦幅𝐿 = O(log(𝑛))，横幅𝑤 = O(𝑛
−
𝑑
2𝛽+𝑑log(𝑛))，非ゼロ要素𝑠 = O(𝑛
−
𝑑
2𝛽+𝑑log(𝑛))
縦幅，横幅，非ゼロパラメータ数
の深層NNモデルの集合
バリアンスバイアス
でバランス
ミニマックス
最適レート
：

補足
• ３層NNは𝛽 = 2までしか最適レートを達成しない．
• 横幅を広げることで縦幅をnに依存しない定数にする
ことも可能．
• 関数の合成𝑓 = 𝑔1 ∘ 𝑔2を考えることで，以下のモデル
も表現できる．
• テンソル積モデル
• 一般化加法モデル
• 同様の議論を拡張することで区分滑らかな関数の推
定も可能 (最適性も示せる) (Petersen&Voigtlaender, 2017;
Imaizumi&Fukumizu, 2018)
• 浅層ネットワークのパラメータ数の下界も知られている
(Liang&Srikant, 2017)
104

• なぜ多層が良いか？
• より踏み込んだ議論をしたい．
105

多層が得する例(1) 106
𝑥1𝑥2𝑥3
𝑔
𝑥1
2𝑥2
2𝑥3
2
３層 (中間層２層)：O(poly(𝑑 𝑥))ノードで十分
２層 (中間層１層)：Ω(exp(𝑑 𝑥))ノードが必要
2
+ ⋯ + 𝑥 𝑑 𝑥
2
３層２層

多層が得する例(２) 107
区分的滑らかな関数の推定は深層学習が良い (Imaizumi & Fukumizu, 2018):
ただし，𝑅 𝑘は滑らかな境界を持つ領域でℎ 𝑘は滑らかな関数.

何が重要か？簡単な例
• 縮小ランク回帰
108
ただし，かつ．
「非凸性」が重要 → スパース性
推定精度の比較

議論を一般化
• 対象とする関数のクラスを一般化：
Hölder空間→Besov空間
• 滑らかさが空間的に非一様
• 有界変動関数を含む（不連続）
深層学習が線形推定量を優越
• 次元の呪い
• HölderやBesovでの推定は次元の呪いを受ける
• mixed-smoothnessを仮定して次元の呪いを回避
109
深層学習の高い適応力

なぜ深層学習が良いのか？ 110
[Suzuki: Adaptivity of deep ReLU network for learning in Besov and mixed smooth Besov spaces:
optimal rate and curse of dimensionality. ICLR2019]
急な変化に対応させようとすると必要以上にモデルが複雑に. → 過学習.
滑らかな部分を重視すると急な変化に対応できない. → 過小学習.
“適応力” が重要
Theorem
深層学習はBesov空間(𝐵𝑝,𝑞
𝑠 )の元を推定するのに
ミニマックス最適レートを達成する．
(複雑な関数形状に適応的にフィットすることができる)
機械学習では様々な形状をした複雑な関数が現れる
急な変化不連続点
難しい易しい
全体的に滑らか

収束レートの比較 111
≫
(𝑛: sample size，𝑝:uniformity of smoothness，𝑠：smoothness)
細かい荒い荒い一様な粒度
線形推定量深層学習
e.g., カーネルリッジ回帰:
線形推定量 (浅い学習)
非最適
深層学習
最適
cf. Imaizumi&Fukumizu (2018)

直感 112
係数基底
事前に設定: 非適応的手法
カーネルリッジ回帰, ....
推定する: 適応的手法
深層学習, スパース推定, ....
Adaptive method
(deep)
スパース推定との違い：
• スパース:
あらかじめ用意した多数の基底の中から重要な
基底を選択
• Deep:
直接的に基底を構築する

空間的非一様性
滑らかさの度合い
Hölder, Sobolev, Besov空間 113
0

• 直感：
• 非整数回の微分も定義したい．
• 整数回微分を“つなげる”→実補間
• はそのつなげ方を制御
• で関数の滑らかさを制御
• で滑らかさの空間的一様性を制御
114

116
• 連続関数の領域：
• 𝐿𝑟-可積分な領域：
• 例：

• 不連続な領域
118
• 滑らかさが非一様的な場合：𝑝が小さい状況
これらの性質にも関わらず深層学習は良い学習ができるか？

スパース性との関係 119
スパースな係数→空間的な滑らかさの非一様性（非凸モデル）
k=0
k=1
k=2
k=3
Resolution j=1
j=1 j=2
j=1 j=2 j=3 j=4
𝛼0,1
𝛼1,1 𝛼1,2
𝛼2,1 𝛼2,4𝛼2,3𝛼2,2

深層学習のモデル
• 活性化関数はReLUを仮定
120
• 縦幅：
• 横幅：
• 枝の数：S
• 各パラメータの上限：
の深層NNモデルの集合

関数近似能力 121
ある自然数Nと用いて深さ , 横幅 , 枝の数 , ノルム上界を以下のように定める：
深層ニューラルネットワークの近似誤差
すると，深層NNは以下の誤差でBesov空間の元を近似できる：
(𝐿𝑟
-可積分性)
• 0 < 𝑝, 𝑞, 𝑟 ≤ ∞と0 < 𝑠 < ∞が以下を満たすとする:
• を𝑠 < min{𝑚, 𝑚 − 1 + 1/𝑝}を満たす整数とする．
大体パラメータ数
Petrushev (1998): 𝑝 = 𝑟 = 2, ReLU活性化関数ではない (𝑠 ≤ 𝑘 + 1 + (𝑑 − 1)/2)．
Pinkus (1999), Mhaskar (1996): 𝑝 = 𝑟かつ1 ≤ 𝑝, ReLU活性化関数ではない．

B-spline 122
次数のcardinal B-spline:
→ 区分多項式

Cardinal B-splineによる展開 (DeVore & Popov, 1988)
• Atomic decomposition:
123
𝑓 ∈ 𝐵𝑝,𝑞
𝑠 の必要十分条件:
と分解できて
(ただし， )
• ノルムの同値性：各B-spline基底をNNで近似
(see also Bolcskei, Grohs, Kutyniok, Petersen: Optimal Approximation with Sparsely Connected Deep Neural Networks. 2018)

基本戦略
• 真の関数𝑓∘
が次のように展開できるとする:
• 各基底関数𝜙 𝑘,𝑗をReLU-NNでよく近似できるな
ら，𝑓∘も良く近似できる．
• Cardinal B-splineはReLU-NNでよく近似でき
る: log(1/𝜖)層で近似誤差𝜖を達成する．
• B-splineに関する定理を深層学習に持ち込める．
→ Besov空間に限らない理論を展開可能
124
[Bölcskei et al.: arXiv:1705.01714]

比較 125
なる仮定のもとで
• 𝑝 = 𝑞 = ∞の時，Yarotsky (2016) の結果に帰着 (Hölder空間)
• 適応的な非線形近似が必要 (Dung, 2011)
線形近似 (Linear width)：
非適応的近似（N-term approx., Kolmogorov width）：
Hölder空間では現れない性質
• 深層NNの適応能力
特徴量の適切な抽出
𝑝 ≠ 𝑟が重要
小さな𝑝

バイアスとバリアンス分解 127
• これまで示したこと：バイアス（近似誤差）
• これから示すこと：経験誤差最小化のバリアンス

128
なら
深さ横幅スパース性
(非零パラメータ数)
各パラメータの絶対値の上界
⇒ バイアスとバリアンスのトレードオフをバランスすればよい．

推定精度
• 最小二乗解 (訓練誤差最小化)
129
ただし， (clipping)．
かつのとき，
とすることで，
定理 (推定精度)
𝑝 = 𝑞 = ∞のとき，Schmidt-Hieber (2017) に帰着．
,

他手法との比較
• 線形推定法
(カーネルリッジ回帰，Sieve法，Nadaraya-Watson推定量...)
130
(d=1の時)
• 深層学習
(Donoho & Johnstone, 1994)
が小さい ( <2) と深層学習が優越
→ 空間的に滑らかさが非一様な時
（深層学習の適応性「基底の学習・非凸性」）
𝑝 < 2で差が出る
c.f., 不連続関数の例：Imaizumi&Fukumizu, 2018.

Why does this difference happen? 131
[Hayakawa&Suzuki: 2019][Donoho & Johnstone, 1994]
さらに条件を仮定すれば「Q-hull」まで拡張できる．

132
David Donoho: ガウス賞 (2018)
スパース推定，wavelet-shrinkage，圧縮センシング，...

その他の例 133
→ 凸包は有界変動関数のクラスを含む．
深層学習： O
1
𝑛
𝐾個のジャンプしかない (スパース).
[Hayakawa&Suzuki: arXiv:1905.09195, 2019.]

スパースな関数クラス 134
0 < p < 1 の時，DLは線形推定量を優越する:
𝛼 =
1
𝑝
−
1
2
, とし𝛽は 𝛽 < 2𝛼を満たすとする．
𝑛−𝛽/(𝛽+1)
(0 < 𝛽 can be arbitrary small)
(sparse)

例 (1) 135
where 𝑅 𝑘 is a region with smooth boundary and ℎ 𝑘 is a smooth function.
(Schmidt-Hieber, 2018)
is a univariate smooth function.
• Low dimensional feature extractor
• Piece-wise smooth function (Imaizumi & Fukumizu, 2018)
 Deep is better than a kernel method (linear estimator).
Deep Shallow (linear)
: suffers from curse of dim.
Dim. reduction

例 (2)
• Reduced rank regression
136
where and ．
Comparison of accuracy
Low rank: non-convex
Convex hull of the low rank model is full-rank.
(LS, Ridge reg)

Mixed-smooth Besov空間
• Besov空間での推定：
→ 次元の呪い
• Besov空間のテンソル積空間
138
𝑝 ≠ 𝑞に拡張可能: Sickel and Ullrich (2009), Dung (2011).

例 140
• 加法モデル
• テンソルモデル
は十分滑らか．,

推定精度
• 最小二乗解 (訓練誤差最小化)
141
ただし， (clipping)．
かつのとき，
とすることで，
定理 (推定精度)
と比べて次元の影響が小さい → 次元の呪いを解消
ほぼミニマックス最適

142
(figure is borrowed from Montanelli & Du (2017))
スパースグリッド：𝑁 = 2 𝑀 𝑀 𝑑−1
デンスグリッド：𝑁 = 2 𝑀𝑑

特徴抽出器 143
Mixed-smooth Besov
次元
（低次元特徴）
( 次元)

多層が得する例 (再掲) 144
𝑥1𝑥2𝑥3
𝑔
𝑥1
2𝑥2
2𝑥3
2
四層 (中間層二層)：O(poly(𝑑 𝑥))ノードで十分
三層 (中間層一層)：Ω(exp(𝑑 𝑥))ノードが必要
2
+ ⋯ + 𝑥 𝑑 𝑥
2
四層三層

ResNetのODE解釈 147
ResNetの各層は特徴の最適化の一反復，常微分方程式の離散化とみなせる．
𝐹𝑗
+
ℎ𝑗
人間
5.1
ResNet
[E, 2017][Sonoda & Murata, 2017][Li & Shi, 2017]
ResNetと常微分方程式をつなげることで
常微分方程式の数値解法をネットワーク
構造の決定に持ち込める．
→ PolyNet, FractalNet, RevNet, Linear-
Multistep-ResNet, ...
[Lu et al.: Beyond Finite Layer Neural Networks:
Bridging Deep Architectures and Numerical Differential
Equations, ICML2018]

ODE-Net 148
ResNet
ODE-Net
連続化
• 層を連続化することですべての層が一つのネットワークに集約される．
• ODEにすることで汎用ODEソルバーを適用できる．
 入力点に応じて離散化の粒度を変えられる．（層の概念がもはやない）
[Chen et al. Neural ordinary
differential equations.
NeurIPS2018 Best Paper.]
この方向性は現在「流行っている」
しかし，ODE的観点が汎化性能等の意
味で本当に意味があり有用であるかは
慎重な考察が必要である．

ResNet型勾配ブースティング法
149
[Nitanda&Suzuki: Functional Gradient Boosting based on Residual Network Perception. ICML2018]
[Nitanda&Suzuki: Gradient Layer: Enhancing the Convergence of Adversarial Training for Generative Models. AISTATS2018]

ResNetと勾配ブースティング法の類似性
• Residual Network
スキップコネクションを持つ巨大な深層ニューラルネットワーク．
画像認識タスク等でSOTA．
• 勾配ブースティング (XGBoost, LightGBM)
予測器についての関数勾配によるブースティング法 (アンサンブル学習法)．
データマイニング系のコンペティションで最も有用とされるモデル．
ResFGB=両者の関連性に着目したブースティング法
150
[ Veit, Wilber, &Belongie 2016, Littwin & Wolf 2016, Weinan 2017, Haber, Ruthotto, & Holtham 2017,
Jastrzebski, Arpit, Ballas, Verma, Che, & Bengio 2017, Chang, Meng, Haber, Tung, and Begert 2017. etc ]
𝐹𝑗
+
ℎ𝑗
1層加える=勾配法1反復
𝑥 𝑦
層を重ねるごとに目的関数を減少
(関数空間での無限次元勾配法)

ResFGB: ResNet型勾配ブースティング法
• ResNetの特性を備えた勾配ブースティング法
min
𝜙,𝑊
ℒ 𝑛 𝜙, 𝑊 = 𝔼 𝑥,𝑦 𝑙 𝑊⊤
𝜙 𝑥 , 𝑦 .
特徴写像𝜙についℒ 𝑛 𝜙 = min
𝑊
ℒ 𝑛 𝜙, 𝑊 の関数勾配を用いた最適化.
151
[Nitanda&Suzuki: Functional Gradient Boosting based on Residual Network Perception. ICML2018]
(識別問題の経験損失)
ℎ = 𝜙(𝑥)の空間
𝐷 = {𝜙 𝑥 , 𝑦}の分類平面
関数勾配𝛻 𝜙ℒ 𝑛 𝜙 : 訓練データの特徴 𝜙(𝑥)の線形分類
可能性を向上させるための方向の群れ．
未知データに適用するには平滑化が必要．
→ カーネル𝑘 𝑥, 𝑥′
= 𝜄 𝜙 𝑥
⊤
𝜄 𝜙 𝑥′
で畳み込む．
𝜄はNNで十分な降下方向を与えるよう学習．
𝑇𝑘 𝛻 𝜙ℒ 𝑛 𝜙 = 𝔼 𝑥,𝑦 𝛻 𝜙ℒ 𝑛 𝜙 𝑥 𝜄 𝜙 𝑥
⊤
𝜄 𝜙 ⋅
残差ブロック：平滑化された関数勾配．
作り方から直交しない限り常に損失関数の降下方向．
ResFGBの概要
勾配ブースティングの一反復=ResNetの層追加．
関数空間での最適化の観点からマージン分布の最小化を示せる．
→ 新しい勾配ブースティングの理論に基づいた汎化保証付き深層ResNetの学習．

提案手法ResFGBの数値実験 152
中〜大規模データでの多値識別問題．以下の手法と比較．
Random Feature + SVM, Random Forest, Gradient Boosting (LightGBM)
提案手法
SOTAとされるLightGBM以上の精度を確認．
幾つかのデータでは数反復で収束．通常の勾配ブースティングより効率的な最適化．
↑関数勾配の平滑化の仕方の差異による．

第３章
深層学習の最適化
153

154
深層学習における最適化
勾配降下法
(確率的) 勾配降下法：
GD
SGD

局所最適解や鞍点にはまる可能性あり
155
局所最適解大域的最適解局所最適解＝大域的最適解
凸関数
問題点
目的関数が非凸関数
臨界点

局所最適性
• 深層NNの局所的最適解は全て大域的最適解：
Kawaguchi, 2016; Lu&Kawaguchi, 2017.
※ただし対象は線形NNのみ．
156
大域的最適解
局所的最適解
深層学習の目的関数は非凸
→ 臨界点が大域的最適解であることの条件も出されている
(Yun, Sra&Jadbabaie, 2018)
• 低ランク行列補完の局所的最適解は全て大域的最適解：
Ge, Lee&Ma, 2016; Bhojanapalli, Neyshabur&Srebro, 2016.

まずはいくつかの各論を紹介
157

３層NN-非線形活性化関数-
二層目の重みを固定する設定
• Li and Yuan (2017): ReLU，入力はガウス分布を仮定
SGDは多項式時間で大域的最適解に収束
学習のダイナミクスは2段階
→ 最適解の近傍へ近づく段階 + 近傍での凸最適化的段階
• Soltanolkotabi (2017): ReLU，入力はガウス分布を仮定
過完備 (横幅>サンプルサイズ）なら勾配法で最適解に線形収束
(Soltanolkotabi et al. (2017)は二乗活性化関数でより強い帰結)
• Brutzkus et al. (2018): ReLU
線形分離可能なデータなら過完備ネットワークで動かしたSGDは
大域的最適解に有限回で収束し，過学習しない．
(線形パーセプロトロンの理論にかなり依存)
158
Li and Yuan (2017): Convergence Analysis of Two-layer Neural Networks with ReLU Activation.
Soltanolkotabi (2017): Learning ReLUs via Gradient Descent.
Brutzkus, Globerson, Malach and Shalev-Shwartz (2018): SGD learns over parameterized networks that provably generalized
on linearly separable data.
固定こちらのみ動かす
(Tian, 2017; Brutzkus and Globerson, 2017; Li and Yuan, 2017; Soltanolkotabi, 2017;
Soltanolkotabi et al., 2017; Shalev-Shwartz et al., 2017; Brutzkus et al., 2018)

３層NN-非線形活性化関数-
二層目の重みも動かす設定
• Du et al. (2017): CNNを解析
勾配法は局所最適解があっても非ゼロの確率で回避可能
→ ランダム初期化を複数回行えば高い確率で大域解へ
ガウス入力を仮定
• Du, Lee & Tian (2018): CNN，vj固定だが非ガウス入力で大域的
最適解への収束を保証．
159
学習ダイナミクスとセットで議論
両方動かす
その他のアプローチ
• テンソル分解を用いた大域的最適性の議論: Ge, Lee & Ma (2018).
• カーネル法的解釈+Frank-Wolfe法による最適化：Bach (2017)．
Du, Lee, Tian, Poczos & Singh (2017): Gradient Descent Learns One-hidden-layer CNN: Don’t be Afraid of Spurious
Local Minima.
Du, Lee, Tian (2018): When is a convolutional filter easy to learn?
Ge, Lee & Ma (2018): Learning one-hidden-layer neural networks with landscape design.
Bach (2017): Breaking the Curse of Dimensionality with Convex Neural Networks.
※細かい強い仮定が置
かれているので文章か
ら結果を鵜呑みにでき
ないことに注意．

非凸最適化一般論
• ある条件を満たす最適化法はほとんど確実に鞍点に
はまらない
 安定多様体を用いた議論
Strict Saddleの仮定 (やや強い)
勾配法，鏡像降下法，近接点法，
座標降下法等は条件を満たす．
• 非確率的勾配法は鞍点にはまると抜け出すのに次元
に関して指数時間かかる．
• わざとノイズを乗せることで鞍点から抜けられる．
SGD, 加速法などに適用可
160
Lee, Panageas, Piliouras, Simchowitz, Jordan, Recht (2017): First-order Methods Almost Always Avoid Saddle Points.
Lee, Simchowitz, Jordan, Recht (2016): Gradient Descent Only Converges to Minimizers.
Du, Jin, Lee, Jordan, Poczos, Singh (2017): Gradient Descent Can Take Exponential Time to Escape Saddle Points.
Jin, Ge, Netrapalli, Kakade, Jordan (2017): How to Escape Saddle Points Efficiently.
Jin, Netrapalli, Jordan: Accelerated Gradient Descent Escapes Saddle Points Faster than Gradient Descent.
Fig. by Staadt, Natarajan, Weber, Wiley, Hamann (2007)

鞍点回避の方法 161
加速勾配法
鞍点にはまっていそうならノイズを乗せて脱出
凸っぽくなければある方法で降下方向を発見
Jin, Ge, Netrapalli, Kakade, Jordan (2017): How to Escape Saddle Points Efficiently.
Jin, Netrapalli, Jordan: Accelerated Gradient Descent Escapes Saddle Points Faster than Gradient Descent.
• 単純な勾配法への適用
• 加速勾配法への適用
ノイズを乗せるだけ
（鞍点脱出）
(普通の勾配法)

SGLD
• Stochastic Gradient Langevin Dynamics
162
GLD:
SGLD:
Stochastic
離散化
定常分布：
回の更新で大域的最適解との誤差がε以下
(w.h.p.)
[Xu et al., arXiv:1707.06618]定理 Fの適当な条件のもと (非凸でOK), GLDは
(Langevin dynamics)
(滑らか，散逸的)
[Welling and Teh, 2011]
SGLDも多項式時間で収束．
(Euler-Maruyama scheme)

より整理された最近の理論を紹介
163

二層NN最適化の重要事項
• Overparameterization
Neural Tangent Kernel (NTK)
Mean-field regime
→ 横幅を広くとったNNは勾配法で大域的最適
解を求めやすい．
• 勾配流 (Gradient flow)
→ NNのパラメータの学習は「パラメータの分
布」を学習していると解釈できる．
→ 確率測度の収束解析を援用
(Langevin dynamics, Wasserstein gradient flow)
164

Over-parametrization
• 横幅が広いと局所最適解が大域的最適解になる．
165
横幅を十分広くとってランダム初期化すれば，
経験誤差0の解へ線形収束する．
[Du et al., 2018; Allen-Zhu, Li & Song, 2018; Li & Liang, 2018]
• 横幅が十分広いと最適解の近くに初期値が来る．
• 目的関数が凸的になる．
誤差 ≤ 𝐶′exp(−𝑐𝑇)

二つのスケーリング
• Neural Tangent Kernel regime (lazy learning )
 𝑎𝑗 = O(1/ 𝑀)
• Mean field regime
 𝑎𝑗 = Ο(1/𝑀)
166
初期化のスケーリングによって，初期値と比
べて学習によって動く大きさの割合が変わる．
→ 解析の難しさ，汎化性能に影響

Neural Tangent Kernel
• 簡単のため連続時間で考える．
167
𝑘 𝑊(𝑥, 𝑥𝑖)
Neural Tangent Kernel
(勾配降下)
モデル：
(関数勾配)
• 𝑎𝑗は固定
• 𝑤𝑗を動かす
[Jacot, Gabriel&Hongler, NIPS2018]

NTK regimeにおける最適化
以下の要領でランダム初期化:
• 𝑎𝑗 ∼
1
𝑀
(±1) (+, −は等確率で生成)
• 𝑤𝑗 ∼ 𝑁(0, 𝐼)
168
要点：
• 横幅Mが十分大きければ，高い確率でNTKのグラム行列は
正定値であり，最適化の間に大きく変化しない．
• 結果として，大域的最適解に線形収束する．
𝑀 = Ο(𝑛6log(𝑛))で十分．
定理
[Du et al., 2018; Allen-Zhu, Li & Song,
2018; Li & Liang, 2018]
※ 判別ならoverparameterizeしないでも良い (𝑀 = Ο(𝑛1/4)で十分) :
[Nitanda&Suzuki:arXiv:1905.09870]

NTKの様子 169
初期値
モデルの集合
• 非凸なモデルも局所的に線形近似（接空間）すれば，ほぼ線形モデル
• 大きめのスケールを取っておけば，初期値の周りにおいて相対的に小さな
変動で最適解に到達できる．
• 横幅を広くとればデータをすべて説明可能，大きなスケールを用いれば局
所線形近似に最適解を含められる．

スケールが小さい場合 170
初期値
モデルの集合
ここを大きめのスケールを
用いて拡大したのがNTK

Mean field regime
• ニューラルネットワークの最適化をパラメータ
の分布最適化としてみなす．
171
NTKはO(1/ 𝑀), MFではO(1/𝑀)
(𝑎, 𝑤)に関する分布𝜈による平均とみなせる:
𝑓の最適化 ⇔ 𝜈の最適化

MMDとの関係
MMD: Maximum Mean Discrepancy (次ページで定義)
172
[Gretton et al., NIPS2006]
: 真の関数
𝑘((𝑎, 𝑤), (𝑎’, 𝑤’))
↑正定値対称カーネルになっている．
= 𝜙 𝑘 𝑎, 𝑤 , 𝜙 𝑘 𝑎′
, 𝑤′
ℋ 𝑘
: MMD L2距離最小化⇔ MMD最小化
[Arbel et al. arXiv:1906.04370][Sonoda, arXiv:1902.00648]

MMD
: あるRKHS (ℋ𝑘) への特徴写像
173
: 二つの分布
ℝ 𝑑 × ℝ 𝑑上のカーネル関数が連続かつ特性的 (後述)
⇔ MMDが弱収束位相を距離付けする．
[Simon-Gabriel&Scholkopf: Kernel Distribution Embeddings: Universal Kernels,
Characteristic Kernels and Kernel Metrics on Distributions, JMLR2018.]
定理
分布を𝔼 𝑃[𝜙 𝑘(𝑋)]でRKHS内に埋め込み，そこで距離を測る．

特性的カーネル 174
• 特性的カーネル
𝑀 𝑏(ℝ 𝑑) をℝ 𝑑上の有限な符号付ボレル測度の集合とする．
カーネル関数k
が𝑐0-universal
が単射．
⇔
がℝ 𝑑上ボレル確率測度に対して単射
つまり，MMD(P,P’)=0がP=P’と同値の時，そのカーネルを特性的と言う．
カーネルが平行移動不変で𝑘 𝑥, 𝑦 = 𝜙(𝑥 − 𝑦) (𝜙 ∈ 𝐶0(ℝ 𝑑))と書けるとき，
「𝑐0-universal」 ⇔ 「特性的」
確率測度に限定したら必ずしも同値ではない．しかし，次が成り立つ．
[Sriperumbudur, Fukumizu, Lanckriet: Universality, Characteristic Kernels and RKHS
Embedding of Measures, ICML2010]

MMDとその仲間
• 積分型確率測度距離
175
• f(x)としてf(x)=xのみを用いれば平均値の差を見ていることになる．
• f(x)として，f(x)=xおよびf(x)=x^2も考えれば二次モーメントの差も考慮できる．
• Fとしてもっと広い関数の集合を考えれば分布の“距離”になる．
• 1-Wasserstein距離
=1-リプシッツ連続な関数の集合
• MMD (Maximum Mean Discrepancy)
=ある再生核ヒルベルト空間の単位球

Wasserstein距離について
• 「輸送距離」とも言われる
176
周辺分布を固定した同時分布の中で最小化
（双対表現）
• 分布のサポートがずれていてもwell-defined
• 底空間の距離が反映されている

𝑊𝟐距離と粒子最適化の関係 177
各ｗごとにvの条件付分布を最小化→Dirac測度
：最急降下法
• 各粒子ごとにみると単純な最急降下法．
• 分布の最適化とみるとW2距離を近接項とした近接点アルゴリズム
→ Wasserstein gradient flow

MF-regimeの研究動向
• Wasserstein勾配流を用いた収束の解析：
[Nitanda&Suzuki, 2017][Chizat and Bach, 2018][Sirignano an d
Spiliopoulos, 2018] [Rotskoff and Vanden-Eijnden, 2018]その他
多数
• SGLDを用いた最適解への収束解析：
[Mei, Montanari, and Nguyen, 2018]（同グループからの後続研
究多数）, [Rotskoff&Vanden-Eijnden, NeurIPS2018],
(ある種の強凸性を仮定した線形収束)[Hu et al.,
arXiv1905.07769]
• MMD最適化としての収束解析：
[Arbel et al., 2019]
• MCMCサンプリングおよび貪欲解法(Frank- Wolfe):
[Barron, 1993][Bengio et al., 2006][Le Roux and Bengio,
2007][Bach, 2017][Sonoda, 2019]
178
NTKと比べると難しい．
第一層の学習がより本質的に影響するので汎化性能は良いと考えられている．
（陰的正則化）

Sharp minima vs flat minima 179
SGDは「フラットな局所最適解」に落ちやすい→良い汎化性能を示す
という説
≅正規分布
→ランダムウォークはフラットな領域に
とどまりやすい
•「フラット」という概念は座標系の取り
方によるから意味がないという批判．
(Dinh et al., 2017)
•PAC-Bayesによる解析 (Dziugaite, Roy,
2017)
Keskar, Mudigere, Nocedal, Smelyanskiy, Tang (2017):
On large-batch training for deep learning: generalization gap and sharp minima.

まとめ
• 深層学習の理論
• 表現能力
• 汎化能力
• 最適化能力
• 表現力
• 万能近似性
• 層を深くすることで指数的に表現力増大
• 汎化能力
• 様々な関数クラスでほぼ最適レート達成
• 陰的正則化等でoverparametrizedな状況でも汎化
• 最適化理論
• Overparameterizeされていれば大域的最適解を得る
• Neural Tangent Kernel: 関数勾配の特徴づけ
• Mean field regime: 分布の収束とMMD
180

連絡先
taiji@mist.i.u-tokyo.ac.jp
181

課題
以下のうち一つの課題を選んでレポートとして
まとめ提出せよ．
① 「Double-descent」について調べその内容
をまとめよ．
② 深層学習の汎化誤差理論について研究トピッ
クを一つ選び文献を調べてその内容をまとめ
よ．
③ 「勾配流」について調べその内容をまとめよ．
④ ノルム型汎化誤差バウンドを一つ導出せよ．
※内容は本講義で扱わなかったものでも構わない．
182

深層学習の数理

More Related Content

深層学習の数理