深層学習の数理：カーネル法, スパース推定との接点

深層学習の数理：
カーネル法, スパース推定との接点
鈴木大慈
東京大学大学院情報理工学系研究科数理情報学専攻
理研AIP
2020年(令和2年)8月1日
MIRU2020チュートリアル
1

深層学習の広がり 2
[Glow: Generative Flow with Invertible 1x1 Convolutions. Kingma
and Dhariwal, 2018]
AlphaGo/Zero 画像の生成
画像の変換
画像認識
自動翻訳
[Zhu, Park, Isola, and Efros: Unpaired image-to-image translation using
cycle-consistent adversarial networks. ICCV2017.]
様々なタスクで高い精度
[Silver et al. (Google Deep Mind): Mastering the game of Go with
deep neural networks and tree search, Nature, 529, 484—489, 2016]
[Wu et al.: Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv:1609.08144]
[He, Gkioxari, Dollár, Girshick: Mask R-CNN, ICCV2017]

諸分野への波及 3
[Litjens, et al. (2017)]
医療分野における「深層学習」
を用いた論文数
医療
- 人を超える精度
（FROC73.3% -> 87.3%）
- 悪性腫瘍の場所も特定
[Detecting Cancer Metastases on
Gigapixel Pathology Images: Liu et
al., arXiv:1703.02442, 2017]
[Niepert, Ahmed&Kutzkov: Learning Convolutional Neural Networks
for Graphs, 2016]
[Gilmer et al.: Neural Message Passing for Quantum Chemistry, 2017]
[Faber et al.:Machine learning prediction errors better than DFT
accuracy, 2017.]
量子化学計算，分子の物性予測
[Google AI Blog, “Deep Learning for Robots: Learning from Large-
Scale Interaction,” 2016/5/8]
ロボット

解決すべき問題点
なぜ深層学習はうまくいくのか？
• 「○○法が良い」という様々な仮説の氾濫．
• 世界的課題
4
“錬金術”という批判
学会の問題意識民間の問題意識
Ali Rahimi’s talk at NIPS2017 (test of time award).
“Random features for large-scale kernel methods.”
• 中で何が行われているか分か
らないものは用いたくない．
• 企業の説明責任．深層学習の
ホワイトボックス化．
• 原理解明
• どうすれば“良い”学習が実現できるか？→新手法の開発
数学の必要性

深層学習の理論概観 5
解釈可能性：
説明可能性，データの可視化，メンテナン
スの容易化
各種テクニックの解析：
アーキテクチャの解析，損失関数の設計，
最適化技法の解析
深層学習の原理解明：
表現理論，汎化誤差理論，最適化の収束理
論
学習の本質解明：
“良い”学習手法の特徴付け，統一理論，
深層学習を優越する方法論の提唱
応用
基礎
理論を通して深層
学習の不可思議な
挙動を理解したい．
 説明責任
 可能性と限界の把握
 学習手法設計の指針
応用から基礎まで
広い範囲に“理論”
は遍在する．
今日の範囲

教師あり学習 6
-猫 (y=1)
-犬 (y=2)
-人間 (y=3)
画像
学習：「関数」をデータに当てはめる
モデル：関数の集合（例：深層NNの表せる関数の集合）
ベ
ク
ト
ル
ベ
ク
ト
ル

深層NNのモデル 7
-猫
-犬
-人間
画像
各層で情報を
抽出して次の
層に伝達
第一層第二層第五層
0.6
1.2
0.4
-0.8
0.2
0.1
0.9
0.3
前の層の情報に重みを付けて足し合わせる．
各層ごとに役
割が異なる
 この「重み」をデータに合う
ように最適化
 数十億パラメータにもなる
猫
犬

各層の詳細
アフィン変換＋活性化関数
8
• ReLU (Rectified Linear Unit)
• シグモイド関数
活性化関数

9
パラメータ：ネットワークの構造を表す変数
損失関数：パラメータがデータをどれだけ説明しているか
予測誤差：損失の期待値訓練誤差：有限個のデータで代用
この二つには大きなギャップがある．
[過学習]
本当に最小化したいもの．代わりに最小化するもの．
訓練誤差と汎化誤差
※クラスタリング等，教師なし学習も尤度を使ってこのように書ける．
(訓練データはテストデータと
同じ分布に従っていると仮定)

学習理論の設定
• 汎化ギャップ(汎化誤差)と余剰誤差
10
Generalization gap Excess risk
汎化誤差:
余剰誤差:
もしくは

学習機の複雑さと学習能力
• No free lunch theorem
「あらゆる問題で性能の良い汎用的学習機は実現不可能
であり，ある問題に特殊化された手法に勝てない」
11
No free lunch theorem: [D.H.Wolpert and W.G. Macready: 1995,1997][Y.C. Ho and D.L. Pepyne: 2002]
平均
汎用的な方法
ある問題に特化した方法
William of Ockham：1285-1347．スコラ学の神学者，哲学者．
機械学習への教訓
「必要以上に複雑なモデルを当てはめると失敗する」
予測誤差
問題
学習手法は「どこかを“贔屓”する必要がある」
→ モデリングの重要性 (オッカムの剃刀)

リスクの概念
• どこを贔屓するか？
モデルの外に真があればそもそも学習方法の優劣を論じ
ることは難しい (どれもドングリの背比べ)
仮にモデルに真が入っていた場合にどこが贔屓されるか
12
 ミニマックス最適性
 許容性
 ベイズ最適性
ベイズリスクを最小にする推定法 𝜃.
(→ ベイズ推定量)
𝜋0: 事前分布
：真の分布のモデル：真の分布
：訓練データ推定量
つぎのような 𝜃が存在しない:

理論的課題
表現能力
どれだけ難しい問題まで学習でき
るようになるか？
14
汎化能力
有限個のデータで学習した時，ど
れだけ正しく初見のデータを正解
できるようになるか？
最適化能力
最適な重みを高速に計算機で求め
ることが可能か？

要点のまとめ
• 表現能力
重要な関数クラス(Barron, Holder, Sobolev, Besov) はほ
ぼ最適な効率性で近似できる．
適応的な関数近似によりカーネル法を優越する．
• 汎化能力
重要な関数クラスの推定精度はミニマックス最適レート
を達成できる→特徴抽出機能によりカーネル法を優越．
データサイズがパラメータ数より小さくても過学習しな
い→実質的統計的自由度が小さい．
陰的正則化等により，自由度が小さく抑えられる→汎化
する．
• 最適化能力
横幅を十分広くとれば大域的最適解が勾配法で求まる．
初期パラメータのスケーリングによってNeural Tangent
KernelとMean fieldの二つの状況に大きく分けられる．
ノイズ付加により平滑化・局所解からの脱出を実現．
15

第1部
深層学習の表現能力
16

• 定数
• 𝐼 = [0,1]から𝐼への狭義単調増大連続関数
Kolmogorovの加法定理
任意の連続関数は横幅固定の4層の“ニューラルネット”
で表現できる．
17
が存在して，任意の連続関数𝑓 ∈ 𝐶( 0,1 𝑑
)が次のように表現できる:
なお，𝑔 ∈ 𝐶( 0,1 )は𝑓にのみ依存した関数．
定理 (Kolmogorov’s superposition theorem)
• 一変数関数の合成で多変数関数が作れてしまう．
• 任意の連続関数は4層ニューラルネットの最終層だけを学習すればよ
いことになる．しかし，gの滑らかさはfおよび入力の次元dに強く依
存し，最適な学習精度は達成できない．
• ヒルベルトの23の問題の13番目を一般化した定理

表現能力「万能近似能力」
理論的にはデータが無限にあり，素子数が無限
にあるニューラルネットワークを用いればどん
な問題でも学習できる．
18
二層ニューラルネットワークは
どんな関数も任意の精度で近似できる．
「関数近似理論」
[Hecht-Nielsen,1987][Cybenko,1989]
年基底関数空間
1987 Hecht-Nielsen 対象毎に構成 𝐶(𝑅 𝑑
)
1988 Gallant & White Cos 𝐿2(𝐾)
Irie & Miyake integrable 𝐿2(𝑅 𝑑
)
1989 Carroll & Dickinson Continuous sigmoidal 𝐿2(𝐾)
Cybenko Continuous sigmoidal 𝐶(𝐾)
Funahashi Monotone & bounded 𝐶(𝐾)
1993 Mhaskar + Micchelli Polynomial growth 𝐶(𝐾)
2015 Sonoda + Murata Unbounded, admissible 𝐿1(𝑅 𝑑
)/𝐿2(𝑅 𝑑
)

関数近似の様子 20
ReLU活性化関数

連続関数の近似
• Cybenkoの理論
[Cybenko: Approximation by superpositions of a sigmoidal function.
Mathematics of control, signals and systems, 2(4): 303-314, 1989]
24
活性化関数𝜂がシグモイド的 ⇔
定理
活性化関数𝜂が連続なシグモイド的関数なら，任意の𝑓 ∈ 𝐶( 0,1 𝑑
)と，
任意の𝜖 > 0に対して，ある𝑔 𝑥 = 𝑖=1
𝑁
𝛼𝑖 𝜂 𝑎𝑖 𝑥𝑖 + 𝑏𝑖 が存在して，
とできる．
定義

証明の直感的概略
• シグモイド型の関数に対し，
25
が成り立つ．つまり，スケールを適切に選べば，
階段関数をいくらでもよく近似できる．
• 階段関数を近似できれば，それらを足し引きすることで，
cos 𝛼⊤ 𝑥 + 𝛽 や sin 𝛼⊤ 𝑥 + 𝛽 をいくらでもよく近似できる．
• cos, sinが実現できるならFourier(逆)変換もできる．
• 任意の連続関数が近似できる．

積分表現 (Ridgelet変換)
• Fourier変換
26
• Ridgelet変換
ウェーブレット変換 + ラドン変換
NNはFourier変換におけるsin,cosの代わり
に非線形ノードの足し合わせで関数を表現．
CTスキャン
[Wikipedia,フーリエ変換]
ある𝜓: ℝ → ℝが以下の「許容条件」を満たすとする：
( 𝜓, 𝜂はFourie変換)
(Ridgelet変換)
(双対Ridgelet変換)
定理
(再構成定理)

カーネル法
• 浅い手法の代表格．
• これも万能近似能力がある．
27
非線形写像
線形判別機
(カーネル法)
再生核ヒルベルト空間の理論
似た手法
• スプライン法
• 局所多項式回帰
• シリーズ推定量
xy
…
…
• 第一層目固定
• 無限個の素子
第1層目を固定した横幅無限の
2層ニューラルネットワーク
(線形推定量
と呼ばれるクラス)
固定学習
：カーネル関数

深層NNとカーネル関数 28
𝒌ℓに対応した再生核ヒルベルト空間
(より正確には同じfを与えるwの中でinfを取る)
深層NNは「カーネル関数をデータに合わせて学習する方法」と言える

これまででわかったこと
• [理論] 万能近似能力という意味では浅層で十分．
• [実際] 実際は多層を使うことが多い．
→ この差はどう埋める？
29
カーネル法
浅層
多層ニューラルネット
深層学習
→ 「表現力」を比べてみる．

多層で得する理由
深さに対して指数関数的に“表現力”が上がる．
30
• 超平面アレンジメント [Montufar et al., 2014]
空間の領域分割数
• 多項式展開，テンソル解析 [Cohen et al., 2016; Cohen & Shashua, 2016]
単項式の次数
• 代数トポロジー [Bianchini & Scarselli, 2014]
ベッチ数(Pfaffian)
• リーマン幾何 + 平均場理論 [Poole et al., 2016]
埋め込み曲率
特に，対称性の高い関数の近似は深層NNが有利
ℎ(𝑥) ℎ ∘ ℎ(𝑥) ℎ ∘ ℎ ∘ ℎ(𝑥)

多層が得する例 (1): 領域分割数
• 層の数に対して表現力は指数的に上がる．
• 中間層のユニット数 (横幅) に対しては多項式的．
31
折り紙のイメージ
Montufar, Guido F., et al. "On the number of linear regions of deep neural networks." 2014.
NNの“表現力”：領域を何個の多面体に分けられるか？
𝐿：層の数
𝑛：中間層の横幅
𝑛0：入力の次元

多層が得する例 (2): 対称な関数 32
𝑥1𝑥2𝑥3
𝑔
𝑥1
2𝑥2
2𝑥3
2
三層 (中間層二層)：O(poly(𝑑 𝑥))ノードで十分
二層 (中間層一層)：Ω(exp(𝑑 𝑥))ノードが必要 (次元の呪い)
まず二乗和𝑥1
2
+ ⋯ + 𝑥 𝑑 𝑥
2
を作ってからgを作用．
(Eldan&Shamir, 2016)
gはBessel関数を元に構成
全方向をケアする必要がある
（座標軸方向だけではダメ）
三層二層
(中間層で座標軸方向
だけを見ればよい)
深層NNは特徴量を適切に抽出することで次元の呪いを回避できる．

多層が得する例 (3): 区分線形関数の表現
• 任意の区分線形関数(R 𝑑
→ R)は深さ log2(𝑑 + 1) のReLU-DNNで表現可能
• ある横幅𝑤，縦幅𝑘のReLU-DNNが存在して，それを縦幅
𝑘’(< 𝑘)のネットワークで表現するには横幅𝑘′ 𝑤 𝑘/𝑘′ − 1が必要．
33
𝑘 𝑘’
やはり層の深さに対し指数関数的に表現力が増加
上記のネットワークの例
(Arora et al., 2018)
大きな横幅が必要
深浅

多層が得する例 (4): 有理関数の近似
• 有理関数をReLU-DNNで近似
34
: r次多項式
あるReLU-DNNfが存在してノード数と近似誤差が次のように抑えられる：
ノード数近似誤差
をReLU-DNNで近似したい
• ReLU-DNNを有理関数で近似
k-層で各層のノード数mの任意のReLU-DNNfに対しては，
次数と近似誤差が以下で抑えられる有理関数𝑝/𝑞が存在：
次数（分母qと分子pの次数の最大値）近似誤差
深さに対して指数的に増大
• ReLU-DNNを多項式で近似：の次数が必要
→有理関数に比べて表現力が低い

多層が得する例 (4): 有理関数の近似
• 有理関数をReLU-DNNで近似
35
: r次多項式
あるReLU-DNNfが存在してノード数と近似誤差が次のように抑えられる：
ノード数近似誤差
をReLU-DNNで近似したい
• ReLU-DNNを有理関数で近似
k-層で各層のノード数mの任意のReLU-DNNfに対しては，
次数と近似誤差が以下で抑えられる有理関数𝑝/𝑞が存在：
次数（分母qと分子pの次数の最大値）近似誤差
深さに対して指数的に増大
• ReLU-DNNを多項式で近似：の次数が必要
→有理関数に比べて表現力が低い

統計的推定理論による比較
深層 vs 浅層の統計理論
→「関数近似精度/推定精度」を比べてみる．
「多層」による特徴抽出と推定精度
36
ノンパラメトリック回帰の設定
𝜉𝑖 ∼ 𝑁 0, 𝜎2
は観測誤差
平均二乗誤差：
※実はこれは二乗損失の平均余剰誤差になっている．

なぜ深層学習が良いのか？
• 真の関数𝑓∘
の形状によって深層が有利になる
37
深
層
カ
ー
ネ
ル
縮小ランク回帰
特徴空間の次元
が低い状況は深
層学習が得意
区分滑らかな関数
不連続な関数の
推定は深層学習
が得意
Besov空間
滑らかさが非一
様な関数の推定
は深層学習が得
意
低次元データ
データが低次元
部分空間上に分
布していたら深
層学習が有利
[Suzuki, 2019]
[Schmidt-Hieber, 2019] [Nakada&Imaizumi,
2019][Chen et al., 2019][Suzuki&Nitanda, 2019][Imaizumi&Fukumizu, 2019]
推
定
精
度

深層学習の適応能力 38
[Suzuki, ICLR2019]
深層学習はBesov空間(𝐵𝑝,𝑞
𝑠
)の元を推定するのにミニマックス最適レートを達成する．
(複雑な関数形状に適応的にフィットすることができる)
深層学習には「高い適応力がある」
明らかに犬明らかに猫犬と猫の中間
少し絵が変わっても
「犬」のまま
少し絵が変わっても
「猫」のまま
少し絵が変わると
犬/猫のどちらかに偏る
猫の度合い
滑らかでない
急激に変化滑らか
滑らか
どこが重要でどこが重要でないかを見分けて，重要な部分を重点的に学習
→ 多層だから可能

「浅い」学習との比較 39
≫
(𝑛: sample size，𝑝: uniformity of smoothness，𝑠: smoothness)
（カーネルリッジ回帰，KNN法，シーブ法など）
深層でない学習方法
最適ではない
深層学習
最適
• 深層学習は場所によって解像度を変える適応力がある
→学習効率が良い
• 浅い学習は様々な関数を表現できる基底を
あらかじめ十分用意して“待ち構える”必要がある．
→学習効率が悪い
• ミニマックス最適性の意味で
• 理論上これ以上改善できない精度を達成できている．
平均二乗誤差 E 𝑓 − 𝑓∗ 2
がサンプルサイズが増えるにつれ減少するレート
[Suzuki, ICLR2019]
一様な解像度適応的解像度

空間的非一様性
滑らかさの度合い
Hölder, Sobolev, Besov空間 40
0

スパース性との関係 41
k=0
k=1
k=2
k=3
Resolution j=1
j=1 j=2
j=1 j=2 j=3 j=4
𝛼0,1
𝛼1,1 𝛼1,2
𝛼2,1 𝛼2,4𝛼2,3𝛼2,2
空間的な滑らかさの
非一様性(非凸性)
小さな𝑝 = スパースな係数
→
(0 < 𝑝)
Wavelet基底による展開

直感 42
係数
基底
事前に設定: 非適応的手法
カーネルリッジ回帰, 最小二乗法，....
推定する: 適応的手法
深層学習, スパース推定, Boosting, ....
Adaptive method
(deep)
スパース推定との違い：
• スパース:
あらかじめ用意した多数の基底の中から重要な
基底を選択
• Deep:
直接，基底を構築する

数学的に一般化 43
[Satoshi Hayakawa and Taiji Suzuki: On the minimax optimality and superiority of deep neural network
learning over sparse parameter spaces. arXiv:1905.09195.]
「滑らかさの非一様性」「不連続性」「データの低次元性」
凸結合を取って崩れる性質をもった関数の学習は深層学習が強い
→ 様々な性質を“凸性”で統一的に説明
例：ジャンプが３か所の区分定数関数
+ =
0.5x 0.5x
ジャンプ3か所ジャンプ3か所ジャンプ6か所
→ さらには「スパース推定」という観点からも説明できる．
深層:1/𝑛, カーネル: 1/ 𝑛

線形推定量の最悪誤差 44
[Hayakawa&Suzuki: 2019][Donoho & Johnstone, 1994]
さらに条件を仮定すれば「Q-hull」まで拡張できる．
線形推定量：と書ける任意の推定量
例: カーネルリッジ回帰 (“浅い”学習法とみなす)

数学的一般化 45
縮小ランク回帰
区分滑らかな関数 Besov空間
低次元データ
非凸性
スパース性
変動指数
Besov空間

例 (1): 低次元データ構造 46
関数値
ほぼ一定
関数値が
変化する方向
𝑠1, 𝑠2, 𝑠3: smoothness
(non-smooth) 𝑠1, 𝑠2 ≪ 𝑠3 (smooth)
推
定
精
度
深層学習浅い学習
（次元の呪い）

例 (2): 縮小ランク回帰
• 縮小ランク回帰
47
ただし，，．
推定精度の比較
Low rank: non-convex
低ランク行列の凸包はフルランク行列
(LSやRidge回帰等)

第2部
深層学習の汎化誤差
-Overparametrization-
48

• これまでの議論は，実は問題に合わせて「適切
なサイズのネットワーク」を用いた場合の議論
であった．
• 実際は，かなりサイズの大きなネットワークを
用いる．
49

過学習 50
「なんでも表現できる方法」が最適とは限らない
少しのノイズにも鋭敏に反応してしまう
「過去問は解けるけれども本番の試験は解けない」
という状況を回避したい
過学習適切な学習
説明力が高すぎる
（複雑すぎる）
説明力が適切
良い学習結果悪い学習結果
学習に用いるデータには誤りも含まれる
過小学習
説明力が低すぎる
悪い学習結果
一見当てはまりが良いので危険

従来の学習理論 51
過学習適切な学習過小学習

従来の学習理論 52
過学習適切な学習過小学習
[Neyshabur et al., ICLR2019]
ネットワークのサイズを大きくしても過学習しない
実際は...
データサイズ：120万
モデルパラメータサイズ：10億
[Xu et al., 2018]

深層ニューラルネットの冗長性 53
パラメータ数 ≫ データサイズ
数十億数百万数十万
≫ 実質的自由度
[仮説] 見かけの大きさ (パラメータ数) よりも
実質的な大きさ (自由度) はかなり小さいはず．
“実質的自由度”を調べる研究：
• ノルム型バウンド
• 圧縮型バウンド
「Overparametrization」
パラメータサイズがデータサイズを超えている状況
での汎化性能を説明したい．
「実質的自由度」として何が適切かを見つけることが理論上問題になる．

Uniform bound 55
“運良くデータに強く当てはまる”場所があるかもしれない．
→ 過学習

Uniform bound 56
Uniform bound Rademacher
complexity
Dudley integral
（covering num.）
モデルの「複雑さ」が
バウンドに影響する
→ 複雑すぎないこと
を保証する必要がある．
Uniform bound
過学習する場所が
ないことを保証す
るために一様なバ
ウンドが必要

深層学習の汎化誤差バウンド (抜粋) 57
ノルム型バウンド
圧縮型バウンド
Naïve bound

Naïve bound (VC-次元) 58
?
VC-次元 [Harvey et al.2017]
☹ パラメータ数 ℓ=1
𝐿
𝑚ℓ 𝑚ℓ+1 がそのままバウンドに現れてしまう．
☹ パラメータ数≫データサイズの状況を説明できていない．
L

ℱ: ネットワーク全体
どうやって改善するか？ 59
𝑓 ∈ ℱ
ℱ: 学習済みモデルが入り
うるネットワークの集合
→ データ依存
“典型的な学習済みネットワーク”の集合を解析する．
※ ℱはℱよりもはるかに小さいと考えられる．

ノルム型バウンド
• Golowich et al. (2018)
60
NNモデル:
横幅に依存しない. → Overparametrizationの状況を説明！
: Frobeniusノルム
縦幅に指数的に依存する場合がある. (バウンドによる)☹
☺
• Bartlett et al. (2017): 正規化マージンバウンド
(最大特異値)
(𝑅ℓ,2より大きい)

Bias Variance
典型的な圧縮型バウンド:
[Arora et al., 2018; Zhou et al., 2019; Baykal et al., 2019; Suzuki et al., 2018]
圧縮型バウンド 61
学習済みネット
（元ネットワーク）
圧縮したネットワーク
圧縮可能 ⇔ 単純
圧縮した
ネットワーク
元の
ネットワーク
𝑚ℓ 𝑚ℓ
#
注：これらのバウンドは 𝒇の汎化誤差は与えていない.
“圧縮していない”ネットワーク 𝒇 の汎化誤差も与えられる (次ページ)．
Bias-varianceトレードオフ
(プルーニング等に
より圧縮)
圧縮したネットワーク
の横幅
ネットワークが圧縮
できるなら汎化する．

非圧縮ネットの圧縮型バウンド 62
仮定: 𝑓 がより小さなネットワーク𝑓#
に圧縮できるとする.
( 𝑓 ∈ ℱ, 𝑓# ∈ ℱ#; ℱは学習済みネットの集合, ℱ# は圧縮したネットの集合)
非圧縮ネットの圧縮型バウンド:
:圧縮可能性は訓練データのみから判断.
(学習結果が圧縮可能なように学習するのが好ましい)
𝑚ℓ 𝑚ℓ
#
𝑟
[Suzuki,Abe,Nishimura:ICLR2020]
(既存のバウンド)

非圧縮ネットの圧縮型バウンド 63
非圧縮ネットの圧縮型バウンド:
:圧縮可能性は訓練データのみから判断.
(学習結果が圧縮可能なように学習するのが好ましい)
(既存のバウンド)
𝑚ℓ 𝑚ℓ
#
𝑟
[Suzuki,Abe,Nishimura:ICLR2020]
バリアンスを小さくできる
改善される
元のネット
ワークを評価

より正確なステートメント 64
with probability at least 1 − 𝑒−𝑡
.
: 局所Rademacher複雑度
: 局所Rad.の不動点
•
•
•
Theorem (非圧縮ネットの圧縮型バウンド)
Fast part (O(1/n)) Main part (O(1/ 𝒏))
bias variance

いつどれくらい圧縮できるか？ 65
[Suzuki: Fast generalization error bound of deep learning from a kernel perspective. AISTATS2018]
[Li, Sun, Liu, Suzuki and Huang: Understanding of Generalization in Deep Learning via Tensor
Methods. AISTATS2020]
[Suzuki, Abe, Nishimura: Compression based bound for non-compressed network: unified
generalization error analysis of large compressible deep neural network, ICLR2020]
[Suzuki et al.: Spectral pruning: Compressing deep neural networks via spectral analysis and its
generalization error. IJCAI-PRICAI 2020]
•「テンソル分解」の援用によりCNNの詳細な評価も実現．
元サイズ圧縮可能
サイズ
大小
実質的自由度
元のサイズ
[実験的観察] 実際に学習した
ネットワークは圧縮しやすい．
すぐ減衰すぐ減衰
•中間層の分散共分散行列の固有値分布
•中間層の重み行列の特異値分布
が速く減衰するなら圧縮しやすい．
重み行列の特異値分散共分散行列の固有値
分散共分散行列も重み行列も
特異値が速く減衰
→小さい統計的自由度
(AIC, Mallows’ Cp)
カーネル法の理論
(そもそもカーネルは無限次元モデル)

BigNAS 66
[Yu et al.: BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage Models. ECCV2020]
• 学習後のネットワークが圧縮できるように学習
• 大きなネットワークから小さなネットワークを
生成できる
• EfficientNetを上回る効率性を実現
圧縮できるように学習するとスクラッチ学習より
性能が向上することもある．
(理論と関係あるNAS手法)

理論の副産物
自由度の理論解析により，ネットワークのどこ
に着目すればどれだけ圧縮できるかがわかる．
67
深層ニューラルネットワークの圧縮技術への応用
エッジデバイスでの運用

ニューラルネットワークの圧縮 68
VGG-16ネットワークの圧縮
提案手法：
従来手法より良い精度 94%の圧縮
（精度変わらず）
ResNet-50ネットワークの圧縮
約半分に圧縮しても精度落ちず
圧縮
• メモリ消費量を減少
• 予測にかかる計算量を減少
→ 小型デバイスでの作動に有利
（自動運転など）
[Suzuki, Abe, Murata, Horiuchi, Ito, Wachi, Hirai, Yukishima, Nishimura:
Spectral pruning: Compressing deep neural networks via spectral analysis and
its generalization error. IJCAI-PRICAI 2020]

転移学習のネットワーク構造決定
• ある閾値以上の固有値をカウント (e.g., 10−3
).
→ 縮小したネットワークのサイズとして使う.
• その後，スクラッチから学習 (𝒮) もしくはImageNet事前学習モデルをファイン
チューニングする (ℐ).
69
Network size determination alg.
[Shinya, Simo-Serra, and Suzuki: Understanding the
Effects of Pre-training for Object Detectors via
Eigenspectrum. ICCV2019, Neural Architects Workshop]

Overparametrizeされた
ネットワークの統計学
70

Double-descent (二重降下) 71
• モデルがある複雑度 (サンプルサイズ) を超えた後，第二の降下が起きる．
• モデルサイズがデータより多いと推定量のバリアンスがむしろ減る．
※設定によるので注意が必要．
“新しい”バイアス-バリアンスのトレードオフ

線形回帰における二重降下 72
• Hastie et al.: Surprises in High-Dimensional Ridgeless Least Squares Interpolation,
arXiv:1903.08560.
• 線形回帰を考察
• 最小ノルム解：
• 期待予測誤差：
期待予測誤差は以下の値に𝑛, 𝑑 → ∞, かつ 𝑑
𝑛 → 𝛾 ∈ (0, ∞)の極限で概収束する:
バリアンスバイアス
定理

73
注意：
• 次元が大きくなると真の関数も変化している設定．
• 単なる線形回帰なので第一層も学習する深層学習とは異なる．
直感：
• 次元(d)>サンプルサイズ(n)だとデータの張る部分空間は全体の一部
→実質的自由度がdより低く，バリアンス小

2層NNの二重降下理論 74
[Mei, Song, and Andrea Montanari. "The generalization error of random features regression: Precise asymptotics and double
descent curve." arXiv preprint arXiv:1908.05355 (2019)]
Target: linear model Model: 2層NN
Random featureモデル:
(𝑤 𝑚はランダムに初期化して固定，二層目 (𝑎 𝑚) のみ学習)
𝑀, 𝑛, 𝑑 → ∞で， 𝑀 𝑑 → 𝜓1, 𝑛 𝑑 → 𝜓2という状況．
予測誤差が解析的に求まる． (長いので省略)
→ 横幅𝑀を広くとると二重降下が現れる
[Ba, Erdogdu, Suzuki, Wu, Zhang: Generalization of Two-layer Neural Networks: An Asymptotic Viewpoint. ICLR2020]
二層NNの学習．今度は𝑎 𝑚を固定して𝑤 𝑚を学習．
𝑤 𝑚の初期値が大きい状況 (NTK)→ 二重降下現れる
𝑤 𝑚の初期値が小さい状況 (平均場)→ 二重降下が弱い
小さな初期値から始めると真の関数を表す最小限の表現を獲得する
大きな初期値から始めるとカーネル法と似た状況で過学習しやすい

第3部
深層学習の最適化
-非凸性の影響-
75

深層学習の“学習” 76
深層ニューラルネットワークをデー
タにフィットさせるとは？
損失関数：データへの当てはまり度合い
𝑖番目のデータで正解していれば
小さく，間違っていれば大きく
𝑊: パラメータ
損失関数最小化
(Wは数十億次元)
通常，確率的勾配降下法で最適化最適値

局所最適解や鞍点にはまる可能性あり
77
局所最適解大域的最適解局所最適解＝大域的最適解
凸関数
問題点
目的関数が非凸関数
深層学習の損失関数
?
“狭い”ネットワークの学習はNP-完全:
• Judd (1988), Neural Network Design and the Complexity of Learning.
• Blum&Rivest (1992), Training a 3-node neural network is NP-complete.

局所最適性
• 線形深層NNの局所的最適解は全て大域的最適解：
Kawaguchi, 2016; Lu&Kawaguchi, 2017.
※ただし対象は線形NNのみ．
78
大域的最適解
局所的最適解
深層学習の目的関数は非凸
→ 臨界点が大域的最適解であることの条件も出されている
(Yun, Sra&Jadbabaie, 2018)
• 低ランク行列補完の局所的最適解は全て大域的最適解：
Ge, Lee&Ma, 2016; Bhojanapalli, Neyshabur&Srebro, 2016.

Loss landscape
• 横幅の広いNNの訓練誤差には孤立した局所最
適解がない．（局所最適解は大域的最適解とつ
ながっている）
79
[Venturi, Bandeira, Bruna: Spurious Valleys in One-hidden-layer Neural Network Optimization Landscapes.
JMLR, 20:1-34, 2019.]
定理
𝑛個の訓練データ 𝑥𝑖, 𝑦𝑖 𝑖=1
𝑛
が与えられているとする．損失関数ℓは
凸関数とする．
任意の連続な活性化関数について，横幅がデータサイズより広い
（𝑀 ≥ 𝑛）二層NN𝑓 𝑎,𝑊 (𝑥) = 𝑚=1
𝑀
𝑎 𝑚 𝜂(𝑤 𝑚
⊤
𝑥)に対する訓練誤差
𝐿 𝑎, 𝑊 = 1
𝑛 𝑖=1
𝑛
ℓ(𝑦𝑖, 𝑓 𝑎,𝑊 (𝑥𝑖))の任意のレベルセットの弧状連結
成分は大域的最適解を含む．言い換えると，任意の局所最適解は
大域的最適解である．
こうはならないこうなる
(つながっていない)
※とはいえ，勾配法で大域的最適解に到達可能かは別問題．

オーバーパラメトライゼーション
横幅が広いと局所最適解が大域的最適解になる．
80
• 二種類の解析手法
 Neural Tangent Kernel
 Mean-field analysis (平均場解析)
…
狭い横幅
広い横幅
自由度が上がるため，初期値が最適解
(完全フィット)の近くに位置する．
0
0

二つのスケーリング
• Neural Tangent Kernelのregime (lazy learning )
 𝑎𝑗 = O(1/ 𝑀)
• 平均場解析のregime
 𝑎𝑗 = Ο(1/𝑀)
81
初期化のスケーリングによって，初期値と比
べて学習によって動く大きさの割合が変わる．
→ 学習のダイナミクス，汎化性能に影響
[Nitanda & Suzuki (2017), Chizat & Bach
(2018), Mei, Montanari, & Nguyen (2018)]
[Jacot+ 2018][Du+ 2019][Arora+ 2019]
（解析の難しさも違う）

NTKと平均場の違い 82
•各𝑤𝑗 が𝑂(1/𝑀)だけ動けば，全体としてO(1)の変化(データにフィットできる)．
•横幅は十分大きく取る: 𝑀 ≫ 𝑛 (overparametrization)
NTK：相対的変化小平均場：相対的変化大
NTKの特徴写像
テイラー展開により線形モデルとみなせる
→カーネル法の理論に帰着できる
相対的な変化が大きいのでテイラー
展開ができない．
→ 本質的に非凸最適化になる．
（原理的には展開しても良いが，
グラム行列の正定値性が保証されない）
初期パラメータ
𝜂: ReLUとする．𝑎𝑗 = 𝑂 1 , 𝑤𝑗 = 𝑂(1/ 𝑀)
または𝑤𝑗 = 𝑂(1/𝑀)とスケール変換

Neural Tangent Kernel
連続時間ダイナミクスを考える．
83
𝑘 𝑊(𝑥, 𝑥𝑖)
Neural Tangent Kernel
(Gradient descent, GD)
Model：
(関数勾配)
• 𝒂𝒋 は固定
• 𝒘𝒋 を学習
[Jacot, Gabriel&Hongler, NeurIPS2018]
residual
O(1/𝑀)：
特徴写像の内積の平均
(勾配法に
よる更新)

目的関数の減少速度 84
• ランダム初期化しておけば, 𝐾 𝑊(0) ≻ 𝜖𝐼 が高確率で成立．
• 最適化の最中に最小固有値は正のまま (≥ 𝜖/2).
(𝐾 𝑊)𝑖,𝑗
[Du et al., 2018; Allen-Zhu, Li & Song, 2018]Fact
線形収束 (exp(−𝝀min 𝒕))
(𝜆min : グラム行列の最小固有値)

Optimization in NTK regime
以下のように初期化する:
• 𝑎𝑗 ∼ (±1)
1
𝑀
(+, − is generated evenly)
• 𝑤𝑗 ∼ 𝑁(0, 𝐼)
85
𝑀 = Ω(𝑛2log(𝑛)/𝜆min )とすれば, 勾配法によって大域的最
適解へ線形収束し，その汎化誤差は 𝒚⊤ 𝐾 𝑊(0)
−1 𝒚 𝑛 で
抑えられる．
Theorem [Arora et al., 2019]
• データに完全にフィットさせてしまうので過学習の可能性あり.
• Early stoppingや正則化を入れれば過学習を防げる．(次ページ)
See also[Du et al., 2018; Allen-Zhu, Li & Song, 2018; Li & Liang, 2018]
• 訓練誤差0の解に線形収束する.
• 汎化誤差も一応抑えられている.

NTKにおける余剰誤差の速い収束
NTK設定で適切な正則化を入れたSGDは“速い学習レート”
を達成できる．
→ NTKによるsmoothingのおかげ.
86
[Nitanda&Suzuki: Fast Convergence Rates of Averaged Stochastic Gradient
Descent under Neural Tangent Kernel Regime, 2020.]
𝑀 → ∞で0に収束する項
速い学習レート
(𝑂(1/ 𝑇)より速い)
NTKの固有値の減衰レート
Thm (速い収束レート)
→ 𝑇
−
2𝑟𝛽
2𝑟𝛽+1 はミニマックス最適レート.
(各種パラメータの意味は次ページに詳細)
仮定：真の関数がNTKの作るRKHSで十分近似できるとする．
𝑓𝑇: 𝑇回更新後の解

仮定 87
NTK corresponding to 2-layer training:
• 𝑓∗(𝑥) = E[𝑌|𝑋 = 𝑥] can be expressed as
𝑇𝑘∞
𝑟
ℎ = 𝑓∗
for ℎ ∈ 𝐿2(𝑃𝑋), and 0 < 𝑟.
• Eigenvalue decay condition:
𝜇 𝑗 = O 𝑗−𝛽 .
Standard assumption in analyzing kernel ridge regression; e.g., Dieuleveut et
al. (2016); Caponnetto and De Vito (2007).
Smoothness of the
true function.
Integral operator:
“Complexity” of the
kernel function.
population
Spectral decomp: ,

88
高周波成分
低周波成分
低周波成分が最初に補足される．
その後，高周波成分が徐々に補
足される．
NTKの固有値固有関数分解
𝜙 𝑚 𝑚=1
∞
: 固有関数. 𝐿2(𝑃𝑋)内の
正規直交基底．
NTKの固有値分布
実際のNTKの固有値は多項式
オーダーで減衰する．
[Bietti&Mairal (2019); Cao et al. (2019);
Ronen et al. (2019)]

Beyond kernel
問題点：NTKは解析がしやすいが，結局カーネル法の
範疇なので深層学習の“良さ”が現れない．
 NTKをはみ出す理論の試みがいくつかなされている．
89
Allen-Zhu&Li: What Can ResNet Learn Efficiently, Going Beyond Kernels? NIPS2019.
Allen-Zhu&Li: Backward Feature Correction: How Deep Learning Performs Deep
Learning. arXiv:2001.04413.
• Allen-Zhu&Li (2019,2020)
• Li, Ma&Zhang (2019)
Li, Ma&Zhang: Learning Over-Parametrized Two-Layer ReLU Neural Networks
beyond NTK. arXiv:2007.04596.
• Bai&Lee (2020)
Bai&Lee: Beyond Linearization: On Quadratic and Higher-Order Approximation of
Wide Neural Networks. ICLR2020.
(ResNet型ネットワークでカーネルを優越する状況)
(テンソル分解の理論で深層学習がカーネルを優越することを示した)
(二次のテイラー展開まで使う)
（今後発展が予想される）

平均場解析
• ニューラルネットワークの最適化をパラメータ
の分布最適化としてみなす．
90
(𝑎, 𝑤)に関する確率密度𝜌による平均とみなせる:
𝑓の最適化 ⇔ 𝜌の最適化
Wasserstein勾配流
𝑀 → ∞
連続方程式
[Atsushi Nitanda and Taiji Suzuki: Stochastic Particle Gradient Descent for Infinite Ensembles. arXiv:1712.05438.]
(各粒子の勾配方向)

粒子勾配降下法 91
• 各ニューロンのパラメータを一つの粒子とみなす．
• 各粒子が誤差を減らす方向に動くことで分布が最
適化される．
1つの粒子
𝑀 → ∞の極限で，最適解への収束が示せる．
[Nitanda&Suzuki, 2017][Chizat&Bach, 2018][Mei, Montanari&Nguyen, 2018]
データへの当てはまりを
良くする方向に変化
ノイズありのダイナミクス: McKean-Vlasov過程
M個の粒子が移動
(各粒子の移動方向：勾配方向)
(分布)
[Nitanda&Suzuki, 2017]

平均場解析と陰的正則化 92
符号付測度の中で最適化
二値判別をexp-損失を用いて解く (ラベルノイズなしとする):
ただし
判別平面はL1-正則化解マージン最大化元に収束する:
→ スパースな解：陰的正則化
平均場解析の設定で最適化する．
初期値が小さいので判別に必要なニューロンだけが「生えてくる」．
[Chizat&Bach:Implicit Bias of
Gradient Descent for Wide
Two-layer Neural Networks
Trained with the Logistic Loss.
COLT2020.]
最適化の結果として「単純な」
解が求まってしまう．

勾配法と陰的正則化
• 小さな初期値から勾配法を始めるとノルム最小
化点に収束しやすい→陰的正則化
93
[Gunasekar et al.: Implicit Regularization in Matrix Factorization, NIPS2017]
[Soudry et al.: The implicit bias of gradient descent on separable data. JMLR2018]
[Gunasekar et al.: Implicit Bias of Gradient Descent on Linear Convolutional Networks, NIPS2018]
[Moroshko et al.: Implicit Bias in Deep Linear Classification: Initialization Scale vs Training
Accuracy, arXiv:2007.06738]
初期値
（原点付近）
解集合
最も「単純な」解
勾配法による最適化
多層の線形NNを判別問題でGDすると“スパースな解”
が得られる．

各regimeにおける陰的正則化
各regimeにおける陰的正則化の種類
94
Regime 対応する正則化
NTK, カーネル法 with
early stopping
L2-正則化
平均場理論 L1-正則化
• ニューラルネットワークの学習では様々な「陽的正則化」を用いる：
バッチノーマリゼーション，Dropout，Weight decay，MixUp，...
• 一方で，深層学習の構造が自動的に生み出す「陰的正則化」も強く効
いていると考えられる．
→ オーバーパラメタライズしても過学習しない．

ノイズあり勾配法と大域的最適性
95

Sharp minima vs flat minima 96
SGDは「フラットな局所最適解」に落ちやすい→良い汎化性能を示す
という説
≅正規分布
→ ランダムウォークはフラットな領域に
とどまりやすい
•「フラット」という概念は座標系の取り
方によるから意味がないという批判．
(Dinh et al., 2017)
•PAC-Bayesによる解析 (Dziugaite, Roy,
2017)
Keskar, Mudigere, Nocedal, Smelyanskiy, Tang (2017):
On large-batch training for deep learning: generalization gap and sharp minima.

GLD/SGLD
• Stochastic Gradient Langevin Dynamics (SGLD)
97
定常分布：
(勾配Langevin動力学)
(非凸)
GLD:
SGLD:
確率的勾配
(Euler-Maruyama近似)
𝛽: 逆温度
離散化 [Gelfand and Mitter (1991); Borkar and
Mitter (1999); Welling and Teh (2011)]

98
Gaussian noise
Gradient descent

収束定理 (有限次元) 99
• Xu et al. (NeurIPS2018) は収束レートを改善しているが，証明にいくつかの
間違いあり．
Thm [Raginsky, Rakhlin and Telgarsky, COLT2017]
• 𝑓𝑖 : 有界，Lipschitz連続，滑らかな勾配
• 散逸条件:
(+ その他細かい条件)
for and any 𝜖 > 0.
• 𝜆∗ はスペクトルギャップと言われる量．
→ 次元dや逆温度パラメータβに対して指数関数的に依存．
• 逆温度パラメータが十分大きくて，更新を十分な回数回せば最適解付近に近
づける．

無限次元への拡張 100
正則化
Ex.
• ℋ: 𝐿2(𝜌)
• ℋ 𝐾: 再生核ヒルベルト空間 (e.g. Sobolev空間)
暗黙の仮定: 大域的最適解はℋ 𝐾で十分に近似できる.
最適解
E.g., Bayesian optimization on infinite dimensional space
[Zimmermann and Toussaint. Bayesian functional optimization. AAAI, 2018]
[Vellanki, Rana, Gupta, de Celis Leal, Sutti, Height, and Venkatesh: Bayesian functional optimisation
with shape prior. AAAI, 2019]

無限次元ランジュバン動力学 101
: RKHS with kernel 𝐾.
whereFor , we let .ノルム:
Cylindrical Brownian motion:
(準陰的Eulerスキーム)
時間離散化:

誤差の解析
• 仮定: Lの滑らかさ.
102
[Muzellec, Sato, Massias, Suzuki, arXiv:2003.00306 (2020)]
ただし 𝜅 > 0 は任意の正の実数, 𝑐 𝛽 = 𝛽 (有界な勾配), 𝑐 𝛽 = 1 (強散
逸条件).
𝐿の適当な滑らかさのもと，次が成り立つ：
Thm
(geometric ergodicity
+ time discretization)
(bias of invariant measure)
Λ 𝜂
∗
: スペクトルギャップ，𝛽に対して指数的依存がある．
• 深層学習の最適化への応用と汎化誤差解析：Suzuki, arXiv:2007.05824.

定常分布 103
（無限次元）勾配ランジュバン動力学の定常分布は
ガウス過程事前分布を用いたベイズ事後分布に対応する．
→ 過学習を防ぎ汎化する
(Hilbert空間上のガウス過程)
と解釈しても良い．
[Suzuki, arXiv:2007.05824]

ノイズを加えて平滑化した目的関数を最適化．
ノイズによる平滑化効果 104
[Kleinberg, Li, and Yuan, ICML2018]
smoothing
確率的勾配を用いる ⇒ 解にノイズを乗せている⇒ 目的関数の平滑化

Gradient noise convolution
• SGDはバッチサイズが大きくなるとノイズが小さく
なって局所解から逃れにくくなる．
SGDと同様の異方的ノイズを意図的に加える.
良い汎化誤差を得る．
105
[Haruki, Suzuki, Hamakawa, Toda, Sakai, Ozawa, Kimura: Gradient Noise Convolution (GNC): Smoothing
Loss Function for Distributed Large-Batch SGD. arXiv:1906.10822]
(Figure is from Kleinberg, Li, and Yuan, ICML2018)
smoothing
確率的勾配を模した
変動を加える．
(smoothing)
• 大バッチの並列計算にしても局所解からの脱出が可能.
• SGD由来の異方的ノイズを乗せることで無駄な方向には動かない．
(noise injection)

Performance comparison 106
提案法
Performance
comparison
Validation accuracy Lipschitz continuity of gradient
(smaller is smoother)
Uniform noise

ResNetのODE解釈 108
ResNetの各層は特徴の最適化の一反復，常微分方程式の離散化とみなせる．
𝐹𝑗
+
ℎ𝑗
人間
5.1
ResNet
[E, 2017][Sonoda & Murata, 2017][Li & Shi, 2017]
ResNetと常微分方程式をつなげることで
常微分方程式の数値解法をネットワーク
構造の決定に持ち込める．
→ PolyNet, FractalNet, RevNet, Linear-
Multistep-ResNet, ...
[Lu et al.: Beyond Finite Layer Neural Networks:
Bridging Deep Architectures and Numerical Differential
Equations, ICML2018]

ODE-Net 109
ResNet
ODE-Net
連続化
• 層を連続化することですべての層が一つのネットワークに集約される．
• ODEにすることで汎用ODEソルバーを適用できる．
 入力点に応じて離散化の粒度を変えられる．（層の概念がもはやない）
[Chen et al. Neural ordinary
differential equations.
NeurIPS2018 Best Paper.]
この方向性は現在「流行っている」
しかし，ODE的観点が汎化性能等の意
味で本当に意味があり有用であるかは
慎重な考察が必要である．

ResNetの平均場理論と最適制御
• ResNetは入力から出力へ“最短”で繋いでいる．
→ 最適制御理論による特徴付け (HJB方程式)．
110
𝑥
𝑦
[E, Han, Li: A Mean-Field Optimal Control Formulation of Deep Learning. Research in the
Mathematical Sciences, 6-10, 2019]
[Benning, Celledoni, Ehrhardt, Owren, Schönlieb: Deep learning as optimal control problems:
Models and numerical methods. Journal of Computational Dynamics, 2019, 6(2) : 171-198.]
[Lu, Ma, Lu, Lu, and Ying: A mean-field analysis of deep resnet and beyond: Towards provable
optimization via overparameterization from depth. ICML2020.]
• 最適制御を用いたResNetの平均場における最適化理論研究もある．
最短

ResNet型勾配ブースティング法
111
[Nitanda&Suzuki: Functional Gradient Boosting based on Residual Network Perception. ICML2018]
[Nitanda&Suzuki: Gradient Layer: Enhancing the Convergence of Adversarial Training for Generative Models. AISTATS2018]

ResNetと勾配ブースティング法の類似性
• Residual Network
スキップコネクションを持つ巨大な深層ニューラルネットワーク．
画像認識タスク等でSOTA．
• 勾配ブースティング (XGBoost, LightGBM)
予測器についての関数勾配によるブースティング法 (アンサンブル学習法)．
データマイニング系のコンペティションで最も有用とされるモデル．
ResFGB=両者の関連性に着目したブースティング法
112
[ Veit, Wilber, &Belongie 2016, Littwin & Wolf 2016, Weinan 2017, Haber, Ruthotto, & Holtham 2017,
Jastrzebski, Arpit, Ballas, Verma, Che, & Bengio 2017, Chang, Meng, Haber, Tung, and Begert 2017. etc ]
𝐹𝑗
+
ℎ𝑗
1層加える=勾配法1反復
𝑥 𝑦
層を重ねるごとに目的関数を減少
(関数空間での無限次元勾配法)

ResFGB: ResNet型勾配ブースティング法
• ResNetの特性を備えた勾配ブースティング法
min
𝜙,𝑊
ℒ 𝑛 𝜙, 𝑊 = 𝔼 𝑥,𝑦 𝑙 𝑊⊤
𝜙 𝑥 , 𝑦 .
特徴写像𝜙についℒ 𝑛 𝜙 = min
𝑊
ℒ 𝑛 𝜙, 𝑊 の関数勾配を用いた最適化.
113
[Nitanda&Suzuki: Functional Gradient Boosting based on Residual Network Perception. ICML2018]
(識別問題の経験損失)
ℎ = 𝜙(𝑥)の空間
𝐷 = {𝜙 𝑥 , 𝑦}の分類平面
関数勾配𝛻 𝜙ℒ 𝑛 𝜙 : 訓練データの特徴 𝜙(𝑥)の線形分類
可能性を向上させるための方向の群れ．
未知データに適用するには平滑化が必要．
→ カーネル𝑘 𝑥, 𝑥′
= 𝜄 𝜙 𝑥
⊤
𝜄 𝜙 𝑥′
で畳み込む．
𝜄はNNで十分な降下方向を与えるよう学習．
𝑇𝑘 𝛻 𝜙ℒ 𝑛 𝜙 = 𝔼 𝑥,𝑦 𝛻 𝜙ℒ 𝑛 𝜙 𝑥 𝜄 𝜙 𝑥
⊤
𝜄 𝜙 ⋅
残差ブロック：平滑化された関数勾配．
作り方から直交しない限り常に損失関数の降下方向．
ResFGBの概要
勾配ブースティングの一反復=ResNetの層追加．
関数空間での最適化の観点からマージン分布の最小化を示せる．
→ 新しい勾配ブースティングの理論に基づいた汎化保証付き深層ResNetの学習．

提案手法ResFGBの数値実験 114
中〜大規模データでの多値識別問題．以下の手法と比較．
Random Feature + SVM, Random Forest, Gradient Boosting (LightGBM)
提案手法
SOTAとされるLightGBM以上の精度を確認．
幾つかのデータでは数反復で収束．通常の勾配ブースティングより効率的な最適化．
↑関数勾配の平滑化の仕方の差異による．

内容のアウトライン
• 深層学習の理論
 表現能力
 汎化能力
 最適化能力
• 表現力
• 万能近似性
• 層を深くすることで指数的に表現力増大
• 汎化能力
• 適応的な学習手法を実現→真の関数に非凸性・スパース性が
あれば，カーネル法のような特徴写像を固定する方法に優越
• 陰的正則化等でoverparametrizedな状況でも汎化
• 最適化理論
• Overparametrizeされていれば大域的最適解を得る
• Neural Tangent Kernelと平均場
• スケールの仕方によって凸らしさが変わる→最適化の難しさ
と陰的正則化の種類が変わる（L2 vs L1）
115

まとめ
• 深層学習はなぜうまくいくのか？[世界的課題]
• 数学による深層学習の原理究明
 「表現能力」，「汎化能力」，「最適化」
116
理論により深層学習を“謎の技術”から“制御可能な技術”へ
深層学習を超える方法論の構築へ
カーネル法
スパース推定
テンソル分解
特徴抽出
深層学習の理論
Besov空間
連続方程式 Wasserstein幾何
確率集中不等式
数学確率過程
関数近似理論
学習

深層学習の数理：カーネル法, スパース推定との接点

More Related Content

深層学習の数理：カーネル法, スパース推定との接点