機械学習の理論と実践

機械学習の理理論論と実践
岡野原　⼤大輔
株式会社Preferred Infrastructure 　
hillbig@preferred.jp
SACSIS 2013 チュートリアル
2013/5/23 @ 仙台国際センター

アジェンダ
l  導⼊入編
l  機械学習はどこでどのように何故使われているのか
l  代表的な⼿手法、理理論論、応⽤用
l  実践編
l  実際に機械学習を⾃自分で作ってみる
l  機械学習で求められる計算処理理
l  発展編
l  Jubatus：リアルタイム・分散環境下での機械学習
l  深層学習（DNN）：表現学習/古くて新しい機械学習
2

機械学習とは
l  経験（データ）によって賢くなるアルゴリズムの研究
l  データから知識識・ルールを⾃自動獲得する
l  データの適切切な表現⽅方法も獲得する
l  ⼈人⼯工知能の中で、⼈人が知識識やルールを
明⽰示的に与える⽅方法の限界から⽣生まれてきた
4
学習データ
分類モデル

BigData と機械学習
l  巨⼤大なデータがあらゆる分野で⽣生まれている
l  Volume（量量）, Velocity（⽣生成速度度）, Variety（多様性）
l  データがどこでもある ⇒ 　機械学習がどこでも使える！
5
テキスト⾏行行動履履歴画像⾳音声映像信号⾦金金融ゲノム
⼈人 PC モバイルセンサー⾞車車⼯工場 EC 病院
≪⽣生成される場所≫
≪データの種類≫

機械学習の利利⽤用分野
6
レコメンデー
ションクラス
タリング
分類、識識別市場予測評判分析
情報抽出⽂文字認識識ロボット画像解析
遺伝⼦子分析
検索索ランキン
グ
⾦金金融医療療診断
はじめは⾦金金融、ウェブが中⼼心だったが
それから他分野に急速に広がる

機械学習は総合格闘技
⼈人⼯工知能
パターン認識識
データ
マイニング
確率率率論論
統計
情報理理論論
並列列計算
データベース
アルゴリズム
データ構造
数値最適化
7
知識識をどのように
表現し、獲得するか
⼤大量量のデータから
学習すれば賢くなる
どのように⼤大量量の
データを処理理するか
有限のサンプルから
得た知識識をどのよう
に⼀一般化するか？
知識識を表現する
パラメータを
いかに効率率率的に
最適化するか

機械学習が急速に広まった理理由
特徴表現と分析処理理の分離離
8
特徴抽出：問題や分野の特徴を
捉えた抽象化されたデータ
分野に依存しない
様々な⼿手法の適⽤用
8
⽂文書 (0, 1, 0, 2.5, -‐‑‒1, …)
(1, 0.5, 0.1, -‐‑‒2, 3, …)
(0, 1, 0, 1.5, 2, …)
特徴ベクトル
グラフィカルモデル
分類/回帰
SVM, LogReg, PA, CW, ALOW,
Naïve Bayes, CNB, DT, RF, ANN
クラスタリング
K-‐‑‒means, Spectral Clustering,
NNF, MMC, LSI, LDA, GM, DP
構造分析
HMM, MRF, CRF, …
画像
センサ情報
⾏行行動履履歴
l  異異なる分野で同じ機械学習⼿手法が適⽤用可能

最近の機械学習の進展の例例（１）
⼀一般物体認識識（LSVRC2012優勝チーム）
9
⼀一般物体のカテゴリ認識識
間違えた場合も、納得の
できる間違え⽅方
（右下のtape playerを
携帯電話と間違えている）
http://www.image-net.org/challenges/LSVRC/
2012/ilsvrc2012.pdf

最近の機械学習の進展の例例（２）
コンピュータ将棋・囲碁・チェス
10
http://blog.livedoor.jp/yss_fpga/archives/ 
53897129.html
分野の常識識を変えた学習アルゴリズムの登場により
各分野で⼈人のトップを超えてしまった

•  チェス・将棋
•  Comparison training 　
評価関数の⾃自動学習
•  囲碁
•  Monte-‐‑‒Carlo Tree Search
評価関数が不不要
•  ポーカー
•  Counterfactual Regret
Minimization (CFR)
⼤大規模不不完全情報ゲームの
ナッシュ均衡解の⾼高速計算
詳細は鶴岡慶雅先生のチュートリアル「自然言語処理とAI」を参照

最近の機械学習の進展の例例（3）
SNS分析
11
各ユーザーの属性を
tweetの内容から
⾃自動で推定
　性別・職業
　年年齢・趣味
属性推定ルールは
正解データを元に学習
マスではなく
個⼈人単位での分析が
可能になった

機械学習の⻑⾧長所 (1/4)
データがあればすぐ試せる
l  分類ルールを学習したい場合、正解事例例がいくつかあれば学習可能
l  質問：データがどれくらいあったらうまくいくのか？
l  答え：正解事例例が1つしかなくても動く、多ければ精度度は⾼高くなる
l  必要な正解事例例数は以下のファクターで決まる
l  問題の複雑さ
l  正解事例例に含まれるノイズ量量
l  学習モデルの複雑さ
l  実際は1クラスあたり数⼗十から数百、⼈人⼿手で作れる規模が殆ど
l  すぐ試せる
12

メンテナンスフリー
l  学習の元となるデータを与え続けさえいれば最適化される
l  ルールベースの場合、ルールをメンテナンスしなければならない
l  時間経過とともに運⽤用コストが⼤大きくなり、例例外も次々と発⽣生
l  ⼈人の引き継ぎや、システム統合が発⽣生した場合、メンテナンスは
⾮非常に困難になる
l  機械学習の場合は、ルールではなく、データをメンテナンスする
必要がある
l  ⾃自由度度はルールベースより⾼高く、スケールする
13

問題に対してスケールする
l  データ量量を増やしたり、分類対象数を増やしたり、他の似た問題
にも展開可能
l  ある部署でうまくいっていた⼿手法を他の部署や会社でも展開可能
l  例例：ニュース記事の5カテゴリへの分類が成功した
　　これを次のように拡張可能
l  カテゴリ数を5から100に増やす
l  分類対象をニュース以外にもブログやメールにも増やす
l  分類対象を⽇日本語だけでなく、他100⾔言語に増やす
14

⼈人や⼈人⼯工システムを凌凌駕する性能を出す
l  今までも速度度、網羅羅性、可⽤用性といった部分では
コンピュータが⼈人を凌凌駕する
l  ⼈人はルールや評価関数をうまく表現できない場合も多い
l  ⾔言語処理理・ゲーム・画像認識識・⾳音声認識識などは知識識表現が⼤大変
l  ⼈人⼯工知能の研究分野では、知識識・ルール・評価関数を⼈人が明⽰示的
に与えることに限界があり、データからの獲得に⼒力力を⼊入れた
l  箱庭的な問題だと精度度⾯面でも⼈人を凌凌駕する
l  関係する特徴数が多い場合
l  医療療診断、広告最適化、スパム分類
l  評価関数が分からない場合
l  コンピュータ将棋/囲碁/チェス、機械翻訳、⾳音声認識識
15

機械学習の世界の分類
l  問題設定に基づく分類
l  教師有学習 / 教師無学習 / 半教師有学習 / 強化学習など ..
l  戦うドメインの違い
l  特徴設計屋（各ドメイン毎に, NLP, Image, Bio, Music）
l  学習アルゴリズム屋（SVM, xx Bayes, CW, …)
l  理理論論屋（統計的学習理理論論、経験過程、Regret最⼩小化）
l  最適化実装屋
l  好みの違い
l  Bayesian / Frequentist / Connectionist
l  [Non-|Semi-]Parametric
16
この⼆二つの問題設定だけは
知っておいてほしいので説明

教師有学習 supervised learning
l  ⼊入⼒力力xから出⼒力力yへの関数 f(x)=yを訓練事例例{(xi, yi)}を元に学習
l  出⼒力力yがカテゴリ値の場合は分類、連続値の場合は回帰と呼ぶ
l  訓練事例例を介して、タスクを定義する
l  訓練事例例は正解事例例、教師事例例とも呼ばれる
l  例例１：スパム分類
l  ⼊入⼒力力:メール　　出⼒力力 : スパムor普通
l  例例２：株価予測　
l  ⼊入⼒力力:株価に関係する全情報　　出⼒力力: 明⽇日の株価
l  例例３：遺伝⼦子と病気の相関分析
l  ⼊入⼒力力：各遺伝⼦子の発現量量　　　出⼒力力：患者の症状
17
本チュートリアルは基本的には教師有学習を扱います

教師無学習 unsupervised learning
l  ⼊入⼒力力{xi}のみから学習する
l  クラスタリング、近傍探索索、外れ値検出
l  データ表現を学習する場合が多い
l  クラスタリング、主成分分析、ベクトル量量⼦子化
l  タスクは事前分布、グラフィカルモデル、制約などで与える
l  例例１：店舗クラスタリング　
⼊入⼒力力：店舗情報　　　　　　出⼒力力：似た店舗グループに分類
l  例例２：不不正アクセス検出
⼊入⼒力力：パケット　　　　　　出⼒力力：通常と異異なるアクセスパターン
18

学習＝パラメータwを最適化問題を解くことで得る
w* = argminw Σi L(f(xi; w), yi) + C R(w)
l 教師事例例{(xi, yi)}を利利⽤用し、関数を特徴付ける
パラメータwを推定する
l L(f(xi; w), y) : 損失関数（次項）
l  予測結果f(xi; w)が正解yと違う場合⼤大きな値をとる
l R(w) : 正則化項
l  C>0はトレードオフパラメーター
l 多くの場合、上記の問題は凸最適化問題となる
19

損失関数の例例
各損失関数は0/1 Lossの上界かつ、凸な関数
I(m > 0) (0/1 Loss)
max(0, 1 – m)
(hinge-loss: SVM)
log(1 + exp(-m))
(log-loss: logistic 回帰)
exp(-m))
(Exp-Loss:Ada-Boost)
m = ywTxの値
二値分類の場合  
m=ywTxとした時

分類器が間違って 
いる

機械学習を理理解する上で重要な5概念念
l  特徴表現
l  汎化・過学習
l  正則化
l  次元の呪い
l  BiasとVariance
21

1.特徴抽出
l  ⼊入⼒力力データから特徴を抽出し特徴ベクトルで表す
l  テキスト、画像、⾳音声、数値
l  各領領域の専⾨門家による職⼈人芸だったが近年年変化（詳細は後述）
22
周囲が黄色 1
中心が茶 1
花びらの割合 0.7
⾼高さ 150
世の中ではビッグデー
タというキーワードが
注⽬目されていますが，
⼀一⼝口にビッグデータと
いっても⽴立立場や観点に
よって定義は様々です．
他の要素は0とする
ビッグデータ 2
世の中 1
キーワード 1
定義 1
IT関連
ひまわり
特徴ベクトル
分析結果

2.汎化・過学習
l  「未知のデータを正しく予測*できるような、ルールを学習する」
l  教師事例例を100%正しく分類できる分類器が得られても、未知
のデータを正しく分類できるとは限らない
l  教師事例例だけでなく、未知のデータを正しく予測できる能⼒力力を
汎化能⼒力力と呼びこれを得ることが機械学習の⽬目標
l  教師事例例のみを正しく予測でき、⺟母集団のデータを正しく予測で
きない状態を過学習と呼ぶ
23
（未知の）
データ⺟母集団 D
(x1, y2)
(x2, y2)
…
(xn, yn)
F(x) = y
 
学習で得られた 
モデル
サンプリングされた 
教師事例
*分類以外も同様である

過学習の例例
24
http://research.preferred.jp/2010/12/
subgradient-optimization-3/
真の予測したいモデルが y = x2の時、そこから得られた教師事例例（⿊黒点）
に対し学習させて得られたモデルが⾚赤線。
教師事例例は正しく推定できているが元のデータの推定誤差は⼤大きい

3. 正則化
l  学習時に「教師事例例を正しく分類する」以外の⽬目標を導⼊入したい
l  過学習を防ぐことが可能　　例例：単純なモデルを選ぶような正則化
l  問題の事前知識識を組み込む　例例：少数の特徴のみが問題に関係
l  多くはパラメータへの正則化項として導⼊入できる
l  L∞/L2/L1正則化, Elastic-net, Grouped Lassoなど
l  例例：線形回帰の学習時にパラメータにL2正則化を適⽤用する
f(w)
=
∑i(yi
–
wTxi)2
+
C|w|2

25

4. 次元の呪い
l  ⾼高次元データを扱う場合は、いろいろ⾯面倒なことがでてくる
l  ⾃自然⾔言語処理理やDNA解析では数百万次元は当たり前
l  対象問題の次元数の増加に伴い、必要なサンプル数が急増する
l  d次元で1辺の⻑⾧長さが10である超⽴立立⽅方体中の単位超⽴立立⽅方体の数
d=3の場合 1000だが、d=10の場合 1000000000
l  ⾼高次元中においては、殆どの点が中⼼心から遠い
l  1辺の⻑⾧長さが1の超⽴立立⽅方体の中で、1辺の⻑⾧長さが0.9の超⽴立立⽅方体が
占める体積の割合は d=3の場合 72%、d=100の場合 0.002%
26

5. Bias と Variance
l  学習結果による推定の誤差は次の⼆二つに分解される
l  Bias （バイアス）
l  学習モデルの期待値と、
真のモデルとの差
l  Variance（バリアンス）
l  各推定結果のぶれぐあい
l  この⼆二つはトレードオフの関係
l  バイアス⼩小 ⇒ バリアンス⼤大
l  表現⼒力力が⾼高い学習モデルは
バイアス⼩小, バリアンス⼤大になりがち
27
真に推定したいモデルが中央である場合、
各学習結果が各青点に対応する
図はhttp://scott.fortmann-roe.com/
docs/BiasVariance.html

実際に機械学習を作ってみる
l  機械学習の多くは実装は簡単！
l  今回はオンライン機械学習 + 線形分類器を作る
29

バッチ学習
l  データ全体を受け取ってからパ
ラメータを最適化
l  収束が遅い（特に初期収束）
l  教師事例例全体の保持が必要
l  実装は煩雑
l  最適化ライブラリとかを利利⽤用
l  データを１つずつ受け取るたび
にパラメータを即時更更新
l  収束が速い
l  教師事例例は捨てられる場合が多い
l  実装は単純
l  Regret解析で性能解析可能
30
オンライン学習
l  近年年の殆どの場⾯面でオンライン学習を採⽤用
l  多くのバッチ学習は確率率率的最急降降下法(SGD)でオンライン化可能

線形識識別器（⼆二値分類）
f(x;
w)
:=
sign(wTx)

l ⼊入⼒力力 x
∈
Rm
から出⼒力力 y
=
{-‐1,
+1}
を予測する識識別関数 f(x; w)
l  w∈Rm が各特徴の重みであり、重み付き多数決で出⼒力力を推定
l 単純ベイズ法、SVMs、ロジスティック回帰など多くの分類器が

線形識識別器に属する

l  分類の計算量は非零の特徴数に比例

sign(z)
:=
+1
if
z
>=
0
and
-‐1
otherwise

w1
….
w2 w3 wm
x1
….
x2 x3 xm
*
*
*
*
sum

線形識識別器の多値分類への拡張
f(x;
w)
:=
arg
maxy
wT
yx
l ⼊入⼒力力 x
∈
Rm
から出⼒力力 y
=
{1,
2,
…,
k}
を予測する識識別関数 f(x)
l  重みは特徴、出力候補毎に用意

l 以降降紹介する⼆二値分類の学習式はy(i)wTx(i)の部分を

Δ:=
wy(i)
Tx(i)
–
wy’
Tx(i)に置き換えることで多クラス分類に拡張可能

l  但しy’は最もスコアが高かった不正解ラベル y’
:=
argmax
y≠y(i)
wy
Tx(i)

l クラスラベル数が⾮非常に⼤大きくても、argmax
y≠y(i)
wy
Tx(i)
さえ

⾼高速に求まれば学習可能

l  c.f. 構造学習

学習アルゴリズムの基本形
l  紹介する学習アルゴリズムは全て次の繰り返しで表現できる
1.  教師例例 (x, y) を受け取る
2.  現在の識識別器で正しく分類できるかを調べる ywTx > E ?
3.  正しく分類できないのであればwを次のように更更新
w := w + yαAx
但し、α>0∈R, A∈Rmxm は半正定値⾏行行列列（対⾓角⾏行行列列の場合が多い）
l  E, α, Aをいかに適切切に設定するかで、学習性能が変わってくる
l E: 更更新条件
l α : ステップ幅
l A : 各特徴毎の更更新幅．c.f. マハラノビス距離離

更更新の意味
l  α> 0、Aが半正定値⾏行行列列の時

ywi+1
Tx = y(wi+yαAx)Tx
= ywi
Tx + y2α(Ax)Tx
= ywi
Tx + αxTAx
≧ ywi
Tx
l  今の訓練例例は少なくともより正しく分類されるようにwを更更新
常に正
wt
y > 0
y < 0
-αAx
wt+1
x
y=-‐1

線形識識別器のオンライン学習アルゴリズム
次の⽅方法を紹介
l  Perceptron

l  Passive-‐Aggressive

l  Conﬁdence
Weighted
Learning

l  Adaptive
Regularization
of
Weight
Vector

l  Normal
HERD

l  Soft
Conﬁdence
Weighted
Learning

下に⾏行行くほど
より⾼高精度度、速く収束
•  1958

•  2002

•  2006

•  2009

•  2010

•  2012

登場した年年

Perceptron [Rosenblatt Psy. Rev. 58], [Collins EMNLP 02]
l  訓練例(x, y)に対し、現在の線形識別器wで分類できるかを調べ
誤って分類した場合は w := w + yx と更新
l  E = 0, α = 1, A = I に対応
l  単純な更更新式だが、多くのタスクで強⼒力力な学習⼿手法
l  最終的に得られたwではなく全ステップの平均wa := ∑wiを利利⽤用する
Averaged Perceptronが良良く使われる
l  Perceptronは訓練例例が線形分離離可能な場合、有限回の更更新で全て
の訓練例例を分類できるパラメータを⾒見見つけられる（次項）
l  線形分離離可能で無い場合でも、多くの訓練例例を正しく分類できるwを
⾒見見つけられる [Collins 02]

定理理：訓練例例 {(x(i),
y(i))}N
i=1…N, |x(i)|2<R,
がある重みuでマージンγで分
類可能（y(i)uTx(i)≧γ）ならば、Perceptronの更更新回数は⾼高々 (R/γ)2回

証明：

wkをk回⽬目の更更新直前の重みとする．

wT
k+1u
=
wT
ku
+
y(i)x(i)Tu
　

≧
wT
ku
+
γ

≧
kγ

(w0
=
0)

また、

|wk+1|2=|wk|2
+
2y(i)wk
Tx(i)
+
|x(i)|2

≦|wk|2+R2

　　 (wkで間違えた訓練例例なので、y(i)wk
Tx(i)<0）

≦kR2

上記２つより

kR2≧|wk+1|2
≧
|wT
k+1u|2
≧
k2γ2
⇒
(R/γ)2
≧
k

訓練例例数や特徴次元数に
依存しない !

Passive Aggressive
[Crammer, JMLR 06]
l  マージン学習のオンライン版
l  SVMと同じhinge lossを利用
l  Gmailの優先トレイの学習でも利用 [Aberdeen LCCC 2010]

l  次の２つの条件を満たす重みwを探す

l  現在の訓練例(x,
y)を正しく分類

l  今までの重みベクトルwiに近い
(=
これまでの訓練例を正しく分類）
l  wi+1
=
argminw
|w-‐wi|2/2
+
C
L(x,
y,
w)2

l  但し、L(x, y, w) = [1 – ywTx] (hinge–loss)
l  この問題は閉じた式で得られる

Passive Aggressive (続）
wi+1 := wi + y l(x, y, w)/(|x|2 + 1/C) x
l PAの最適化問題は閉じた解を持ち、次のように更新可能
l  E
=
1

l  α=
L(x,
y,
w)
/
(|x|2
+
1/C)

l  A
=
I

l α∝L(x, y, w)であり、誤った割合に比例した更新幅を使う
更更新式
wi+1 := wi + αAx

Confidence Weighted Algorithm (CW)
[K. Crammer, et. al, EMNLP 09]
l  重みwがガウス分布N(μ,
Σ)に従って分布しているとする
l  μ∈Rmは現時点で最良良の重みベクトル
l  Σ∈Rmxmは各重みの確信度度を表す共分散⾏行行列列
1.7
0.6
従来の更新例
wi
wi
N(1.7, 0.5)
N(0.6, 0.4)
CWの更新例
単一のパラメータ 
に足し引きするだけ
パラメータ自体が分布を 
持っている
（パラメータ間も）

CW（続）
l  PAと同じように次の２つを満たす分布（μ, Σ)を探す
l  現在の訓練例例を正しく分類
l  今までの分布に近い（KL-Divergenceの条件で）
l  arg
minμ,
Σ
DKL(N(μ,
Σ)
||
N(μi,
Σi))

s.t.
Prw〜～N(μ,Σ)[ywi
Tx
≧
0]
≧
η

l  この最適化問題は閉じた解を持つ
l  E, α, Aをx, y, μ, Σに関して閉じた式で与えることができる
l  PerceptronやPAと比べると複雑な式
l  ⾼高い学習効率率率
l  自然言語処理の多くのタスクでは１回データを回すだけで収束

News Groupsのトピック
Amazonレビューの上位７タイプ
Amazonレビューの上位タイプ
EnronのUser Aの上位10フォルダ
EnronのUser Bの上位10フォルダ
NewYork Times
殆んどのタスクで既存のオン
ライン学習のみでなく通常の
学習器より⾼高精度度
[K. Crammer, et. al, EMNLP 09]

Adaptive Regularization of
Weight Vectors (AROW) [Crammer NIPS+ 09]
l  CWは訓練例例にノイズがある場合に急激に性能が劣劣化
l  更更新式では今の訓練例例を必ず分類するようにしているため
l  学習時に三つの条件を同時に考慮し最適化
条件1: 現在の訓練例例を正しく分類
条件2: 今までの分布に近い（KL-Divergenceにおいて）
条件3: 各特徴のConfidenceを更更新毎に上げる
arg
minμ,
Σ

DKL(N(μ,
Σ)
||
N(μi,
Σi))
+
λ1L(x,
y,
μ)
+
λ2
xTΣx
l  E, α, Aは閉じた式で求めることができる
CWでは1が常
に最優先
条件2
条件1
条件3

AROWの実験結果
l  左上にあるほどAROW > CW
l  ノイズ⼤大⇒AROWの精度度>CWの精度度
ノイズ 0%
ノイズ 10%
ノイズ 30%

NHERD
[Crammer+ NIPS 10]
l  重みベクトルwがガウス分布N(μ, Σ)に従って分布しているとする
l  各重みベクトルをそれぞれPAの条件に従って更更新した後にこれを
ガウス分布で近似する
l  CWの場合は、現在の分布にKL-divergenceで近い分布で正しく分
類できるものを探していたがNHERDはマハラノビス距離離上で
のユークリッド距離離
l  NHERDは重みベクトルの群れ(HERD)を正規化しながら更更新
l  α, E, Aは閉じた式で求めることができる
l  AROWと比べると積極的な更新を行う

NHERDの更更新例例
μ
=
(0,
0)
,
Σ
= I

に訓練例
x = (1, 2), y = 1
を与えた時の更新の様子

青は|w|=1, 緑は|w|=2の
重みベクトルの集合

真ん中の線は正しく分類、
上側のdash線はマージン1で
正しく分類
[Crammer+ NIPS 10]

線形識識別器のまとめ
E α Update(A) (arr :=)
Perceptron 0 1 1
PA (PA-II) 1 [1-‐ywTx]
/
(|x|2
+
1/C)
1
CW γ γ (arr
-‐1

+
2γ
xr)-‐1
AROW 1 [1-‐ywTx]β arr
–
β(arrxr)2
NHERD 1 [1-‐ywTx]/(v
+
1/C) (arr
-‐1
+
(2C
+
C2v)xr
2)-‐1
Given (x,
y)

If ywTx
<
E
then  
w := w + αAx
Update(A)
v
=
xTΣx

b
=
1.f
+
2ywTxC

γ
=

(-‐b
+
(b2-‐8C(ywTx
–
Cv))1/2)
/

4vC

β
=
(v
+
r)-‐1
いずれのアルゴリズムも更新時間はO(|x|0)

確率率率的勾配降降下法
(SGD: Stochastic Gradient Descent)
l  ⼀一般の教師有学習は⽬目的関数F(w)の最⼩小化問題を解いて学習
l  従来の勾配降降下法
l  F(w)を最⼩小化するwを求める際、勾配 v =∂F(w)/∂w を求め
w := w – τv と更更新
l  τ>0 は学習率率率と呼ばれる．
l  SGD:確率率率的勾配降降下法
l  ∂F(w)/∂w を⼀一部のデータから得られた勾配で近似 v’ := ∂F(w)/∂w
その情報を元にwを更更新 w := w – τv’
l  例例えば、1〜～128事例例からv’を計算
l  SGDの⽅方が圧倒的に学習速度度が速い。なぜか？
48

SGDが速い理理由
l  SGDは最適解から離離れている時にはとても速い
l  通常の勾配降降下法と⽐比べて数倍から数百倍速い
l  少数のサンプルから求められた勾配を使っても、今の位置よりは
良良い領領域にたどり着くのに⼗十分な情報
l  少ない計算量量で⼤大雑把な勾配を求め、更更新回数を多くする
49
各訓練事例の損失関数から
得られる勾配方向 ∂L(f(x; w), y)/∂w
現在のパラメータ
現在のパラメータが最適解と離れている場合、
勾配の方向は十分に一致する

より実践的な機械学習へ (1/2)
l  機械学習の研究分野ではベンチマーク性能への固執、評価関数の
優位性、応⽤用との乖離離が指摘されている [K. L Wagstaff ICML12]
l  必ずしも機械学習に限った話ではないが・・
50

より実践的な機械学習へ (2/2)
l  今後は以下の研究課題も検討するべき
l  ある問題が与えられた時どのように機械学習として定式化するか？
l  データ収集をどのように⾏行行うか、どのように訓練事例例を作るか？
l  データから、いかに特徴量量を抽出するか？
l  複数の学習/推論論アルゴリズムが存在する時、どれを選ぶか
l  結果をどのように解釈するか
l  世の中の問題における実際の要求スペックを満たせるか
l  サイズ、速度度、リソース、安定性、可⽤用性、分かりやすさ
l  開発コストとリターンをあらかじめ予測できるか
51

機械学習を利利⽤用する時の注意
l  機械学習をツールとして利利⽤用する際の注意を
これまでの経験からいくつか紹介する
1.  データを増やす >> ⼿手法を頑張る
2.  最新のデータを使う
3.  データを実際に観察する
4.  疎なパラメータ、密なパラメータ群で適切切な計算を⾏行行う
52

1. データを増やす >> ⼿手法を頑張る
l  “⼤大量量のデータによる学習は、賢い学習⼿手法を凌凌駕する”
l  学習データ量量を増やすことによる精度度の改善は、学習アルゴリズ
ムの改善を凌凌駕する場合も多い
l  統計的機械翻訳、⾳音声認識識、画像認識識、コンピュータ将棋など
l  例例えば、機械翻訳で⾔言えば正解事例例（対訳⽂文）の量量の対数に精度度
（BLUEスコア）は⽐比例例する
l  データ量量の勝負にするところまで学習問題を頑張って設計し、
あとはデータ量量を圧倒的に増やし、凌凌駕する
l  機械翻訳、⾳音声認識識、広告最適化、コンピュータ将棋/囲碁など
53

2. 最新のデータを使う
l  最新のデータを使うことが量量と同じくらい重要
l  例例えばレコメンドの場合、
ユーザーの要求は直近の情報により現れている
l  性別　　　　　　　　　　　 “⼥女女性”
l  過去に最も⾒見見たジャンル “化粧品”
l  クエリ⽂文字列列 “チョコ”
l  直前に⾒見見たページ遷移列列 “ミッキーマウス⼿手作りチョコ”
l  ⾒見見ている時間 “2/13 19:00”
直近の情報を利利⽤用できない場合
どんな⼿手法を利利⽤用しても予測することは不不可能
54
新鮮な 
データ

3. データを実際に観察する
l  機械学習をする際に、その⽣生データを⾒見見たことがない⼈人が多い
l  与えられたデータをブラックボックスとして扱っている
l  ⽣生のデータを観察し、中⾝身を確認する
l  必要に応じて、データの要約、可視化も必要
l  1000ぐらいのデータだったら全部⽬目でみてみる
l  分類結果も⾒見見てみる
l  正解が間違っている、分類軸が間違っている、評価軸が間違って
いる場合も⾮非常に多い
55

4. 疎なパラメータ、密なパラメータへの対応
l  パラメータの性質に合わせて⾼高速化を図る
l  数⼗十倍から数千倍、速度度が変わってくる
l  疎なパラメータの場合
l  ⾃自然⾔言語処理理/画像認識識/⾏行行動履履歴がある
l  数千万次元中、1〜～100程度度の値だけが⾮非ゼロ
l  ⾮非ゼロの要素数に⽐比例例する計算⼿手法を活⽤用する
l  密なパラメータの場合
l  冗⻑⾧長な場合が多い、これを排除して⾼高速化する
l  まず特異異値分解を⾏行行い、上位の特異異値に属する要素だけを利利⽤用する
l  乱択化SVDなどを利利⽤用すれば、特異異値の近似は1万 x 1万程度度の上
位10個の特異異値分解は0.5秒で求められる (c.f. redsvd）
l  特異異値分解された上で様々な計算を⾏行行う、殆ど精度度に差がない
56

機械学習はスケーラブルかつリアルタイムに
l  Jubatusは２つの流流れを融合している
58
WEKA

　

1993-‐
SPSS

1988-‐

Mahout

2006-‐

Online
ML
alg.

Structured

Perceptron
2001

PA
2003,
CW
2008

リアルタイム

オンライン
Batch

小規模

単体

大規模

分散並列

Jubatus

2011-‐

l  NTT SIC*とPreferred Infrastructureによる共同開発
l  OSSで公開 http://jubat.us/
Jubatus
59
リアルタイム
ストリーム分散並列列深い解析
* NTT研究所サイバーコミュニケーション研究所
　ソフトウェアイノベーションセンタ

特徴1: リアルタイム / ストリーム処理理
l  様々な処理理をリアルタイム、ストリームで処理理
l  解析結果は、データ投⼊入後すぐ返って来る
l  データを貯めることなく、その場で処理理
l  学習モデル更更新もリアルタイムに⾏行行う
l  twitterの内容を分析して分類するのは6000QPS
l  従来バッチで処理理していた様々な解析をリアルタイム・ストリー
ムで同様の精度度で処理理できるよう、新しく解析⼿手法を開発
60
分析モデル
従来：バッチ処理理
60
分析モデル
Jubatus：ストリーム処理理

特徴2: 分散並列列処理理
l  スケールアウト：ノードを追加することで、性能向上ができる
l  処理理量量に応じてシステムの⼤大きさを柔軟に変更更可能
l  ⼩小さいデータから⼤大きなデータの処理理まで同じシステムで処理理
l  耐故障性も確保
l  各ノードが完全に独⽴立立な処理理なら簡単だが、それぞれが情報を蓄
積し、それらを共有して処理理するのは⼤大変
⇒ 　モデルの緩やかな共有で解決（後述）
61

特徴3: 深い解析
l  単純な集計、統計処理理だけではなく、分類・近傍探索索・グラフ
解析・外れ値検出など様々な機械学習⼿手法をサポート
l  ユーザーはデータを投⼊入すればこれらの分析処理理を実現できる
l  ⾮非定形データを扱えるように、データからの特徴抽出もサポート
l  多くの機械学習ライブラリはここがサポートされていない
l  特徴抽出はプラグイン化され、テキスト、画像、センサ、映像な
ど様々な種類の情報を扱えるように
62

問題：分散とオンラインの融合は困難
l  オンライン学習は頻繁に更更新する

l  オンライン学習をそのまま分散化した場合、モデルの同期コストが

⾮非常に⼤大きくなってしまう

63
バッチ学習
オンライン学習
Learn

Model
Update
Time
Learn

Model
update
Learn
Model
Update
Learn
Model
update
Learn
Model
update
Learn
Model
update
モデル更更新時で
同期をとり

並列列化は容易易
更更新が頻繁なので
並列列化は困難

解決：緩やかなモデル情報の共有
l  Jubatusは各サーバーのモデル情報を「緩やか」に共有する
l  データ⾃自体は共有せず、モデルのみ共有する
l  既存システムと違う割り切切り
l  全サーバー間で同時刻に同じモデルが存在することは保証しない
l  サーバー毎に解析が（実⽤用上問題が無い程度度に）異異なることを許容
l  時間が経つにつれ、モデル間の情報は共有されていく
64
異異なるサーバー間で
解析結果は似ている
が共有されない
お互いのモデル情報を
mixして共有

Jubatusの優位性：
M2Mデータ解析に重要な機能を揃える
l  従来のデータ分析システムと⽐比較したJubatusのアドバンテージ
65
Jubatus Hadoop CEP RDBMS
⼤大規模
データ蓄積
対象外 ◎
HDFS/HBase
対象外
○
中規模まで
バッチ
機械学習
○
○
Mahout
✕ ◎
SPSS等
ストリーム
処理理
○ ✕ ◎ ✕
分散
機械学習 ◎
○
Mahout
✕ ✕
オンライン
機械学習 ◎ ✕ ✕ ✕
重要度度：
⾼高い

CEPとJubatusの⽐比較
l  複雑なロジックを組むことはで
きず、ドメイン知識識に基づい
たルールの設定が必要
l  その後も状況の変化とともにル
ールのメンテナンスが必要
l  サーバー間のデータ共有は困難
l  様々な深い分析を⾏行行うことが可能
l  ルールはデータから⾃自動獲得する
l  データや環境の変化に対応
l  サーバー間で解析モデルを瞬時
に共有
66
CEP
Jubatus

HadoopとJubatusの⽐比較
l  データ分析基盤を更更に実現しな
ければならない
l  データ解析は全処理理終了了時に得
られる
l  様々なエコシステムが存在、プ
レイヤーは多い
l  あらかじめデータ分析に必要な
機能が備わる
l  データ解析は瞬時に実現
l  分散によるオーバーヘッドは殆
ど存在しない
l  各モデルはローカルに保存
67
Hadoop
Jubatus

MahoutとJubatusの⽐比較
l  バッチ機械学習をサポート
l  分散並列列化されているのは⼀一
部で、スケーラブルではない
l  実装のクオリティはまちまちで
あり、統⼀一感はなく商⽤用レベル
ではない
l  オンライン機械学習をサポート
l  全ての処理理が分散並列列化
l  同じ開発コミュニティが継続的
にメンテナンスし、改善
68
Mahout
Jubatus

Jubatusの機能概要
l  Jubatusでは様々な分析⼿手法をサポート
l  多値分類・回帰
l  統計
l  近傍探索索
l  グラフ解析
l  外れ値検出
l  これらを組合せることにより、多くの課題を解決が可能
l  スパムフィルタ（メール分類）
l  電⼒力力消費量量予測（回帰）
l  ユーザー属性推定（レコメンデーション）
l  ログからの異異常検知（外れ値検出）
l  攻撃の標的になりやすいハブノードの発⾒見見（グラフの中⼼心性）
69

多クラス分類・回帰
l  ⼊入⼒力力xに対し、出⼒力力yを推定する
l  正解データ{(x, y)}を利利⽤用しxからyの関数を学習
70
タスク⼊入⼒力力x 出⼒力力y
メール分類メールスパム or 普通 or 重要等
Twitterのユーザー分析 Tweet ユーザーの性別、職業、年年齢など
電気使⽤用料料需要の予測パケット各サーバーの予測使⽤用量量（連続値）
広告のコンバージョン予測アクセス履履
歴、広告
クリック、コンバージョンするか
監視カメラ解析監視カメラ
画像
部屋の状態（明かりがついている？
⼈人がいるか？など）

近傍探索索を⽤用いた推薦（レコメンド）機能
l  分散＋リアルタイム＋深い解析はレコメンドでも実現！
l  分散：データは分散環境で管理理され、スケーラブル
l  リアルタイム：登録したデータは即時に、推薦対象となる.
推薦結果はすぐに返って来る
l  深い解析：各データはデータから特徴抽出を⾏行行った上で類似度度計算
71
膨⼤大なデータの中か
ら似たデータを⾼高速
に求める

外れ値検出
-5
-4
-3
-2
-1
0
1
2
3
4
5
-5 -3 -1 1 3 5
72
膨⼤大なデータの中か
ら他と似ていないも
のを⾼高速に発⾒見見
l  元データが⾼高次元でも⾼高精度度な近傍探索索によって外れ値検出を実現
l  アルゴリズム: オンライン外れ値検出アルゴリズムを分散⽤用に改良良
l  距離離計算: 裏裏側の近傍探索索機能によって近似的に計算

グラフ解析
l  点と枝の集合で表されるグラフデータに対し、最短路路探索索、
中⼼心性の計算を提供
l  グラフ中の点や枝の追加、削除、更更新に対応
l  真の値に近い最短路路経路路を⾮非常に⾼高速に求める
l  中⼼心性の計算も⾼高速に求める
73
◆SNS
出典：http://idc.7-‐‑‒dj.com/sns/feat.html
◆インターネット
出典：http://www.soumu.go.jp/
main_̲sosiki/joho_̲tsusin/security/kiso/
illust/internet.gif
73
◆交通
出典：www.mlit.go.jp/common/000057575.pdf

Jubatusの基本操作

UPDATE,
ANALYZE,
and
MIX
1.  UPDATE
l  データを受け取り，学習操作を⾏行行いローカルモデルを更更新
2.  ANALYZE
l  データを受け取り，ローカルモデルを利利⽤用し分析結果を返す
3.  MIX (automatically executed in backend)
l  複数のローカルモデルを混ぜ，その結果を返す
l  C.f. Map-Shuffle-Reduce operations on Hadoop
l  アルゴリズム設計者は次の問題を気にする必要はない
l  分散ロジック
l  データ共有
l  対故障性
74

UPDATE
l  データは任意のサーバーに送られる

l  データに基づきローカルモデルがアップデートされる

l  データは共有しない
75
Local
model
1
Local
model
2
Initial
model
Initial
model
Distributed 
randomly
or consistently

MIX
l  各サーバーはローカルモデルの差分を送る

l  モデルの差分はマージされ、再度度配布される

l  モデルの差分はモデル⾃自⾝身と⽐比べ⾮非常に⼩小さく転送コストは⼩小さい

76
Local
model
1
Local
model
2
Mixed
model
Mixed
model
Initial
model
Initial
model
=
=
Model
diff
1
Model
diff
2
Initial
model
Initial
model
-
-
Model
diff
1
Model
diff
2
Merged
diff
Merged
diff
Merged
diff
+
+
=
=
=
+

UPDATE
(iteration)
l  各サーバーはMIX後のモデルから学習を⾏行行う

l  MIX後のモデルは全サーバーの情報を持っており徐々に改善される

77
Local
model
1
Local
model
2
Mixed
model
Mixed
model
Distributed 
randomly
or consistently

ANALYZE
l  データは各サーバーにランダムに送られる

l  各サーバーは、ローカルモデルのみを元に分析を⾏行行う

l  他のサーバーへの問い合わせは行わず，全てローカルで処理

l  結果はクライアントに返される
78
Mixed
model
Mixed
model
Distributed 
randomly
Return prediction
Return prediction

まとめ：Jubatusがなぜリアルタイムで処理理できるか
1.  オンライン機械学習を採⽤用している

l  オンライン機械学習を分散化するための手法は開発

2.  UPDATE処理理はローカルに⾏行行わる

l  UPDATE時に他のサーバーとの通信は必要ではない

3.  モデル情報のみをMIXする

l  MIXは小さく、転送コストは小さくなり、低レイテンシで共有可能

4.  ANALYZE処理理はローカルに⾏行行われる各サーバーはMIX後のモデル
を持ち，他に問い合わせしなくても全体の情報をしっている

l  低レイテンシで推定可能

5.  全ての処理理はメモリ上で⾏行行われる

l  モデル情報は小さくメモリ上で処理可能

79

Jubatusの今後
l  仮説検証を様々なドメインで実施中
l  ソーシャルデータ
l  セキュリティ
l  HEMS / BEMS
l  ⾞車車
l  特にM2M分野と既存分野の融合領領域
l  新機能開発
l  クラスタリング、時系列列解析などのサポート
l  秘匿匿化データマイニング，組み込み向けの改良良
l  ドメインに応じた分析⼿手法の開発も可能
l  ⼀一緒にJubatusの可能性を検証できるパートナーを探しています！
80

DeepLearning
深層学習
l  機械学習は次の２つのステップからなると説明した
l  STEP1 ⼊入⼒力力データからの特徴抽出
l  STEP2 特徴に対する学習・推論論
l  特徴抽出は今でもドメイン知識識や⼈人⼿手による試⾏行行錯誤が必要
l  ⾃自然⾔言語処理理、画像処理理、⾏行行動履履歴 … 毎に異異なる技
l  Feature Engineeringとも呼ばれる⼀一種のアート
l  どれを使うか、どう組み合わせるのか、値はどうするのか
l  特徴抽出も⾃自動化できないか？
l  特徴抽出は機械学習の実⽤用上なボトルネック
l  ⼈人⼿手は本当に最適か、さらに改善できないか？
⇒ 　深層学習
82

ニューラルネット(NN)の歴史 (1/2)
l  1940年年代頃から何度度もブームが
l  Perceptron, BackPropagation, …
l  しかし90年年代頃からの⻑⾧長い冬の時代
l  2006年年からDeep Neural Netとしての復復活
l  Hinton, BengioらによるPreTraining とAutoEncoderの登場
l  深い階層を持った場合でも勾配が拡散せず学習できる
l  Ngらによる視覚野の働きに似た画像特徴抽出
l  ⼈人の視覚認識識の仕組みを部分的に再現できた
l  しかしまだ⼀一部の研究者のみが注⽬目している状況
83

ニューラルネット(NN)の歴史 (2/2)
l  2010年年以降降の発展
l  多くの分野でのベンチマークテストによる圧勝
l  ⼀一般物体画像認識識、⾳音声認識識、薬物活性予測
l  これまでのstate-of-the-artを⼤大きく凌凌駕すると共に、
⾮非専⾨門家が達成したことに衝撃
l  ⼤大規模NNからの教師無学習（後述）
l  Googleらがは1000万枚の画像を利利⽤用してパラメータ数が数⼗十億
からなる⼤大規模NNを2000台（16000コア）で1週間で学習
l  教師無し学習で知識識のようなものが得られる
84
ブログ記事：「ニューラルネットの逆襲」
http://research.preferred.jp/2012/11/deep-‐‑‒learning/

なぜ深層学習がこれほど成功したか
l  Hinton⽈曰く：「Bengioらが90年年代に培った⼿手法」
　　　　　　　　+ 「⼤大規模データ」 + 「DropOut」
l  特に⼤大きなブレークスルーがあったわけではない
l  学習⼿手法の改善
l  PreTraning, AutoEncoder, Dropout, Maxout、学習率率率調整
l  実装技術の改善
l  GPGPUや⼤大規模クラスタの利利⽤用
l  ニューラルネットはこれまで注⽬目されていなかっただけ
　+ これまでの学習⼿手法の煮詰まり感
l  既存⼿手法（線形分類器、ベイズ、カーネル法）に関して
やれることはほぼやった。特徴抽出は⽐比較的⼿手付かず
85

NNの基礎
l  これまで扱ってきた多くの学習器は１層の線形分類器
l  多層ニューラルネットは、各層が隣隣接層とくっついている
86
x1
y
x2 x3 x4 x5
w1
w2
w3
w4
w5
x1 x2 x3 x4
x1 x2 x3
x1 x2 x3 x4
x1 x2 x3
それぞれが⾮非線形関数

NNの代表的なアーキテクチャー
l  多層NN
l  Restricted Boltzmann Machine (RBM)
l  観測層(v)と隠れ層(h)の間にのみ依存関係がある確率率率分布
87
x1 x2 x3 x4
x1 x2 x3
x1 x2 x3 x4
x1 x2 x3
v1 v2 v3 v4
h1 h2 h3

NNの⼯工夫１：PreTraining, AutoEncoder
l  多層の場合BackPropagation時に更更新項が拡散する問題があった
l  各層の重みをデータからの教師無学習で初期化しておき解決
l  元のデータをうまく復復元できるように各層をGreedyに学習
⇒ データを段階的に抽象化した表現を得る
88
x1 x2 x3 x4
h1 h2 h3
x’1 x’2 x’3 x’4
入力層
出力層
⼊入⼒力力層と出力層 
の値が同じに 
なるように学習 
＝データの低次
元表現を学習
x1 x2 x3 x4
h1 h2 h3
x1 x2 x3 x4
h1 h2 h3
x’1 x’2 x’3 x’4
学習して得られ
た出力を入力と
みなし次の層を
同じように学習 
これを繰り返す

NNの⼯工夫2：DropOut
l  NNは表現⼒力力の⾼高いモデルなので過学習しやすい
l  各データ毎の更更新時にランダムに素⼦子の半分を消した状態で学習
l  ランダムに各素⼦子の出⼒力力を０とみなす
l  推定時には、各素⼦子からの出⼒力力を1/2にして推定する
l  これは1層の場合は各学習時の平均に対応する
l  過学習を防ぐ役割を果たす
l  複数モデルの結果の平均をとっていることに対応
l  MaxOutと呼ばれる関数を利利⽤用した場合、多層であってもDropOu
tが良良い近似となり⾼高い学習性能を⽰示す
l  現在多くのタスクでMaxOut+DropOutが最⾼高性能
89

学習の⾃自動チューニング
l  ニューラルネットには複数のハイパーパラメータが存在
l  各層毎の学習率率率（SGDにおける θ – μ ∂F(θ)/∂θ のμ）
l  各層のサイズ、つなぎ⽅方
l  ハイパーパラメーターの調整をしないと簡単に値が“吹っ⾶飛ぶ“
l  異異なるハイパーパラメータで複数同時に試してうまくいった
組み合わせを選ぶのがこれまでの主流流だった
l  学習率率率⾃自動チューニングする⼿手法がいくつか提案される
l  AdaGrad [J. Duchi+, JMLR 2011]
l  vSGD-fd [T. Schaul+, Arxiv 2013]
90

DistBelief
[J. Dean+, NIPS 13]
91
非同期での大規模学習をサポート
-  オンラインの並列学習　 (SGD）
-  バッチ学習の並列学習 (L-BFGS)
-  16000コアでの並列学習が可能
Youtubeから得られた 200 x 200の
画像 1000万枚に対して教師無し学習 

（AutoEncoderと似たRICAと呼ばれる 
方法でDNNを学習）

次項以降で学習で得られた 
最上部のニューロンが反応する画像 
を紹介

右：学習で得られたニューロンが最も反応する画像
左：このニューロンに反応したテスト画像
92

右：学習で得られたニューロンが最も反応する画像
左：このニューロンに反応したテスト画像
93

まとめ
l  機械学習についての考え⽅方、使い⽅方について紹介した
l  機械学習は複数の分野にまたがる境界領領域
l  研究から⾒見見た機械学習
l  機械学習⾃自体の問題に取りくむ　⇒ 　多様な問題が各分野で存在
l  機械学習を利利⽤用　⇒ 　データが存在するところにどこでも適⽤用可能
l  実践から⾒見見た機械学習
l  あらゆる産業分野での実⽤用化が進む
l  既存⼿手法（⼈人を含む）を凌凌駕する性能を達成、新しい産業へ
95

単純ベイズ法（Naïve Bayes)も線形分類器
l  p
(y
|
x)
∝
p(y)
p(x
|
y)

∝
p(y)
Πi
p(xi|y)c(xi)

l  log p(y|x) ∝ log p(y) + Σi c(xi) log p(xi|y)
l  log p(y|x) = wTx + b
l  wiとbはデータからの最尤推定で以下のように求められる
l  b := C(y) / Σy’C(y’)
l  wi := C(xi, y) / C(y)
l  C(z)はzの頻度度
l  頻度度はデータを操作しながら更更新していけば良良い
98
ベイズの定理より
各特徴の生成確率が独立という仮定
両辺の対数をとる
wi
b

機械学習の理論と実践

Recommended

More Related Content

What's hot (20)

Viewers also liked (20)

Similar to 機械学習の理論と実践 (20)

More from Preferred Networks (20)

機械学習の理論と実践