ICML2013 読み会に参加して来ました

ICML2013の論文をみんなでよってたかって紹介しよう、という会に行って来ました。読み手は埋まらないだろうと思って「埋まらなかったら読みますよー」って言ってたら速攻で8人埋まってびっくりした。

あと、こういう会に40名近く(女子含む)が来るってことは機械学習の裾野が広がってるんだろうなって思った。自分が研究してた頃は同じ研究室の女子は多分聞いてなかった気がする(心理学系の人)。

PFIの皆様、中川先生、ありがとうございました。

ざざっとまとめたりメモしたものなので間違っていたらご指摘ください。 (あと機械学習の専門ではないので、不安な略語もメモった)

個人的にはHinton+ 2012のdropoutは2005年ごろからニューラルネットワークの研究者は、試行錯誤の末、僕の周りではみんなやってた気がするけどこれが論文になってたことにびっくりした。ニューラルネットにありがちな過学習を抑制する正則化の意図で実装してた。

日時: 2013/07/09 18:00
場所: 東京大学情報基盤センター4F413遠隔会議室
pertake

18:00-18:20 @sla : "Learning Spatio-Temporal Structure from RGB-D Videos for Human Activity Detection and Anticipation"

ICML紹介

招待講演
- GraphLab, Jubatusのがち競合
- DeepLearning の音声認識 (Google Voice)
  - Hinton系学生すごい > GoogleとかFacebookとかにインターン

論文まとめ

イメージより多いもの (@sla 調べ)
- sparce / deep / random / multi / bandit / active learning / compressed

個人的な感想(@sla)

もうiidはいいのではないか * 時系列要素を入れてる論文が圧倒的に少ない * 実応用は時系列的な要素を含む場合がほとんどではないか

違う方向性

3つのワークショップ: Robot Learning / Machine Learning with test-time Budgets / Learning with Sequential Models
違うアプローチ: Imitation Learning / Interactive Learning / Reinforcement Learning / Imperative Learning (Data Search / Aggregation)
違うコスト設定: 予測コストがかかる、ラベルを得るコスト、サンプルを得るコスト、Featureを得るコスト
DataSet Aggregator: Data Streaming Ross

論文紹介

Conditional Random Fields
Cutting plane training of structural SVMs [Joachims, MLJ2009]

18:20-18:40 @beam2d: "Local Deep Kernel Learning for Efficient Non-linear SVM Prediction"

資料

目的

予測がそこそこ速い非線形分類器
線形分類器でもカーネルSVMでもないやつ
複数の線形分類器を場所ごとに異なる重み付けで足し合わせる [Ladicky, ICML'11]

LDKL

アンカポイント自体も学習しましょう
空間分割も一緒に学習
各点でどの分類器を使うかは二分木を探索して得る
主空間で最適化 (LLSVM)
最適化はSGD

木構造の特徴写像

sign(θx)分割入力に対して分割パラメタの内積の正負で分割

18:40-19:00 @conditional: "Vanishing Component Analysis"

資料
データをコンパクトに表現する「多項式の集合」を求める
今日の資料
決定木的なアプローチで多項式の次数を上げていく
どんなデータでも完全に線形分離できる
ε許容により異常値への過剰学習を防ぐ

19:00-19:20 @jkomiyama_ : "Active Learning for Multi-Objective Optimization"

東大中川研究室

目的

学習に時間がかかるので、少ないデータの評価で済ませたい

Gaussian process

回帰問題のGPモデル
入力と目的関数の関係を予想する確率モデル
- mean function と covariance function

Active learning

アルゴリズムが欲しい点を能動的に選択
- 各点の評価コストが重い。情報量の高い点から、各ラウンド1点ずつ順番に評価して行く
- 少ない評価点の数で高い精度を出す

Multi-objective optimization

parateoptimal set

処理

不確定性が高い点から学習

理論解析

information gain
maximum possible information gain

まとめ

既存手法(heuristic)と比較して、強い理論的な保証・高いパフォーマンス
精度がハイパーパラメータに結構依存する

[Srinivas+ ICML2010]

19:20-19:40 @kisa12012 : "Large-Scale Learning with Less RAM via Randomization"

東大中川研
論文

目的

重みベクトルの省メモリ化
SGDベースのアルゴリズムのサイズを自動調節し省メモリ化しよう！
学習時：50%、予測時：95% で同じくらいの精度がでます
Regretによる理論保証もあり
L1Cacheでデータ処理可能か？

概要

学習時はステップ幅に応じて表現方法を変える(bit数を変化させる 32bitじゃなくてもいい)

アルゴリズム

bit長の記法の定義
Qm,n
- n: 仮数部
- m: 指数部
- 1ビットは符号
- (n+m+1)bitsで表現
ε: 表現可能な点の間のgap (最小表現範囲)
確率的に近似値を決定するRandom Round
SGDを学習させる場合に、ステップ幅を変化 / Per-coordinate learning rates aka AdaGrad [Duchi+ COLT10]

実験

CTR (非公開の検索広告クリックログデータ)の予測
Data: 30M / Feature: 20M
スパースな素性
Billionでもほとんど同じ結果

まとめ

FOBOS等への拡張もStraightforward
速度は書かれていない
セカンドの人の特徴量生成の論文

19:40-20:00 @Quasi_quant2010 : "Topic Discovery through Data Dependent and Random Projections"

perplexy
topic coherency
gibbs sampling
PLSI
NMF
LDA

20:00-20:20 @tabe2314 : "Fast Image Tagging"

資料

Image Tagging

画像からタグ

難しいところ

効果的な特徴が物体によって違う color / edges
不完全なアノテーション (Precisionはともかく、Recallが低いデータしか得られない)
タグの出現頻度の偏り

アルゴリズム

アノテーションyから真のタグセット zを求めるB (z = By)を求める
画像xから真のタグセットzを求めるW(z = Wx)を求める
zはわからないので、確率pでyから落として y = By^としてBを求める
なんか、雑な方法だな…
stackingはbootstrapであることも考えれば、lake -> lake との共起 -> それらからpondが導出

画像特徴

特徴
- GIST
- 6種類の色のヒストグラム
- 8種類の極小特徴のBoW

20:20-20:40 @unnonouno : "ELLA: An Efficient Lifelong Learning Algorithm"

資料

概要

GO-MTL (multi-task learning)
目の前のTaskの学習
過去のTask全体の学習
新たなTaskを過去の組み合わせにマッピングする？要素分解する？学習

20:40-21:00 @sleepy_yoshi : "Distributed Training of Large-scale Logistic Models"

NTT 数原
資料

概要

タスク：クラス数が大規模な他クラスロジスティック回帰の分散学習
拡張ラグランジュ法の適用を検討
- A) Piece-wise Bounds
- B) Log-concavity bound -> Good
- C) Double majorization bound
- D) 拡張ラグランジュ法 (ADMM)

多クラスロジスティック回帰

LBFGS
- 大規模なデータセットにおいては限界がある
- パラメタ分散の並列計算が不可能
- 直線探索と損失関数評価の繰り返しが必要であるため、パラメタをすべて保持しておく必要
  - パラメタだけで最大17GB
- L-BFGSでは過去の勾配情報を保持しておく必要が有る

飛び入り：Maxout Networks 徳永さん

maxoutおもしろかった。(いつかわからないけど)ニューラルネットが必要になった時に試してみたい