SlideShare a Scribd company logo
機械学習CROSS
ー前編ー
エンジニアサポートCROSS
2013/01/17
Agenda
l 

機械学習セッション概要

l 

パネリスト⾃自⼰己紹介

l 

機械学習「超」⼊入⾨門

l 

パネリスト活⽤用事例例紹介

l 

後半に向けて
機械学習CROSSの⽬目的、の前に…

NGワード
データサイエンティスト

3
なんで?
l 

もう、いいよね
l 
l 

l 

昨年年のデータサイエンティストCROSSの素晴らしさ
飽和したデータサイエンティスト論論

「まずは、ヒトと組織でしょう」
l 
l 

それが⼤大事、だけど現場とビジネス理理解がもっと⼤大事

l 

l 

データサイエンティストに必要なスキルやリテラシー
最終的にデータ活⽤用するための組織と意思決定プロセスがあるか

「分析技術の話は、そのあとでしょう」
l 
l 

それを意思決定にどう役⽴立立てられるかが最優先課題

l 

l 

仮説⽴立立ててデータ取って集計して可視化するのが第⼀一歩
分析⼿手法はまずシンプルなもの、⾼高度度なものに拘るのは筋悪

→

「だから、機械学習とかまだいいでしょう」
4
本当に?
l 
l 
l 

NIPS2013:機械学習で最⾼高峰の国際学会
今年年のスポンサー:Google/Amazon/Facebook/Yahoo/Microsoft
FacebookはCEOマーク・ザッカーバーグまで来場

5
2013年年:機械学習、特に
ディープラーニングを巡る動き

6
機械学習は(Web業界でも)さらに応⽤用が広がる!
l 
l 
l 
l 

データ活⽤用の技術/組織インフラはどんどん整っていく
そこが各社横並びになった世界で差別化になるものは何か?
伝説のデータサイエンティスト?
それとも⾼高度度に進化した機械学習アルゴリズム?

7	
今のうちに押さえましょう!
Agenda
l 

機械学習セッション概要

l 

パネリスト⾃自⼰己紹介

l 

機械学習「超」⼊入⾨門

l 

パネリスト活⽤用事例例紹介

l 

後半に向けて
⾃自⼰己紹介
l 
l 
l 
l 

⽐比⼾戸将平(HIDO Shohei)
Twitter: @sla
専⾨門:データマイニング、機械学習
経歴:
l 

2002: IPA未踏ユース第⼀一期

l 

2006: 京都⼤大学情報学研究科修⼠士修了了

l 
l 

2006-2012: IBM東京基礎研究所データ解析グループ
2012-: 株式会社プリファードインフラストラクチャー
l 

l 

Jubatusチーム共同リーダー

2013-: PFIアメリカ取締役 & Chief Research Officer

9
Yahoo!JAPAN研究所

田島  玲(あきら)

研究員・コンサルタントと動きつつ、データをいかに現
場で実際に役立てていくか、をテーマとしてます
現在は、研究所としてヤフーの様々なサービスでの
データ活用を部門横断で支援中
2011年-  
ヤフー(株)。膨大なデータの利活用をミッションとしている
2012年7月より  Yahoo!  JAPAN研究所  所長
2005年-2010年
日本アイ・ビー・エム(株)東京基礎研究所  数理科学チームのリード
2002-2005年
  A.T.カーニー(戦略系コンサルティングファーム)  コンサルタント
1992-2002年
日本アイ・ビー・エム(株)東京基礎研究所  研究員
2000年3月  東京大学大学院理学系研究科情報科学専攻  
博士(理学)

P10
平手 勇宇(ひらて ゆう)	
•  楽天株式会社 楽天技術研究所 インテリジェンスドメインチーム
•  専門分野:データマイニング,Webマイニング

50以上の様々なサービスを提供	

11
平手 勇宇(ひらて ゆう)	
•  楽天株式会社 楽天技術研究所 インテリジェンスドメインチーム
•  専門分野:データマイニング,Webマイニング

海外展開を推進	

12
株式会社  ALBERT - ⼩小宮  篤史

@komiya_atsushi
分析⼒力力をコアとする
マーケティングソリューションカンパニー

エンジニア(Web / AWS / 機械学習)
サービス・ソリューションの開発と運⽤用
FFRI,Inc.

村上純一 (@junichi_m)
•  株式会社FFRI
–  執行役員 事業推進本部長(兼新技開発部長)

•  専門領域
–  マルウェア解析、脆弱性分析、セキュリティ脅威分析

•  機械学習は2013年4月から
–  マルウェア検知(分類)・クラスタリング等

14
自己紹介 –  油井誠 @myui	
•  奈良先端科学技術大学院大学(NAIST) 情報科学研究科	
  
博士課程修了、博士(工学) 2009年3月	
  
•  産業技術総合研究所 情報技術研究部門 研究員	
  
2010月4月~現在	
  
•  専門はデータ工学、データベース学	
  

大規模データを高速に扱うアルゴリズムの研究に一貫して従事(Data	
  Geek)	
  
•  XMLデータベースの研究開発	
  
•  Many-­‐core(64コア)プロセッサを利用したノンブロッキング(Lock-­‐free)アルゴリズ
ムの研究開発	
  
•  データベースの並列処理の研究開発	
  
•  オランダ国立情報学数学研究所で主記憶データベース(MonetDB)の並列処理機構
を開発	
  
•  大規模機械学習の研究開発	
  
•  Apache	
  Hive上で動くオープンソース機械学習ライブラリを開発	
  
hFps://github.com/myui/hivemall	
  
•  企業との共同研究でインターネット広告のコンバージョン率(CVR)予測を行っており、
テラバイト級のデータの機械学習にHivemallを利用	
  

•  平成14年度 IPA未踏ユーススーパークリエイタ	
  
•  未踏ユースの第一期生で比戸さん(PFI)と同期	
  
Gunosy紹介	
Gunosyとは	
ユーザーの行動を解析して(SNSやGunosy内)その人の興味にあった記事
を推薦するサービス	
  
自己紹介	
  
名前:	
  福島良典 年齢:25歳 役職:CEO	
  
仕事:	
  社長業(意思決定とリクルーティング)	
  /	
  アドサーバーの開発 を半々くらい	
  
今の興味	
  -­‐>	
  新しいアルゴリズムをどう試すかのテストに関して	
  

機械学習の応用事例	
  
ほぼ全てに	
  
具体的には、推薦部分やアドに	
  
(ex)	
  
記事やユーザーの特徴付け、似た記事を探す、似たユーザーを探す	
  
ユーザーのクラスタリング、ユーザーの男女判別、どのアルゴリズムを選択する
かetc	
  
©Gunosy	
  Inc.
Agenda
l 

機械学習セッション概要

l 

パネリスト⾃自⼰己紹介

l 

機械学習「超」⼊入⾨門

l 

パネリスト活⽤用事例例紹介

l 

後半に向けて
機械学習ってぶっちゃけ何?

問1. 機械学習の説明で最も適切切なものを選んでください。

a) ⼈人間のような知能をもったロボッ
トを実現するための計算機システム

c) どんな未来も100%予測可能な
ルールベースシステム及び
その構築⼿手法

b) 与えられたデータから傾向や法則
を導き予測や分析に活⽤用できる
アルゴリズム群

d) 質問⽂文を⼊入⼒力力すると求める回答が
瞬時に得られる質問応答を
可能にする技術
18
機械学習とは
l 

経験(データ)によって賢くなるアルゴリズムの集合
l 
l 
l 

l 

データから知識識・ルールを⾃自動獲得する
データの適切切な表現⽅方法も獲得する
⼈人⼯工知能の中で、⼈人が知識識やルールを
明⽰示的に与える⽅方法の限界から⽣生まれてきた
タスクはいろいろある

学習データ
19

分類モデル
機械学習タスク1:レコメンド
l 

ヒト x アイテムの関係の中でオススメを探す
l 
l 

l 

ヒト←アイテム:似たアイテムを⾒見見たヒトが⾒見見たアイテム
アイテム←アイテム:似たヒト集団が⾒見見たアイテム

Web業界でのアプリケーション
l 

l 

各ユーザーの履履歴に基いておすすめ商品(記事)を表⽰示
l  例例:ダイ・ハード⾒見見たヒト←ターミネーターをレコメンド
各商品(記事)に関連する商品(記事)を表⽰示
l  例例:カメラを⾒見見た⼈人に予備バッテリーをレコメンド

ヒト←アイテム
ヒトの閲覧ログ
推薦アイテム

アイテム←アイテム
現在のアイテム
関連アイテム
20
機械学習タスク2:クラス分類
l 

⼊入⼒力力データxに対するクラスyを予測するモデルを構築
l 
l 

l 

Web業界でのアプリケーション
l 
l 

l 

訓練時:既知の⼊入⼒力力xとクラスyのペアを⼤大量量に投⼊入
予測時:y未知の⼊入⼒力力xに対する予測出⼒力力y’を計算

スパムメール分類:x=メール本⽂文、y={普通, スパム}
不不正ユーザー検出:x=⾏行行動履履歴、y={⼀一般, 不不正}

yが連続値なら回帰になる、クラスタリングとは異異なる
予測

訓練
データx

データx

正解y

予測y’

21	
21
機械学習タスク3:異異常検知
l 

⼤大多数のデータとは異異なる性質を持ったものを検出
l 
l 

l 

訓練時:正常時の挙動についてモデル化
予測時:現在の挙動に対して異異常スコアを計算

Web業界でのアプリケーション
l 

l 

サーバー故障予兆検知
l  クエリ数に⽐比べてレスポンスが遅くI/Oエラー率率率が⾼高い
不不正アクセス・ネットワーク攻撃検知
l  ⾼高頻度度なログイン失敗、不不⾃自然なコマンド列列を検知
予測

訓練

直近ログx

正常時ログx
22	

異異常スコアy’
22
様々な分野に適⽤用可能
l 
l 
l 

データから有⽤用な規則、ルール、知識識、判断基準を抽出
データがあるところならば、どこでも使える
様々な分野の問題に利利⽤用可能
Web業界での適用分野	

レコメン
デーション

分類、識識別

ユーザー
⾏行行動予測

ユーザー
属性推定

情報抽出

評判分析

⾃自動応答

負荷予測

画像認識識

検索索ランク

攻撃検知

故障診断

23
あれ、けど機械学習じゃなくてもできるんじゃ?
たとえば⼈人⼿手とかルールとか
l 
l 
l 

はい、そうです、タスク⾃自体抽象化してるので
極端に⾔言えば機械学習にしかできないタスクは無い
⼈人⼿手と⽐比べたメリット
l 
l 
l 

l 

ルールに⽐比べたメリット
l 
l 
l 
l 

l 

⼤大規模データ・⾼高次元データ・可視化できないデータが扱える
応答速度度が早い
作業コストが低い
変化する状況への対応が得意
更更新やチューニングが容易易
複雑な条件を扱うのが得意
(⼀一般に)精度度が⾼高い

これらが決定的な差別化になる勝負を選ぶ必要性はある
24
タスク毎のざっくりとした短所・⻑⾧長所
  
  

⼈人⼿手
⻑⾧長所

ルールベース
短所

⻑⾧長所

短所

機械学習
⻑⾧長所

短所

どんなユーザー
経験と勘を 数多く存在す 履履歴に基づいて チューニン
レコ
システム化で
がどういうもの
抽象化して るマイナーな マイナーなケー グが悪いと
メン
きずスケール
を好むか、経験
スケールさ ケースに対応 スも対応できる、
意味不不明な
ド
しない
と勘を活かせる
せられる できない
スケールする 結果が出る
⽂文章分類は読め 全て⼈人間がや
クラ
ば分かる(主⼈人 るのはコスト
ス分
がオオアリクイ が掛かり過ぎ
類
に…=スパム) る

正解付き
⼈人間の感覚 例例外ケースが 正解付きデータ
データ集め
を単純化し 無数に存在す を集められれば
は⼈人⼿手や
てスケール ると精度度が上 精度度の⾼高い予測
ルールに依
させられる がらない
が可能
存する

数万種類の計
閾値を超え
測値を24時間
複雑な異異常、
検知はでき
たらアラー
おおよその異異常
複雑・未知な異異
365⽇日モニター
未知の異異常を
ても原因が
異異常
ト、などは
は何らかの計測
常も捉えられる
を監視するわ
ルール化する
解釈不不能な
検知
⾃自動化でき
値に現れている
可能性がある
けにもいかな
のは困難
場合がある
る
い
25
「機械にやらせるなら、ルールを書けばいいんじゃ
ないの?」
「ゴルフ」 à スポーツ
「インテル」 à コンピュータ
「選挙」  à 政治

l 
l 

俗にルールベースと呼ばれる⽅方法
最初は精度度が悪いが頑張れば意外とどこまでも良良くなる

26
ルールに基づく判断の限界

「ゴルフ」and「VW」  à  ⾞車車
「インテル」and「⻑⾧長友」 à サッカー
「選挙」and「AKB」 à 芸能
l 

⼈人⼿手で書いたルールはすぐ複雑、膨⼤大になる
l 
l 
l 

l 

1万⾏行行のperlスクリプト
どこを変えたらいいかわからない
条件を追加したら何が起こるか・・・

複雑化したルールは引き継げなくなる
27
機械学習が失敗するパターン
l 

できない精度度を求める
l 
l 

l 

⼈人にとって簡単なタスクをやろうとする
l 
l 

l 

サイコロの次の⽬目を当てることはできない
同じように、精度度の限界がある

少ない情報から推論論するのは⼈人間が得意
逆に⼤大量量の情報から判断する必要がある時は機械が得意

ボトルネックが別にある
l 
l 

アクションを取るのが⼈人だったり、⼈人が途中に介在する
量量と速度度のメリットをいかに活かすか
28
機械学習をどう実装・システム導⼊入するか

専⽤用スクリプト⾔言語/ツール
R, Weka, Matlab, SPSS

汎⽤用⾔言語⽤用ライブラリ
SciPy, Shogun

クラウドベース機械学習ツール
bigML, Bazil

ビッグデータ向けプラットホーム
Mahout, Jubatus, Oryx, hivemall

29
Agenda
l 

機械学習セッション概要

l 

パネリスト⾃自⼰己紹介

l 

機械学習「超」⼊入⾨門

l 

パネリスト活⽤用事例例紹介

l 

後半に向けて
P31
事例:コンテンツ連動型広告(YDN)

P32
パフォーマンス制約を満たすため、2段階の
構成が一般的です
課題
• 膨大なユーザー数、リクエスト数
• 様々なコンテンツ、広告
• レイテンシー制約
• 引き当てロジックの複雑化

  ページリクエスト
  ユーザー情報

広告DB	
  

マッチング(情報検索アプローチ)	

Query

転置	
  
インデックス	
  

リランキング(機械学習アプローチ)	

Short
List
Long
List

機械学習	
  
モデル	
  

Short
List

P33
CTR(Click-Through-Rate)を予測
→  分類ではなく、回帰です

P34

•  4本の候補から2本を選んで配信する場合の例
•  入札額×CTR=期待収益
広告	

入札額	

CTR	

期待収益	

A	

20	

0.25	

5.0	

B	

15	

0.20	

3.0	

C	

30	

0.15	

4.5	

D	

100	

0.01	

1.0	

期待収益の高いAとCを
配信すれば良さそう!
素性と予測モデル

P35

ユーザーと広告の
類似度

広告自身の
情報

ユーザー
広告

ページ
(環境)

ページと広告の
過去の
関連度
配信実績情報

ページp、ユーザーu、広告aが
与えられた時のCTR

データから学習される
モデルのパラメータ

素性ベクトル
(参考)学会発表もしてます

hFp://dl.acm.org/cita]on.cfm?id=2501978

P36
37
商品情報整備のための機械学習の活用	

1億	

膨大な数の商品数	

多くが非構造データ	

1.  商品情報に特化した形態素解析器の構築
2.  商品情報の構造化
3.  よい画像の自動選択	
38
1.商品情報に特化した形態素解析器の構築	
サードパーティ製
解析器
シャ ンパンドゥヴィノージュ	
(未知語)	

うっ とろ りん と する

)

by RIT	

シャンパン | ドゥ

| ヴィノージュ	
うっとろりん | と | する	

検索	

(新語)	

蕾丝百搭吊带背心
(中国語)	

蕾丝 | 百搭
| 吊带 | 背心
楽天商品データに対する
単語分割精度	
情報抽出
テキストマイニング
etc.

39
2.商品データの構造化	
•  構造化されていないテキストから商品情報を自動抽
出するシステムの開発
テキスト
(非構造化データ)	

構造化データ	
属性	

属性値	

色	

赤	

生産地	

イタリア,
トスカーナ	

ブドウ品種	
 メルロー,
カベルネソービニヨン,
プティヴェルド,
カベルネブラン
年代	

2010	

容量	

750ml	
40
2.商品データの構造化	
1.  HTMLのテーブルを参照し,属性値DBを生成
2.  属性値DBを利用して,属性値抽出ルールを自動生成

(2)	

Table data	

Generation	
Chateau d’Issan
1994

Database	
:
<Region, Margaux>
<Color, White>
:	

This is a
wine from
Margaux.
...

Annotation	

Rule
wine from x
=> x is a Region	

This is a wine from
Lafite Rothschild
New Region!	

(1)	
41
3.よい商品画像の選択	
•  店舗様がアップロードした画像セットから,
商品カタログへの掲載に適切な画像を選択

店舗様名が含まれている画像	

「準備中」の画像	
42
3.よい商品画像の選択	
•  テキストが含まれている領域か否かを判定

送料無料  
text

non-text

Classify text/non-text

43
機械学習CROSS 前半資料
About ALBERT

分析⼒力力をコアとする
マーケティングソリューションカンパニー

※エンジニアなど募集中です!  http://bit.ly/alb_recruit
© 2013 ALBERT Inc.
引⽤用  http://chiefmartec.com/2014/01/marketing-technology-landscape-supergraphic-2014/
Display	
  Adver:sing

Data	
  Management	
  PlaAorm

CRM&Marke:ng	
  Automa:on

引⽤用  http://chiefmartec.com/2014/01/marketing-technology-landscape-supergraphic-2014/
マーケティング分野における機械学習の活⽤用状況

•  機械学習の活⽤用・⼆二つの観点

–  マーケティング・オートメーションを実現する⼿手段としての
「機械学習」
–  オーディエンスデータ・蓄積データをアドホックに分析する
⼿手段としての「機械学習」

•  主な活⽤用シーン(例例)
–  レコメンデーション

•  アソシエーション・ルール・マイニング
•  協調フィルタリング

–  顧客のクラスタリング/分類

•  ⾮非階層クラスタリング(k-means)
•  クラス分類(k-近傍探索索)

–  クリエイティブ最適化
•  重回帰分析
ALBERT のマーケティングソリューション

© 2013 ALBERT Inc.
事例例:顧客のクラスタリング/分類
購買ログやアクセス履履歴を元に、顧客をクラスタリングします
ファッションは⼩小物重視派
ファッション⼩小物、雑貨などを中⼼心に購⼊入

オフィスカジュアル派
主に仕事⽤用の服としてサイトを活⽤用。
ビジネス向けアイテムを中⼼心に購⼊入

⽉月1回配信:ファッション⼩小物特集メルマガ

⽉月2回配信:オフィスで使えるアイテム特集

クラスタリング結果を、情報・タイミングを最適化したメール配信の実現に利利⽤用します
© 2013 ALBERT Inc.
事例例:クリエイティブ最適化
バナー広告などで使われているクリエイティブ画像を、構成要素に分解します

重回帰分析を⽤用いて、実  CTR から各構成要素の偏回帰係数を算出することで、クリエイティブ
ごとの予測  CTR や、最適なクリエイティブの推定を実現します

© 2013 ALBERT Inc.
機械学習CROSS 前半資料
機械学習の利用事例@産総研	
広告データのコンバージョン率推定 [共同研究]	
  

•  ユーザ属性群、広告属性群からなるセッションに対して最
CVR(Conversion	
  Rate)が良い広告をユーザに提示する	
  

•  CVR	
  =	
  #CV	
  /	
  #CLICKS	
  
•  CVとは広告クリックのあった媒体で、ユーザが実際に(資料が請求した|実
際に商品が購入した)等のイベント	
  

•  Terabytes以上の訓練データセット、月60-­‐100GB程度で増加中	
  
•  1000クライアント以上の広告主	
  
•  RDB→TSV形式にして定期的にデータをHDFSに投入	
  

•  翌月のCVありなしを広告カテゴリにもよるが平均0.95程度のAUC
で予測できている	
  
•  1年以上前からのデータを訓練に利用	
  
•  訓練事例の蓄積が不十分なカテゴリのAUCは低い	
  

•  Hivemallにより32ノードで5-­‐10分程度で学習	
  

•  最大1000程度のmapタスクが立ち上がる (#map	
  slotに応じた学習時間)	
  
•  学習というよりも特徴エンジニアリングに一番時間を要する	
  
•  複数テーブルの結合処理、学習用の訓練例(特徴表現)の作成	
  
•  Hive+UDFが最も有難く感じる瞬間	
  
•  Columnar	
  (ORC)	
  フォーマットによる圧縮がよく効く	
  
•  テラバイトデータの特徴エンジニアリング ((('A`)))	
  

広告のCLICK率は精々0.2%なのでCTR = #CLICKS / # Impressionまで計測す
ると500倍のストレージ要件
大規模データの特徴エンジニアリング(前処理)	
Hadoop/Hiveを利用したELT(Extract-­‐Load-­‐Transform)処理が特徴エンジニア	
  
リングに有用	
  
•  HDFSに取りあえずロードさせてHadoop/Hiveで整形するのが	
  
勝ちパターン(?)	
  
•  結合処理はHiveで並列ハッシュ結合により行う	
  
•  共同研究で行っているCVR推定では3つのview定義と3つの一時table、	
  
数個のUDFを訓練例の作成に利用している	
  
Label

1
2
3

練
例	

Web	
  
service	

7

1

transform	
Hadoop
/Hive	
 訓

9

-1

Logs	

B

1

Join	

A

extract	
load	

OLTP	
  
DBs	

8

データソース	
  
の結合処理	

ユーザID等の質的変数を	
  
二値素性に変換	

Transform	
  script	
Label

A:2

A:3

B:7

B:8

B:9

1

1

0

0

0

1

0

-1

KDDCup	
  2012のデータセット	
  

A:1

0

1

0

0

0

1

1

0

0

1

1

0

0

•  特徴エンジニアリング(ETL処理)を効率的に扱える機械学習フレームワークが必要	
  
• 

大規模データになるとプログラミングするのは大変(外部マージソートが必須)	
  

•  ETLツールにはUDF相当やHiveのTransform相当(任意のスクリプト実行)の拡張性が必要	
  
• 

予め用意されている関数などでは不十分なことが多い	
  
運用上得られた課題(1)  –  学習アルゴリズム	
データ量が増えても難なく動作する学習アルゴリズム	
  
•  学習率をパラメタに必要とするアルゴリズムの適用は難しい(e.g.,	
  確率的勾配降
下法(SGD))	
  
•  SGDの学習率の自動設定手法はまだ研究段階	
  

•  モデルの確信度により学習モデルの更新を制御するアルゴリズム(CW/AROW/
SCW)は収束は早いが…	
  
•  データ量が増すと単純なPassive	
  Aggressiveに劣ることもある	
  

•  急激な変化(concept	
  drip)への対処	
  
•  訓練例とテストデータの乖離した場合にどうするか	
•  過去の膨大なデータ(ビックデータ)を学習に用いることが仇となるケースがある	
  

アベノミクスによる	
  
レジームシフト	
  

•  多用な切り口で学習モデルを作って	
  
多椀バンディット等でモデルを選択する?	
  
•  学習器への予測結果のLazyなフィード
バック機構?	
  

去年の10月ごろから金融業の広告の	
  
コンバージョン率が跳ね上がる
運用上得られた課題(2)  – 学習フレームワーク	
•  リアルタイムの学習は実際に必要だけど…逐次学
習/ストリーム学習の設定は現実的(?)	
  
•  データの入力順に学習モデルが左右される	
  
•  ストリーム設定だと学習器への入力のshuffleができない	
  
•  CW/AROWに最初に負の事例ばかり学習させたら..?	
  

•  訓練例を複数回数(イテレーション)、順不同に学習器に与える必
要がある	
  
•  CW/AROW/SCWでも経験的に3イテレーションぐらいはさせた方が良い	
  

バッチ学習と逐次学習のハイブリッドに向かうのではないか	
Hadoop cluster	

Postgres	

Training data	

OLTP
transactions	

node	

Incremental
learning	

・・・	

Prediction model	

Cloudera	
  Oryx	

node	

node	

DB-­‐Hadoop	
  Hybrid	
  
machine	
  learning	

Batch
learning
FFRI,Inc.

57
FFRI,Inc.

情報セキュリティ業界の現状
環境の変化
マルウェア・各種データの増加
ネットワークの高速化、etc.

古き良き時代

ブラックリスト

ホワイトリスト

データ増大
未知データ

「外部脅威」の出現
 ハッカー、マルウェア、
 脆弱性攻撃、etc.

レピュテーション
ヒューリスティッ
ク
サンドボックス
機械学習

58
FFRI,Inc.

(一例)マルウェアの急増

2006	

2013	

出典:http://www.av-test.org/en/statistics/malware/	

59
FFRI,Inc.

マルウェア検知(分類)
•  近年のマルウェアの多くは亜種 or ツールによる
自動生成
→ コード面、機能面での差分は比較的少ない

•  正常ソフトとマルウェアを線形分離できないか?
–  実行時に呼び出されたAPIのn-gramを特徴に利用
NtCreateFile_NtWriteFile_NtCloseHandle	

•  パラメーター次第だが、TPR:90%超、FPR:1∼5%
→ FPR:1%以上はNG(セキュリティ業界の悩み)
60
FFRI,Inc.

マルウェアクラスタリング
•  モチベーション
–  目的に沿った意味のあるデータを選択したい

•  取り組み例
–  社内のマルウェアDBから1000件無作為抽出
–  APIのn-gramを特徴としてウォード法を適用
–  大きく3系統に分離
(部分的に手動検証)

61
©Gunosy	
  Inc.
Gunosy紹介	
Gunosyとは	
ユーザーの行動を解析して(SNSやGunosy内)その人の興味にあった記事
を推薦するサービス	
  
自己紹介	
  
名前:	
  福島良典 年齢:25歳 役職:CEO	
  
仕事:	
  社長業(意思決定とリクルーティング)	
  /	
  アドサーバーの開発 を半々くらい	
  
今の興味	
  -­‐>	
  新しいアルゴリズムをどう試すかのテストに関して	
  

機械学習の応用事例	
  
ほぼ全てに	
  
具体的には、推薦部分やアドに	
  
(ex)	
  
記事やユーザーの特徴付け、似た記事を探す、似たユーザーを探す	
  
ユーザーのクラスタリング、ユーザーの男女判別、どのアルゴリズムを選択する
かetc	
  
©Gunosy	
  Inc.
64
Preferred Infrastructure (PFI)
  最先端の技術を最短路路で実⽤用化
l 
l 
l 

東⼤大発ソフトウェア開発ベンチャー
創業:2006年年3⽉月
主な製品
l 

Sedue: 検索索&レコメンドエンジン

l 

Bazil: 使いやすい機械学習解析サービス

l 

Jubatus: ⼤大規模オンライン分散機械学習

代表取締役
⻄西川徹

情報検索索(IR)

分散システム

⾃自然⾔言語処理理

機械学習

65

取締役副社⻑⾧長
岡野原⼤大輔
Jubatus: Hadoopの先を⾏行行く⼤大規模データ解析基盤
l 

従来の⼤大規模データ解析:集計やルール処理理が主な⼿手段
l 

l 

HadoopやCEP(Complex Event Processing)が中⼼心的役割

これからの⼤大規模データ解析:リアルタイム性や深い解析も重要
l 

Jubatus: 世界初の⼤大規模分散オンライン機械学習基盤

l 

NTT SICと共同開発&オープンソース公開  → http://jubat.us/

1. ⼤大規模化
2. リアルタイム/オンライン
3. 深い解析
l 

分散オンライン化したアルゴリズムを実装済みの処理理機能
l 

分類/回帰/近傍探索索/レコメンド/異異常検知/クラスタリング
66
Bazil: クラウドベース機械学習分析向けツール
l 

テキスト、ログ、履履歴等もそのまま⼊入⼒力力・モデル構築・予測
l 

l 

機械学習モデルによる予測の要因を⾒見見える化
l 

l 

扱いづらい⾮非構造データに隠れた情報の価値もフル活⽤用
「なぜその予測になったか?」を知ることでPDCAサイクルを加速

ブラウザから使えるASPサービスとしてクラウドで提供
l 

インストール不不要でOSやマシンを選ばずに利利⽤用可能

テキスト

ログ          

数値

分析者

Web GUI
要因分析

精度度評価

クラウド
Agenda
l 

機械学習セッション概要

l 

パネリスト⾃自⼰己紹介

l 

機械学習「超」⼊入⾨門

l 

パネリスト活⽤用事例例紹介

l 

後半に向けて
セッション後半の流流れ
l 

前半振り返り

l 

機械学習導⼊入の展望:どこから導⼊入が進むのか  

l 

機械学習は精度度で⼈人間に勝てるのか  

l 

役⽴立立つケースとそうでないケースの違うは何か  

l 

それを⽀支える技術やツールとしては何が有望か  

l 

どのように導⼊入を進めていけば良良いのか  

l 

まとめ
69

More Related Content

機械学習CROSS 前半資料