機械学習CROSS 前半資料

機械学習CROSS
ー前編ー
エンジニアサポートCROSS
2013/01/17

Agenda
l 

機械学習セッション概要

l 

パネリスト⾃自⼰己紹介

l 

機械学習「超」⼊入⾨門

l 

パネリスト活⽤用事例例紹介

l 

後半に向けて

機械学習CROSSの⽬目的、の前に…

NGワード
データサイエンティスト

3

なんで？
l 

もう、いいよね
l 
l 

l 

昨年年のデータサイエンティストCROSSの素晴らしさ
飽和したデータサイエンティスト論論

「まずは、ヒトと組織でしょう」
l 
l 

それが⼤大事、だけど現場とビジネス理理解がもっと⼤大事

l 

l 

データサイエンティストに必要なスキルやリテラシー
最終的にデータ活⽤用するための組織と意思決定プロセスがあるか

「分析技術の話は、そのあとでしょう」
l 
l 

それを意思決定にどう役⽴立立てられるかが最優先課題

l 

l 

仮説⽴立立ててデータ取って集計して可視化するのが第⼀一歩
分析⼿手法はまずシンプルなもの、⾼高度度なものに拘るのは筋悪

→

「だから、機械学習とかまだいいでしょう」
4

本当に？
l 
l 
l 

NIPS2013：機械学習で最⾼高峰の国際学会
今年年のスポンサー：Google/Amazon/Facebook/Yahoo/Microsoft
FacebookはCEOマーク・ザッカーバーグまで来場

5

2013年年：機械学習、特に
ディープラーニングを巡る動き

6

機械学習は（Web業界でも）さらに応⽤用が広がる！
l 
l 
l 
l 

データ活⽤用の技術／組織インフラはどんどん整っていく
そこが各社横並びになった世界で差別化になるものは何か？
伝説のデータサイエンティスト？
それとも⾼高度度に進化した機械学習アルゴリズム？

7
今のうちに押さえましょう！

⾃自⼰己紹介
l 
l 
l 
l 

⽐比⼾戸将平（HIDO Shohei）
Twitter: @sla
専⾨門：データマイニング、機械学習
経歴：
l 

2002: IPA未踏ユース第⼀一期

l 

2006: 京都⼤大学情報学研究科修⼠士修了了

l 
l 

2006-2012: IBM東京基礎研究所データ解析グループ
2012-: 株式会社プリファードインフラストラクチャー
l 

l 

Jubatusチーム共同リーダー

2013-: PFIアメリカ取締役 & Chief Research Officer

9

Yahoo!JAPAN研究所

田島玲（あきら）

研究員・コンサルタントと動きつつ、データをいかに現
場で実際に役立てていくか、をテーマとしてます
現在は、研究所としてヤフーの様々なサービスでの
データ活用を部門横断で支援中
2011年-
ヤフー（株）。膨大なデータの利活用をミッションとしている
2012年7月より Yahoo! JAPAN研究所所長
2005年-2010年
日本アイ・ビー・エム（株）東京基礎研究所数理科学チームのリード
2002-2005年
A.T.カーニー（戦略系コンサルティングファーム）コンサルタント
1992-2002年
日本アイ・ビー・エム（株）東京基礎研究所研究員
2000年3月東京大学大学院理学系研究科情報科学専攻
博士（理学）

P10

平手勇宇（ひらてゆう）
•  楽天株式会社楽天技術研究所　インテリジェンスドメインチーム
•  専門分野：データマイニング，Webマイニング

50以上の様々なサービスを提供

11

平手勇宇（ひらてゆう）
•  楽天株式会社楽天技術研究所　インテリジェンスドメインチーム
•  専門分野：データマイニング，Webマイニング

海外展開を推進

12

株式会社 ALBERT - ⼩小宮篤史

@komiya_atsushi
分析⼒力力をコアとする
マーケティングソリューションカンパニー

エンジニア（Web / AWS / 機械学習）
サービス・ソリューションの開発と運⽤用

FFRI,Inc.

村上純一 (@junichi_m)
•  株式会社ＦＦＲＩ
–  執行役員事業推進本部長（兼新技開発部長）

•  専門領域
–  マルウェア解析、脆弱性分析、セキュリティ脅威分析

•  機械学習は2013年4月から
–  マルウェア検知(分類)・クラスタリング等

14

自己紹介 – 油井誠 @myui
•  奈良先端科学技術大学院大学(NAIST) 情報科学研究科

博士課程修了、博士（工学） 2009年3月

•  産業技術総合研究所情報技術研究部門研究員

2010月4月～現在

•  専門はデータ工学、データベース学

大規模データを高速に扱うアルゴリズムの研究に一貫して従事（Data
Geek)

•  XMLデータベースの研究開発

•  Many-‐core(64コア)プロセッサを利用したノンブロッキング(Lock-‐free)アルゴリズ
ムの研究開発

•  データベースの並列処理の研究開発

•  オランダ国立情報学数学研究所で主記憶データベース(MonetDB)の並列処理機構
を開発

•  大規模機械学習の研究開発

•  Apache
Hive上で動くオープンソース機械学習ライブラリを開発

hFps://github.com/myui/hivemall

•  企業との共同研究でインターネット広告のコンバージョン率(CVR)予測を行っており、
テラバイト級のデータの機械学習にHivemallを利用

•  平成14年度 IPA未踏ユーススーパークリエイタ

•  未踏ユースの第一期生で比戸さん（PFI)と同期

Gunosy紹介
Gunosyとは
ユーザーの行動を解析して(SNSやGunosy内)その人の興味にあった記事
を推薦するサービス

自己紹介

名前:
福島良典年齢:25歳役職:CEO

仕事:
社長業(意思決定とリクルーティング)
/
アドサーバーの開発を半々くらい

今の興味
-‐>
新しいアルゴリズムをどう試すかのテストに関して

機械学習の応用事例

ほぼ全てに

具体的には、推薦部分やアドに

(ex)

記事やユーザーの特徴付け、似た記事を探す、似たユーザーを探す

ユーザーのクラスタリング、ユーザーの男女判別、どのアルゴリズムを選択する
かetc

©Gunosy
Inc.

機械学習ってぶっちゃけ何？

問1. 機械学習の説明で最も適切切なものを選んでください。

a) ⼈人間のような知能をもったロボッ
トを実現するための計算機システム

c) どんな未来も100%予測可能な
ルールベースシステム及び
その構築⼿手法

b) 与えられたデータから傾向や法則
を導き予測や分析に活⽤用できる
アルゴリズム群

d) 質問⽂文を⼊入⼒力力すると求める回答が
瞬時に得られる質問応答を
可能にする技術
18

機械学習とは
l 

経験（データ）によって賢くなるアルゴリズムの集合
l 
l 
l 

l 

データから知識識・ルールを⾃自動獲得する
データの適切切な表現⽅方法も獲得する
⼈人⼯工知能の中で、⼈人が知識識やルールを
明⽰示的に与える⽅方法の限界から⽣生まれてきた
タスクはいろいろある

学習データ
19

分類モデル

機械学習タスク１：レコメンド
l 

ヒト x アイテムの関係の中でオススメを探す
l 
l 

l 

ヒト←アイテム：似たアイテムを⾒見見たヒトが⾒見見たアイテム
アイテム←アイテム：似たヒト集団が⾒見見たアイテム

Web業界でのアプリケーション
l 

l 

各ユーザーの履履歴に基いておすすめ商品（記事）を表⽰示
l  例例：ダイ・ハード⾒見見たヒト←ターミネーターをレコメンド
各商品（記事）に関連する商品（記事）を表⽰示
l  例例：カメラを⾒見見た⼈人に予備バッテリーをレコメンド

ヒト←アイテム
ヒトの閲覧ログ
推薦アイテム

アイテム←アイテム
現在のアイテム
関連アイテム
20

機械学習タスク２：クラス分類
l 

⼊入⼒力力データxに対するクラスyを予測するモデルを構築
l 
l 

l 

l 
l 

l 

訓練時：既知の⼊入⼒力力xとクラスyのペアを⼤大量量に投⼊入
予測時：y未知の⼊入⼒力力xに対する予測出⼒力力y’を計算

スパムメール分類：x=メール本⽂文、y={普通, スパム}
不不正ユーザー検出：x=⾏行行動履履歴、y={⼀一般, 不不正}

yが連続値なら回帰になる、クラスタリングとは異異なる
予測

訓練
データx

データx

正解y

予測y’

21
21

機械学習タスク３：異異常検知
l 

⼤大多数のデータとは異異なる性質を持ったものを検出
l 
l 

l 

訓練時：正常時の挙動についてモデル化
予測時：現在の挙動に対して異異常スコアを計算

l 

l 

サーバー故障予兆検知
l  クエリ数に⽐比べてレスポンスが遅くI/Oエラー率率率が⾼高い
不不正アクセス・ネットワーク攻撃検知
l  ⾼高頻度度なログイン失敗、不不⾃自然なコマンド列列を検知
予測

訓練

直近ログx

正常時ログx
22

異異常スコアy’
22

様々な分野に適⽤用可能
l 
l 
l 

データから有⽤用な規則、ルール、知識識、判断基準を抽出
データがあるところならば、どこでも使える
様々な分野の問題に利利⽤用可能
Web業界での適用分野

レコメン
デーション

分類、識識別

ユーザー
⾏行行動予測

ユーザー
属性推定

情報抽出

評判分析

⾃自動応答

負荷予測

画像認識識

検索索ランク

攻撃検知

故障診断

23

あれ、けど機械学習じゃなくてもできるんじゃ？
たとえば⼈人⼿手とかルールとか
l 
l 
l 

はい、そうです、タスク⾃自体抽象化してるので
極端に⾔言えば機械学習にしかできないタスクは無い
⼈人⼿手と⽐比べたメリット
l 
l 
l 

l 

ルールに⽐比べたメリット
l 
l 
l 
l 

l 

⼤大規模データ・⾼高次元データ・可視化できないデータが扱える
応答速度度が早い
作業コストが低い
変化する状況への対応が得意
更更新やチューニングが容易易
複雑な条件を扱うのが得意
（⼀一般に）精度度が⾼高い

これらが決定的な差別化になる勝負を選ぶ必要性はある
24

タスク毎のざっくりとした短所・⻑⾧長所
　
　

⼈人⼿手
⻑⾧長所

ルールベース
短所

⻑⾧長所

短所

機械学習
⻑⾧長所

短所

どんなユーザー
経験と勘を数多く存在す履履歴に基づいてチューニン
レコ
システム化で
がどういうもの
抽象化してるマイナーなマイナーなケーグが悪いと
メン
きずスケール
を好むか、経験
スケールさケースに対応スも対応できる、
意味不不明な
ド
しない
と勘を活かせる
せられるできない
スケールする結果が出る
⽂文章分類は読め全て⼈人間がや
クラ
ば分かる（主⼈人るのはコスト
ス分
がオオアリクイが掛かり過ぎ
類
に…＝スパム）る

正解付き
⼈人間の感覚例例外ケースが正解付きデータ
データ集め
を単純化し無数に存在すを集められれば
は⼈人⼿手や
てスケールると精度度が上精度度の⾼高い予測
ルールに依
させられるがらない
が可能
存する

数万種類の計
閾値を超え
測値を24時間
複雑な異異常、
検知はでき
たらアラー
おおよその異異常
複雑・未知な異異
365⽇日モニター
未知の異異常を
ても原因が
異異常
ト、などは
は何らかの計測
常も捉えられる
を監視するわ
ルール化する
解釈不不能な
検知
⾃自動化でき
値に現れている
可能性がある
けにもいかな
のは困難
場合がある
る
い
25

「機械にやらせるなら、ルールを書けばいいんじゃ
ないの？」
「ゴルフ」 à スポーツ
「インテル」 à コンピュータ
「選挙」 à 政治

l 
l 

俗にルールベースと呼ばれる⽅方法
最初は精度度が悪いが頑張れば意外とどこまでも良良くなる

26

ルールに基づく判断の限界

「ゴルフ」and「VW」 à ⾞車車
「インテル」and「⻑⾧長友」 à サッカー
「選挙」and「AKB」 à 芸能
l 

⼈人⼿手で書いたルールはすぐ複雑、膨⼤大になる
l 
l 
l 

l 

1万⾏行行のperlスクリプト
どこを変えたらいいかわからない
条件を追加したら何が起こるか・・・

複雑化したルールは引き継げなくなる
27

機械学習が失敗するパターン
l 

できない精度度を求める
l 
l 

l 

⼈人にとって簡単なタスクをやろうとする
l 
l 

l 

サイコロの次の⽬目を当てることはできない
同じように、精度度の限界がある

少ない情報から推論論するのは⼈人間が得意
逆に⼤大量量の情報から判断する必要がある時は機械が得意

ボトルネックが別にある
l 
l 

アクションを取るのが⼈人だったり、⼈人が途中に介在する
量量と速度度のメリットをいかに活かすか
28

機械学習をどう実装・システム導⼊入するか

専⽤用スクリプト⾔言語／ツール
R, Weka, Matlab, SPSS

汎⽤用⾔言語⽤用ライブラリ
SciPy, Shogun

クラウドベース機械学習ツール
bigML, Bazil

ビッグデータ向けプラットホーム
Mahout, Jubatus, Oryx, hivemall

29

事例：コンテンツ連動型広告（YDN）

P32

パフォーマンス制約を満たすため、２段階の
構成が一般的です
課題
• 膨大なユーザー数、リクエスト数
• 様々なコンテンツ、広告
• レイテンシー制約
• 引き当てロジックの複雑化

ページリクエスト
ユーザー情報

広告DB

マッチング（情報検索アプローチ）

Query

転置

インデックス

リランキング（機械学習アプローチ）

Short
List
Long
List

機械学習

モデル

Short
List

P33

CTR（Click-Through-Rate）を予測
→ 分類ではなく、回帰です

P34

•  4本の候補から2本を選んで配信する場合の例
•  入札額×CTR＝期待収益
広告

入札額

CTR

期待収益

A

20

0.25

5.0

B

15

0.20

3.0

C

30

0.15

4.5

D

100

0.01

1.0

期待収益の高いAとCを
配信すれば良さそう！

素性と予測モデル

P35

ユーザーと広告の
類似度

広告自身の
情報

ユーザー
広告

ページ
（環境）

ページと広告の
過去の
関連度
配信実績情報

ページp、ユーザーu、広告aが
与えられた時のCTR

データから学習される
モデルのパラメータ

素性ベクトル

（参考）学会発表もしてます

hFp://dl.acm.org/cita]on.cfm?id=2501978

P36

商品情報整備のための機械学習の活用

１億

膨大な数の商品数

多くが非構造データ

1.  商品情報に特化した形態素解析器の構築
2.  商品情報の構造化
3.  よい画像の自動選択
38

１．商品情報に特化した形態素解析器の構築
サードパーティ製
解析器
シャンパンドゥヴィノージュ
(未知語)

うっとろりんとする

)

by RIT

シャンパン | ドゥ 
| ヴィノージュ
うっとろりん | と | する

検索

(新語)

蕾丝百搭吊带背心
(中国語)

蕾丝 | 百搭
| 吊带 | 背心
楽天商品データに対する
単語分割精度
情報抽出
テキストマイニング
etc.

39

２．商品データの構造化
•  構造化されていないテキストから商品情報を自動抽
出するシステムの開発
テキスト
(非構造化データ)

構造化データ
属性

属性値

色

赤

生産地

イタリア,
トスカーナ

ブドウ品種
メルロー,
カベルネソービニヨン,
プティヴェルド,
カベルネブラン
年代

2010

容量

750ml
40

２．商品データの構造化
1.  HTMLのテーブルを参照し，属性値DBを生成
2.  属性値DBを利用して，属性値抽出ルールを自動生成

（2）

Table data

Generation
Chateau d’Issan
1994

Database
:
<Region, Margaux>
<Color, White>
:

This is a
wine from
Margaux.
...

Annotation

Rule
wine from x
=> x is a Region

This is a wine from
Lafite Rothschild
New Region!

（１）
41

３．よい商品画像の選択
•  店舗様がアップロードした画像セットから，
商品カタログへの掲載に適切な画像を選択

店舗様名が含まれている画像

「準備中」の画像
42

３．よい商品画像の選択
•  テキストが含まれている領域か否かを判定

送料無料
text

non-text

Classify text/non-text

43

機械学習CROSS 前半資料

About ALBERT

分析⼒力力をコアとする
マーケティングソリューションカンパニー

※エンジニアなど募集中です！　http://bit.ly/alb_recruit
© 2013 ALBERT Inc.

引⽤用 http://chiefmartec.com/2014/01/marketing-technology-landscape-supergraphic-2014/

Display
Adver:sing

Data
Management
PlaAorm

CRM＆Marke:ng
Automa:on

引⽤用 http://chiefmartec.com/2014/01/marketing-technology-landscape-supergraphic-2014/

マーケティング分野における機械学習の活⽤用状況

•  機械学習の活⽤用・⼆二つの観点

–  マーケティング・オートメーションを実現する⼿手段としての
「機械学習」
–  オーディエンスデータ・蓄積データをアドホックに分析する
⼿手段としての「機械学習」

•  主な活⽤用シーン（例例）
–  レコメンデーション

•  アソシエーション・ルール・マイニング
•  協調フィルタリング

–  顧客のクラスタリング／分類

•  ⾮非階層クラスタリング（k-means）
•  クラス分類（k-近傍探索索）

–  クリエイティブ最適化
•  重回帰分析

事例例：顧客のクラスタリング／分類
購買ログやアクセス履履歴を元に、顧客をクラスタリングします
ファッションは⼩小物重視派
ファッション⼩小物、雑貨などを中⼼心に購⼊入

オフィスカジュアル派
主に仕事⽤用の服としてサイトを活⽤用。
ビジネス向けアイテムを中⼼心に購⼊入

⽉月1回配信：ファッション⼩小物特集メルマガ

⽉月2回配信：オフィスで使えるアイテム特集

クラスタリング結果を、情報・タイミングを最適化したメール配信の実現に利利⽤用します
© 2013 ALBERT Inc.

事例例：クリエイティブ最適化
バナー広告などで使われているクリエイティブ画像を、構成要素に分解します

重回帰分析を⽤用いて、実 CTR から各構成要素の偏回帰係数を算出することで、クリエイティブ
ごとの予測 CTR や、最適なクリエイティブの推定を実現します

© 2013 ALBERT Inc.

機械学習の利用事例@産総研
広告データのコンバージョン率推定　[共同研究]

•  ユーザ属性群、広告属性群からなるセッションに対して最
CVR(Conversion
Rate)が良い広告をユーザに提示する

•  CVR
=
#CV
/
#CLICKS

•  CVとは広告クリックのあった媒体で、ユーザが実際に(資料が請求した|実
際に商品が購入した)等のイベント

•  Terabytes以上の訓練データセット、月60-‐100GB程度で増加中

•  1000クライアント以上の広告主

•  RDB→TSV形式にして定期的にデータをHDFSに投入

•  翌月のCVありなしを広告カテゴリにもよるが平均0.95程度のAUC
で予測できている

•  1年以上前からのデータを訓練に利用

•  訓練事例の蓄積が不十分なカテゴリのAUCは低い

•  Hivemallにより32ノードで5-‐10分程度で学習

•  最大1000程度のmapタスクが立ち上がる (#map
slotに応じた学習時間）

•  学習というよりも特徴エンジニアリングに一番時間を要する

•  複数テーブルの結合処理、学習用の訓練例（特徴表現）の作成

•  Hive+UDFが最も有難く感じる瞬間

•  Columnar
(ORC)
フォーマットによる圧縮がよく効く

•  テラバイトデータの特徴エンジニアリング ((('A`)))

広告のCLICK率は精々0.2%なのでCTR = #CLICKS / # Impressionまで計測す
ると500倍のストレージ要件

大規模データの特徴エンジニアリング（前処理）
Hadoop/Hiveを利用したELT(Extract-‐Load-‐Transform)処理が特徴エンジニア

リングに有用

•  HDFSに取りあえずロードさせてHadoop/Hiveで整形するのが

勝ちパターン(?)

•  結合処理はHiveで並列ハッシュ結合により行う

•  共同研究で行っているCVR推定では3つのview定義と3つの一時table、

数個のUDFを訓練例の作成に利用している

Label

1
2
3

練
例

Web

service

7

1

transform
Hadoop
/Hive
訓

9

-1

Logs

B

1

Join

A

extract
load

OLTP

DBs

8

データソース

の結合処理

ユーザID等の質的変数を

二値素性に変換

Transform
script
Label

A:2

A:3

B:7

B:8

B:9

1

1

0

0

0

1

0

-1

KDDCup
2012のデータセット

A:1

0

1

0

0

0

1

1

0

0

1

1

0

0

•  特徴エンジニアリング（ETL処理）を効率的に扱える機械学習フレームワークが必要

• 

大規模データになるとプログラミングするのは大変（外部マージソートが必須）

•  ETLツールにはUDF相当やHiveのTransform相当（任意のスクリプト実行）の拡張性が必要

• 

予め用意されている関数などでは不十分なことが多い

運用上得られた課題(1) – 学習アルゴリズム
データ量が増えても難なく動作する学習アルゴリズム

•  学習率をパラメタに必要とするアルゴリズムの適用は難しい(e.g.,
確率的勾配降
下法(SGD))

•  SGDの学習率の自動設定手法はまだ研究段階

•  モデルの確信度により学習モデルの更新を制御するアルゴリズム(CW/AROW/
SCW)は収束は早いが…

•  データ量が増すと単純なPassive
Aggressiveに劣ることもある

•  急激な変化（concept
drip）への対処

•  訓練例とテストデータの乖離した場合にどうするか
•  過去の膨大なデータ（ビックデータ）を学習に用いることが仇となるケースがある

アベノミクスによる

レジームシフト

•  多用な切り口で学習モデルを作って

多椀バンディット等でモデルを選択する?

•  学習器への予測結果のLazyなフィード
バック機構?

去年の10月ごろから金融業の広告の

コンバージョン率が跳ね上がる

運用上得られた課題(2) – 学習フレームワーク
•  リアルタイムの学習は実際に必要だけど…逐次学
習/ストリーム学習の設定は現実的(?)

•  データの入力順に学習モデルが左右される

•  ストリーム設定だと学習器への入力のshuﬄeができない

•  CW/AROWに最初に負の事例ばかり学習させたら..?

•  訓練例を複数回数（イテレーション）、順不同に学習器に与える必
要がある

•  CW/AROW/SCWでも経験的に3イテレーションぐらいはさせた方が良い

バッチ学習と逐次学習のハイブリッドに向かうのではないか
Hadoop cluster

Postgres

Training data

OLTP
transactions

node

Incremental
learning

・・・

Prediction model

Cloudera
Oryx

node

node

DB-‐Hadoop
Hybrid

machine
learning

Batch
learning

FFRI,Inc.

情報セキュリティ業界の現状
環境の変化
マルウェア・各種データの増加
ネットワークの高速化、etc.

古き良き時代

ブラックリスト

ホワイトリスト

データ増大
未知データ

「外部脅威」の出現
ハッカー、マルウェア、
脆弱性攻撃、etc.

レピュテーション
ヒューリスティッ
ク
サンドボックス
機械学習

58

FFRI,Inc.

（一例）マルウェアの急増

2006

2013

出典：http://www.av-test.org/en/statistics/malware/

59

FFRI,Inc.

マルウェア検知（分類）
•  近年のマルウェアの多くは亜種 or ツールによる
自動生成
→ コード面、機能面での差分は比較的少ない

•  正常ソフトとマルウェアを線形分離できないか？
–  実行時に呼び出されたAPIのn-gramを特徴に利用
NtCreateFile_NtWriteFile_NtCloseHandle

•  パラメーター次第だが、TPR:90%超、FPR:1∼5%
→ FPR:1%以上はNG（セキュリティ業界の悩み）
60

FFRI,Inc.

マルウェアクラスタリング
•  モチベーション
–  目的に沿った意味のあるデータを選択したい

•  取り組み例
–  社内のマルウェアDBから1000件無作為抽出
–  APIのn-gramを特徴としてウォード法を適用
–  大きく3系統に分離
（部分的に手動検証）

61

Preferred Infrastructure (PFI)
　最先端の技術を最短路路で実⽤用化
l 
l 
l 

東⼤大発ソフトウェア開発ベンチャー
創業：2006年年3⽉月
主な製品
l 

Sedue: 検索索＆レコメンドエンジン

l 

Bazil: 使いやすい機械学習解析サービス

l 

Jubatus: ⼤大規模オンライン分散機械学習

代表取締役
⻄西川徹

情報検索索（IR）

分散システム

⾃自然⾔言語処理理

機械学習

65

取締役副社⻑⾧長
岡野原⼤大輔

Jubatus: Hadoopの先を⾏行行く⼤大規模データ解析基盤
l 

従来の⼤大規模データ解析：集計やルール処理理が主な⼿手段
l 

l 

HadoopやCEP(Complex Event Processing)が中⼼心的役割

これからの⼤大規模データ解析：リアルタイム性や深い解析も重要
l 

Jubatus: 世界初の⼤大規模分散オンライン機械学習基盤

l 

NTT SICと共同開発＆オープンソース公開 → http://jubat.us/

1. ⼤大規模化
2. リアルタイム／オンライン
3. 深い解析
l 

分散オンライン化したアルゴリズムを実装済みの処理理機能
l 

分類／回帰／近傍探索索／レコメンド／異異常検知／クラスタリング
66

Bazil: クラウドベース機械学習分析向けツール
l 

テキスト、ログ、履履歴等もそのまま⼊入⼒力力・モデル構築・予測
l 

l 

機械学習モデルによる予測の要因を⾒見見える化
l 

l 

扱いづらい⾮非構造データに隠れた情報の価値もフル活⽤用
「なぜその予測になったか？」を知ることでPDCAサイクルを加速

ブラウザから使えるASPサービスとしてクラウドで提供
l 

インストール不不要でOSやマシンを選ばずに利利⽤用可能

テキスト

ログ

数値

分析者

Web GUI
要因分析

精度度評価

クラウド

セッション後半の流流れ
l 

前半振り返り

l 

機械学習導⼊入の展望：どこから導⼊入が進むのか

l 

機械学習は精度度で⼈人間に勝てるのか

l 

役⽴立立つケースとそうでないケースの違うは何か

l 

それを⽀支える技術やツールとしては何が有望か

l 

どのように導⼊入を進めていけば良良いのか

l 

まとめ
69

機械学習CROSS 前半資料

More Related Content

機械学習CROSS 前半資料