Submit Search
機械学習CROSS 前半資料
•
59 likes
•
18,766 views
Shohei Hido
Follow
エンジニアサポートCROSS2014 機械学習CROSSセッション前半資料です
Read less
Read more
1 of 69
Download now
Downloaded 223 times
More Related Content
機械学習CROSS 前半資料
1.
機械学習CROSS ー前編ー エンジニアサポートCROSS 2013/01/17
2.
Agenda l 機械学習セッション概要 l パネリスト⾃自⼰己紹介 l 機械学習「超」⼊入⾨門 l パネリスト活⽤用事例例紹介 l 後半に向けて
3.
機械学習CROSSの⽬目的、の前に… NGワード データサイエンティスト 3
4.
なんで? l もう、いいよね l l l 昨年年のデータサイエンティストCROSSの素晴らしさ 飽和したデータサイエンティスト論論 「まずは、ヒトと組織でしょう」 l l それが⼤大事、だけど現場とビジネス理理解がもっと⼤大事 l l データサイエンティストに必要なスキルやリテラシー 最終的にデータ活⽤用するための組織と意思決定プロセスがあるか 「分析技術の話は、そのあとでしょう」 l l それを意思決定にどう役⽴立立てられるかが最優先課題 l l 仮説⽴立立ててデータ取って集計して可視化するのが第⼀一歩 分析⼿手法はまずシンプルなもの、⾼高度度なものに拘るのは筋悪 → 「だから、機械学習とかまだいいでしょう」 4
5.
本当に? l l l NIPS2013:機械学習で最⾼高峰の国際学会 今年年のスポンサー:Google/Amazon/Facebook/Yahoo/Microsoft FacebookはCEOマーク・ザッカーバーグまで来場 5
6.
2013年年:機械学習、特に ディープラーニングを巡る動き 6
7.
機械学習は(Web業界でも)さらに応⽤用が広がる! l l l l データ活⽤用の技術/組織インフラはどんどん整っていく そこが各社横並びになった世界で差別化になるものは何か? 伝説のデータサイエンティスト? それとも⾼高度度に進化した機械学習アルゴリズム? 7 今のうちに押さえましょう!
8.
Agenda l 機械学習セッション概要 l パネリスト⾃自⼰己紹介 l 機械学習「超」⼊入⾨門 l パネリスト活⽤用事例例紹介 l 後半に向けて
9.
⾃自⼰己紹介 l l l l ⽐比⼾戸将平(HIDO Shohei) Twitter: @sla 専⾨門:データマイニング、機械学習 経歴: l 2002:
IPA未踏ユース第⼀一期 l 2006: 京都⼤大学情報学研究科修⼠士修了了 l l 2006-2012: IBM東京基礎研究所データ解析グループ 2012-: 株式会社プリファードインフラストラクチャー l l Jubatusチーム共同リーダー 2013-: PFIアメリカ取締役 & Chief Research Officer 9
10.
Yahoo!JAPAN研究所 田島 玲(あきら) 研究員・コンサルタントと動きつつ、データをいかに現 場で実際に役立てていくか、をテーマとしてます 現在は、研究所としてヤフーの様々なサービスでの データ活用を部門横断で支援中 2011年- ヤフー(株)。膨大なデータの利活用をミッションとしている 2012年7月より
Yahoo! JAPAN研究所 所長 2005年-2010年 日本アイ・ビー・エム(株)東京基礎研究所 数理科学チームのリード 2002-2005年 A.T.カーニー(戦略系コンサルティングファーム) コンサルタント 1992-2002年 日本アイ・ビー・エム(株)東京基礎研究所 研究員 2000年3月 東京大学大学院理学系研究科情報科学専攻 博士(理学) P10
11.
平手 勇宇(ひらて ゆう) •
楽天株式会社 楽天技術研究所 インテリジェンスドメインチーム • 専門分野:データマイニング,Webマイニング 50以上の様々なサービスを提供 11
12.
平手 勇宇(ひらて ゆう) •
楽天株式会社 楽天技術研究所 インテリジェンスドメインチーム • 専門分野:データマイニング,Webマイニング 海外展開を推進 12
13.
株式会社 ALBERT -
⼩小宮 篤史 @komiya_atsushi 分析⼒力力をコアとする マーケティングソリューションカンパニー エンジニア(Web / AWS / 機械学習) サービス・ソリューションの開発と運⽤用
14.
FFRI,Inc. 村上純一 (@junichi_m) • 株式会社FFRI –
執行役員 事業推進本部長(兼新技開発部長) • 専門領域 – マルウェア解析、脆弱性分析、セキュリティ脅威分析 • 機械学習は2013年4月から – マルウェア検知(分類)・クラスタリング等 14
15.
自己紹介 – 油井誠
@myui • 奈良先端科学技術大学院大学(NAIST) 情報科学研究科 博士課程修了、博士(工学) 2009年3月 • 産業技術総合研究所 情報技術研究部門 研究員 2010月4月~現在 • 専門はデータ工学、データベース学 大規模データを高速に扱うアルゴリズムの研究に一貫して従事(Data Geek) • XMLデータベースの研究開発 • Many-‐core(64コア)プロセッサを利用したノンブロッキング(Lock-‐free)アルゴリズ ムの研究開発 • データベースの並列処理の研究開発 • オランダ国立情報学数学研究所で主記憶データベース(MonetDB)の並列処理機構 を開発 • 大規模機械学習の研究開発 • Apache Hive上で動くオープンソース機械学習ライブラリを開発 hFps://github.com/myui/hivemall • 企業との共同研究でインターネット広告のコンバージョン率(CVR)予測を行っており、 テラバイト級のデータの機械学習にHivemallを利用 • 平成14年度 IPA未踏ユーススーパークリエイタ • 未踏ユースの第一期生で比戸さん(PFI)と同期
16.
Gunosy紹介 Gunosyとは ユーザーの行動を解析して(SNSやGunosy内)その人の興味にあった記事 を推薦するサービス 自己紹介 名前:
福島良典 年齢:25歳 役職:CEO 仕事: 社長業(意思決定とリクルーティング) / アドサーバーの開発 を半々くらい 今の興味 -‐> 新しいアルゴリズムをどう試すかのテストに関して 機械学習の応用事例 ほぼ全てに 具体的には、推薦部分やアドに (ex) 記事やユーザーの特徴付け、似た記事を探す、似たユーザーを探す ユーザーのクラスタリング、ユーザーの男女判別、どのアルゴリズムを選択する かetc ©Gunosy Inc.
17.
Agenda l 機械学習セッション概要 l パネリスト⾃自⼰己紹介 l 機械学習「超」⼊入⾨門 l パネリスト活⽤用事例例紹介 l 後半に向けて
18.
機械学習ってぶっちゃけ何? 問1. 機械学習の説明で最も適切切なものを選んでください。 a) ⼈人間のような知能をもったロボッ トを実現するための計算機システム c)
どんな未来も100%予測可能な ルールベースシステム及び その構築⼿手法 b) 与えられたデータから傾向や法則 を導き予測や分析に活⽤用できる アルゴリズム群 d) 質問⽂文を⼊入⼒力力すると求める回答が 瞬時に得られる質問応答を 可能にする技術 18
19.
機械学習とは l 経験(データ)によって賢くなるアルゴリズムの集合 l l l l データから知識識・ルールを⾃自動獲得する データの適切切な表現⽅方法も獲得する ⼈人⼯工知能の中で、⼈人が知識識やルールを 明⽰示的に与える⽅方法の限界から⽣生まれてきた タスクはいろいろある 学習データ 19 分類モデル
20.
機械学習タスク1:レコメンド l ヒト x アイテムの関係の中でオススメを探す l l l ヒト←アイテム:似たアイテムを⾒見見たヒトが⾒見見たアイテム アイテム←アイテム:似たヒト集団が⾒見見たアイテム Web業界でのアプリケーション l l 各ユーザーの履履歴に基いておすすめ商品(記事)を表⽰示 l
例例:ダイ・ハード⾒見見たヒト←ターミネーターをレコメンド 各商品(記事)に関連する商品(記事)を表⽰示 l 例例:カメラを⾒見見た⼈人に予備バッテリーをレコメンド ヒト←アイテム ヒトの閲覧ログ 推薦アイテム アイテム←アイテム 現在のアイテム 関連アイテム 20
21.
機械学習タスク2:クラス分類 l ⼊入⼒力力データxに対するクラスyを予測するモデルを構築 l l l Web業界でのアプリケーション l l l 訓練時:既知の⼊入⼒力力xとクラスyのペアを⼤大量量に投⼊入 予測時:y未知の⼊入⼒力力xに対する予測出⼒力力y’を計算 スパムメール分類:x=メール本⽂文、y={普通, スパム} 不不正ユーザー検出:x=⾏行行動履履歴、y={⼀一般, 不不正} yが連続値なら回帰になる、クラスタリングとは異異なる 予測 訓練 データx データx 正解y 予測y’ 21 21
22.
機械学習タスク3:異異常検知 l ⼤大多数のデータとは異異なる性質を持ったものを検出 l l l 訓練時:正常時の挙動についてモデル化 予測時:現在の挙動に対して異異常スコアを計算 Web業界でのアプリケーション l l サーバー故障予兆検知 l クエリ数に⽐比べてレスポンスが遅くI/Oエラー率率率が⾼高い 不不正アクセス・ネットワーク攻撃検知 l ⾼高頻度度なログイン失敗、不不⾃自然なコマンド列列を検知 予測 訓練 直近ログx 正常時ログx 22 異異常スコアy’ 22
23.
様々な分野に適⽤用可能 l l l データから有⽤用な規則、ルール、知識識、判断基準を抽出 データがあるところならば、どこでも使える 様々な分野の問題に利利⽤用可能 Web業界での適用分野 レコメン デーション 分類、識識別 ユーザー ⾏行行動予測 ユーザー 属性推定 情報抽出 評判分析 ⾃自動応答 負荷予測 画像認識識 検索索ランク 攻撃検知 故障診断 23
24.
あれ、けど機械学習じゃなくてもできるんじゃ? たとえば⼈人⼿手とかルールとか l l l はい、そうです、タスク⾃自体抽象化してるので 極端に⾔言えば機械学習にしかできないタスクは無い ⼈人⼿手と⽐比べたメリット l l l l ルールに⽐比べたメリット l l l l l ⼤大規模データ・⾼高次元データ・可視化できないデータが扱える 応答速度度が早い 作業コストが低い 変化する状況への対応が得意 更更新やチューニングが容易易 複雑な条件を扱うのが得意 (⼀一般に)精度度が⾼高い これらが決定的な差別化になる勝負を選ぶ必要性はある 24
25.
タスク毎のざっくりとした短所・⻑⾧長所 ⼈人⼿手 ⻑⾧長所 ルールベース 短所 ⻑⾧長所 短所 機械学習 ⻑⾧長所 短所 どんなユーザー 経験と勘を 数多く存在す 履履歴に基づいて
チューニン レコ システム化で がどういうもの 抽象化して るマイナーな マイナーなケー グが悪いと メン きずスケール を好むか、経験 スケールさ ケースに対応 スも対応できる、 意味不不明な ド しない と勘を活かせる せられる できない スケールする 結果が出る ⽂文章分類は読め 全て⼈人間がや クラ ば分かる(主⼈人 るのはコスト ス分 がオオアリクイ が掛かり過ぎ 類 に…=スパム) る 正解付き ⼈人間の感覚 例例外ケースが 正解付きデータ データ集め を単純化し 無数に存在す を集められれば は⼈人⼿手や てスケール ると精度度が上 精度度の⾼高い予測 ルールに依 させられる がらない が可能 存する 数万種類の計 閾値を超え 測値を24時間 複雑な異異常、 検知はでき たらアラー おおよその異異常 複雑・未知な異異 365⽇日モニター 未知の異異常を ても原因が 異異常 ト、などは は何らかの計測 常も捉えられる を監視するわ ルール化する 解釈不不能な 検知 ⾃自動化でき 値に現れている 可能性がある けにもいかな のは困難 場合がある る い 25
26.
「機械にやらせるなら、ルールを書けばいいんじゃ ないの?」 「ゴルフ」 à スポーツ 「インテル」
à コンピュータ 「選挙」 à 政治 l l 俗にルールベースと呼ばれる⽅方法 最初は精度度が悪いが頑張れば意外とどこまでも良良くなる 26
27.
ルールに基づく判断の限界 「ゴルフ」and「VW」 à ⾞車車 「インテル」and「⻑⾧長友」
à サッカー 「選挙」and「AKB」 à 芸能 l ⼈人⼿手で書いたルールはすぐ複雑、膨⼤大になる l l l l 1万⾏行行のperlスクリプト どこを変えたらいいかわからない 条件を追加したら何が起こるか・・・ 複雑化したルールは引き継げなくなる 27
28.
機械学習が失敗するパターン l できない精度度を求める l l l ⼈人にとって簡単なタスクをやろうとする l l l サイコロの次の⽬目を当てることはできない 同じように、精度度の限界がある 少ない情報から推論論するのは⼈人間が得意 逆に⼤大量量の情報から判断する必要がある時は機械が得意 ボトルネックが別にある l l アクションを取るのが⼈人だったり、⼈人が途中に介在する 量量と速度度のメリットをいかに活かすか 28
29.
機械学習をどう実装・システム導⼊入するか 専⽤用スクリプト⾔言語/ツール R, Weka, Matlab,
SPSS 汎⽤用⾔言語⽤用ライブラリ SciPy, Shogun クラウドベース機械学習ツール bigML, Bazil ビッグデータ向けプラットホーム Mahout, Jubatus, Oryx, hivemall 29
30.
Agenda l 機械学習セッション概要 l パネリスト⾃自⼰己紹介 l 機械学習「超」⼊入⾨門 l パネリスト活⽤用事例例紹介 l 後半に向けて
31.
P31
32.
事例:コンテンツ連動型広告(YDN) P32
33.
パフォーマンス制約を満たすため、2段階の 構成が一般的です 課題 • 膨大なユーザー数、リクエスト数 • 様々なコンテンツ、広告 • レイテンシー制約 • 引き当てロジックの複雑化 ページリクエスト ユーザー情報 広告DB
マッチング(情報検索アプローチ) Query 転置 インデックス リランキング(機械学習アプローチ) Short List Long List 機械学習 モデル Short List P33
34.
CTR(Click-Through-Rate)を予測 → 分類ではなく、回帰です P34 • 4本の候補から2本を選んで配信する場合の例 •
入札額×CTR=期待収益 広告 入札額 CTR 期待収益 A 20 0.25 5.0 B 15 0.20 3.0 C 30 0.15 4.5 D 100 0.01 1.0 期待収益の高いAとCを 配信すれば良さそう!
35.
素性と予測モデル P35 ユーザーと広告の 類似度 広告自身の 情報 ユーザー 広告 ページ (環境) ページと広告の 過去の 関連度 配信実績情報 ページp、ユーザーu、広告aが 与えられた時のCTR データから学習される モデルのパラメータ 素性ベクトル
36.
(参考)学会発表もしてます hFp://dl.acm.org/cita]on.cfm?id=2501978 P36
37.
37
38.
商品情報整備のための機械学習の活用 1億 膨大な数の商品数 多くが非構造データ 1. 商品情報に特化した形態素解析器の構築 2. 商品情報の構造化 3.
よい画像の自動選択 38
39.
1.商品情報に特化した形態素解析器の構築 サードパーティ製 解析器 シャ ンパンドゥヴィノージュ (未知語) うっ とろ
りん と する ) by RIT シャンパン | ドゥ | ヴィノージュ うっとろりん | と | する 検索 (新語) 蕾丝百搭吊带背心 (中国語) 蕾丝 | 百搭 | 吊带 | 背心 楽天商品データに対する 単語分割精度 情報抽出 テキストマイニング etc. 39
40.
2.商品データの構造化 • 構造化されていないテキストから商品情報を自動抽 出するシステムの開発 テキスト (非構造化データ) 構造化データ 属性 属性値 色 赤 生産地 イタリア, トスカーナ ブドウ品種 メルロー, カベルネソービニヨン, プティヴェルド, カベルネブラン 年代 2010 容量 750ml 40
41.
2.商品データの構造化 1. HTMLのテーブルを参照し,属性値DBを生成 2. 属性値DBを利用して,属性値抽出ルールを自動生成 (2) Table
data Generation Chateau d’Issan 1994 Database : <Region, Margaux> <Color, White> : This is a wine from Margaux. ... Annotation Rule wine from x => x is a Region This is a wine from Lafite Rothschild New Region! (1) 41
42.
3.よい商品画像の選択 • 店舗様がアップロードした画像セットから, 商品カタログへの掲載に適切な画像を選択 店舗様名が含まれている画像 「準備中」の画像 42
43.
3.よい商品画像の選択 • テキストが含まれている領域か否かを判定 送料無料
text non-text Classify text/non-text 43
45.
About ALBERT 分析⼒力力をコアとする マーケティングソリューションカンパニー ※エンジニアなど募集中です! http://bit.ly/alb_recruit © 2013
ALBERT Inc.
46.
引⽤用 http://chiefmartec.com/2014/01/marketing-technology-landscape-supergraphic-2014/
47.
Display Adver:sing Data Management
PlaAorm CRM&Marke:ng Automa:on 引⽤用 http://chiefmartec.com/2014/01/marketing-technology-landscape-supergraphic-2014/
48.
マーケティング分野における機械学習の活⽤用状況 • 機械学習の活⽤用・⼆二つの観点 – マーケティング・オートメーションを実現する⼿手段としての 「機械学習」 –
オーディエンスデータ・蓄積データをアドホックに分析する ⼿手段としての「機械学習」 • 主な活⽤用シーン(例例) – レコメンデーション • アソシエーション・ルール・マイニング • 協調フィルタリング – 顧客のクラスタリング/分類 • ⾮非階層クラスタリング(k-means) • クラス分類(k-近傍探索索) – クリエイティブ最適化 • 重回帰分析
49.
ALBERT のマーケティングソリューション © 2013
ALBERT Inc.
50.
事例例:顧客のクラスタリング/分類 購買ログやアクセス履履歴を元に、顧客をクラスタリングします ファッションは⼩小物重視派 ファッション⼩小物、雑貨などを中⼼心に購⼊入 オフィスカジュアル派 主に仕事⽤用の服としてサイトを活⽤用。 ビジネス向けアイテムを中⼼心に購⼊入 ⽉月1回配信:ファッション⼩小物特集メルマガ ⽉月2回配信:オフィスで使えるアイテム特集 クラスタリング結果を、情報・タイミングを最適化したメール配信の実現に利利⽤用します © 2013 ALBERT
Inc.
51.
事例例:クリエイティブ最適化 バナー広告などで使われているクリエイティブ画像を、構成要素に分解します 重回帰分析を⽤用いて、実 CTR から各構成要素の偏回帰係数を算出することで、クリエイティブ ごとの予測
CTR や、最適なクリエイティブの推定を実現します © 2013 ALBERT Inc.
53.
機械学習の利用事例@産総研 広告データのコンバージョン率推定 [共同研究] • ユーザ属性群、広告属性群からなるセッションに対して最 CVR(Conversion
Rate)が良い広告をユーザに提示する • CVR = #CV / #CLICKS • CVとは広告クリックのあった媒体で、ユーザが実際に(資料が請求した|実 際に商品が購入した)等のイベント • Terabytes以上の訓練データセット、月60-‐100GB程度で増加中 • 1000クライアント以上の広告主 • RDB→TSV形式にして定期的にデータをHDFSに投入 • 翌月のCVありなしを広告カテゴリにもよるが平均0.95程度のAUC で予測できている • 1年以上前からのデータを訓練に利用 • 訓練事例の蓄積が不十分なカテゴリのAUCは低い • Hivemallにより32ノードで5-‐10分程度で学習 • 最大1000程度のmapタスクが立ち上がる (#map slotに応じた学習時間) • 学習というよりも特徴エンジニアリングに一番時間を要する • 複数テーブルの結合処理、学習用の訓練例(特徴表現)の作成 • Hive+UDFが最も有難く感じる瞬間 • Columnar (ORC) フォーマットによる圧縮がよく効く • テラバイトデータの特徴エンジニアリング ((('A`))) 広告のCLICK率は精々0.2%なのでCTR = #CLICKS / # Impressionまで計測す ると500倍のストレージ要件
54.
大規模データの特徴エンジニアリング(前処理) Hadoop/Hiveを利用したELT(Extract-‐Load-‐Transform)処理が特徴エンジニア リングに有用 •
HDFSに取りあえずロードさせてHadoop/Hiveで整形するのが 勝ちパターン(?) • 結合処理はHiveで並列ハッシュ結合により行う • 共同研究で行っているCVR推定では3つのview定義と3つの一時table、 数個のUDFを訓練例の作成に利用している Label 1 2 3 練 例 Web service 7 1 transform Hadoop /Hive 訓 9 -1 Logs B 1 Join A extract load OLTP DBs 8 データソース の結合処理 ユーザID等の質的変数を 二値素性に変換 Transform script Label A:2 A:3 B:7 B:8 B:9 1 1 0 0 0 1 0 -1 KDDCup 2012のデータセット A:1 0 1 0 0 0 1 1 0 0 1 1 0 0 • 特徴エンジニアリング(ETL処理)を効率的に扱える機械学習フレームワークが必要 • 大規模データになるとプログラミングするのは大変(外部マージソートが必須) • ETLツールにはUDF相当やHiveのTransform相当(任意のスクリプト実行)の拡張性が必要 • 予め用意されている関数などでは不十分なことが多い
55.
運用上得られた課題(1) – 学習アルゴリズム データ量が増えても難なく動作する学習アルゴリズム
• 学習率をパラメタに必要とするアルゴリズムの適用は難しい(e.g., 確率的勾配降 下法(SGD)) • SGDの学習率の自動設定手法はまだ研究段階 • モデルの確信度により学習モデルの更新を制御するアルゴリズム(CW/AROW/ SCW)は収束は早いが… • データ量が増すと単純なPassive Aggressiveに劣ることもある • 急激な変化(concept drip)への対処 • 訓練例とテストデータの乖離した場合にどうするか • 過去の膨大なデータ(ビックデータ)を学習に用いることが仇となるケースがある アベノミクスによる レジームシフト • 多用な切り口で学習モデルを作って 多椀バンディット等でモデルを選択する? • 学習器への予測結果のLazyなフィード バック機構? 去年の10月ごろから金融業の広告の コンバージョン率が跳ね上がる
56.
運用上得られた課題(2) – 学習フレームワーク •
リアルタイムの学習は実際に必要だけど…逐次学 習/ストリーム学習の設定は現実的(?) • データの入力順に学習モデルが左右される • ストリーム設定だと学習器への入力のshuffleができない • CW/AROWに最初に負の事例ばかり学習させたら..? • 訓練例を複数回数(イテレーション)、順不同に学習器に与える必 要がある • CW/AROW/SCWでも経験的に3イテレーションぐらいはさせた方が良い バッチ学習と逐次学習のハイブリッドに向かうのではないか Hadoop cluster Postgres Training data OLTP transactions node Incremental learning ・・・ Prediction model Cloudera Oryx node node DB-‐Hadoop Hybrid machine learning Batch learning
57.
FFRI,Inc. 57
58.
FFRI,Inc. 情報セキュリティ業界の現状 環境の変化 マルウェア・各種データの増加 ネットワークの高速化、etc. 古き良き時代 ブラックリスト ホワイトリスト データ増大 未知データ 「外部脅威」の出現 ハッカー、マルウェア、 脆弱性攻撃、etc. レピュテーション ヒューリスティッ ク サンドボックス 機械学習 58
59.
FFRI,Inc. (一例)マルウェアの急増 2006 2013 出典:http://www.av-test.org/en/statistics/malware/ 59
60.
FFRI,Inc. マルウェア検知(分類) • 近年のマルウェアの多くは亜種 or
ツールによる 自動生成 → コード面、機能面での差分は比較的少ない • 正常ソフトとマルウェアを線形分離できないか? – 実行時に呼び出されたAPIのn-gramを特徴に利用 NtCreateFile_NtWriteFile_NtCloseHandle • パラメーター次第だが、TPR:90%超、FPR:1∼5% → FPR:1%以上はNG(セキュリティ業界の悩み) 60
61.
FFRI,Inc. マルウェアクラスタリング • モチベーション – 目的に沿った意味のあるデータを選択したい •
取り組み例 – 社内のマルウェアDBから1000件無作為抽出 – APIのn-gramを特徴としてウォード法を適用 – 大きく3系統に分離 (部分的に手動検証) 61
62.
©Gunosy Inc.
63.
Gunosy紹介 Gunosyとは ユーザーの行動を解析して(SNSやGunosy内)その人の興味にあった記事 を推薦するサービス 自己紹介 名前:
福島良典 年齢:25歳 役職:CEO 仕事: 社長業(意思決定とリクルーティング) / アドサーバーの開発 を半々くらい 今の興味 -‐> 新しいアルゴリズムをどう試すかのテストに関して 機械学習の応用事例 ほぼ全てに 具体的には、推薦部分やアドに (ex) 記事やユーザーの特徴付け、似た記事を探す、似たユーザーを探す ユーザーのクラスタリング、ユーザーの男女判別、どのアルゴリズムを選択する かetc ©Gunosy Inc.
64.
64
65.
Preferred Infrastructure (PFI) 最先端の技術を最短路路で実⽤用化 l l l 東⼤大発ソフトウェア開発ベンチャー 創業:2006年年3⽉月 主な製品 l Sedue:
検索索&レコメンドエンジン l Bazil: 使いやすい機械学習解析サービス l Jubatus: ⼤大規模オンライン分散機械学習 代表取締役 ⻄西川徹 情報検索索(IR) 分散システム ⾃自然⾔言語処理理 機械学習 65 取締役副社⻑⾧長 岡野原⼤大輔
66.
Jubatus: Hadoopの先を⾏行行く⼤大規模データ解析基盤 l 従来の⼤大規模データ解析:集計やルール処理理が主な⼿手段 l l HadoopやCEP(Complex Event
Processing)が中⼼心的役割 これからの⼤大規模データ解析:リアルタイム性や深い解析も重要 l Jubatus: 世界初の⼤大規模分散オンライン機械学習基盤 l NTT SICと共同開発&オープンソース公開 → http://jubat.us/ 1. ⼤大規模化 2. リアルタイム/オンライン 3. 深い解析 l 分散オンライン化したアルゴリズムを実装済みの処理理機能 l 分類/回帰/近傍探索索/レコメンド/異異常検知/クラスタリング 66
67.
Bazil: クラウドベース機械学習分析向けツール l テキスト、ログ、履履歴等もそのまま⼊入⼒力力・モデル構築・予測 l l 機械学習モデルによる予測の要因を⾒見見える化 l l 扱いづらい⾮非構造データに隠れた情報の価値もフル活⽤用 「なぜその予測になったか?」を知ることでPDCAサイクルを加速 ブラウザから使えるASPサービスとしてクラウドで提供 l インストール不不要でOSやマシンを選ばずに利利⽤用可能 テキスト ログ
数値 分析者 Web GUI 要因分析 精度度評価 クラウド
68.
Agenda l 機械学習セッション概要 l パネリスト⾃自⼰己紹介 l 機械学習「超」⼊入⾨門 l パネリスト活⽤用事例例紹介 l 後半に向けて
69.
セッション後半の流流れ l 前半振り返り l 機械学習導⼊入の展望:どこから導⼊入が進むのか l 機械学習は精度度で⼈人間に勝てるのか l 役⽴立立つケースとそうでないケースの違うは何か
l それを⽀支える技術やツールとしては何が有望か l どのように導⼊入を進めていけば良良いのか l まとめ 69
Download