SlideShare a Scribd company logo
さらば!
データサイエンティスト
PFIセミナー 2013/08/22
株式会社Preferred Infrastructure
リサーチャー&Jubatusチームリーダー
比戸 将平
自己紹介
 比戸将平(HIDO Shohei)
 TwitterID: @sla
 専門:データマイニング、機械学習
 経歴:
 2006-2012: IBM東京基礎研究所データ解析グループ
 機械学習(特に異常検知)のアルゴリズム研究開発
 お客様案件でデータ解析プロジェクトに従事
 2012-: 株式会社プリファードインフラストラクチャー
 大規模オンライン分散機械学習基盤Jubatusチームリーダー
 2013-: Preferred Infrastructure America, Inc.
 Chief Research Officer
2
IT Leaders様にインタビュー記事掲載:
数日間Google検索のトップにいた(?)
http://it.impressbm.co.jp/e/2013/08/01/5054
データサイエンティスト三部作・完結編
「さらば!データサイエンティスト」
 つくり方:データサイエンティストグループの構築
 つかい方:仕事を依頼する側のリテラシーの話
 今回は定義論もあるあるも活用方法も無し
Slideshareにて公開中
 続:データサイエンティストブーム
 なぜ「さらば」なのか?
 具体例
 まとめ
 作者のあとがき
Agenda
データサイエンティスト
うおおおおおお
NHKクローズアップ現代で統計ブーム特集
 “統計学を使いこなす「データサイエンティスト」と呼
ばれる専門職は「最もセクシーな(魅力的な)職業」だ
として、多くの企業から引く手あまたの状況だ。”
http://www.nhk.or.jp/gendai/yotei/index_yotei_3375.html
Google Trendsによる検索人気度のMAX:
第2回時の3倍、第1回時の15倍
7
データサイエンティスト協会設立
→役割の定義と育成へ
http://www.datascientist.or.jp/
各社による育成ビジネス
http://www.albert2005.co.jp/release/archives/201307/29_120043.html
http://www.brainpad.co.jp/news/2013/pdf/0806.pdf
http://japan.emc.com/microsites/bigdata/why-big-data-datascientist.htm
関連本の相次ぐ出版:今年4月以降だけでこれだけ
育成、データ分析、統計推し、事例集、情シスの逆襲
現時点での決定版:
データサイエンティスト養成読本(今見た)
 広いトピックがコンパクトにかつ初歩には必要十分
 データ分析基礎編、データサイエンス、R、NumPy、
機械学習、Fluentd、マーケティング分析、SNS分析、SQL
 インストール方法、サンプルも豊富に載ってる
 データサイエンティストを目指すなら必読
本日のキーメッセージ
データサイエンティストは…
養成できません!!!
(そう簡単には)
 続:データサイエンティストブーム
 なぜ「さらば」なのか?
 具体例
 まとめ
 作者のあとがき
Agenda
データサイエンティスト
うおおおおおお
ビッグデータ分析の導入:まだまだこれから
 IBMの2012年調査
 24%がまだビッグデータ活用について調査段階
 47%がビッグデータ活用方法について検討段階
 わずか6%が導入してビジネス価値を生み出している
 導入の困難さと効率化の困難さがやや混同されている
IBM Institute of Business Value “Analytics: The real-world use of big data”, 2013
ビッグデータ
解析
データ
アナリティクス
ビ
ッ
グ
デ
ー
タ
ビッグデータ分析の現状:ブラックボックス?
15
応用
利益最大化
コスト最小化
需要予測
故障予知
営業戦略最適化
パーソナライズ
マーケ最適化
データ
サイエンティスト
ビ
ッ
グ
デ
ー
タ
ビッグデータ処理系と解析ソフトウェアの組合せ
16
データサイエンティスト
ビッグデータ処理系
応用
利益最大化
コスト最小化
需要予測
故障予知
営業戦略最適化
パーソナライズ
マーケ最適化
大規模DB
解析ソフトウェア
ビッグデータ分析の導入と効率化における3つの壁
IT
1
2
3
 パターン1:ビジネスに結びつける組織・体制
 パターン2:データ収集と蓄積の基盤
 ☆パターン3:解析の手法とスキルと効果測定
壁パターン1:ビジネスに結びつける組織・体制
 経営陣による戦略決定、組織横断のチームづくり
 関係部門全てに対する負担要請と利害調整
 ビッグデータ分析の効果の公平な分配
壁パターン2:データ収集と蓄積の基盤
 データが収集されていない、組織内にはるが出て来ない
 蓄積するための統合ITインフラが用意されていない
 部門単位でコストをかけるにはリスクが高すぎる
…そこをなんとか…
機密情報だからなー
個人情報保護もあるし。
そんなデータないよ。
え?新しく取れ?
(面倒だな…)
データサイエンティスト
マネージャー
現場社員
壁パターン3:解析の手法とスキルと効果測定
 統計学が重要というコンセプトレベルでは皆同意
 一方でデータサイエンティストへの過度の期待
 「うちのビジネスをよく理解してくれて〜」
 「コミュニケーション能力とPM力高くて〜」
 「統計も機械学習の最新技術も全部わかってて〜」
 「PDCAサイクル回すの手伝ってくれて〜」
あー完璧なデータサイエンティスト
どっかにいないかな〜
上層部
データサイエンティスト
……………………
スキルの問題:教育によりある程度解決する見込み
 真実:完璧なデータサイエンティストは存在しない
Communication
Skill
Business
Understanding
Project
Management
第3の支え:進化した解析用ソフトウェア
今ほとんど触れられることのない部分
ビッグデータ分析
ビッグデータ
ITインフラ
統
計
学
デ
ー
タ
サ
イ
エ
ン
テ
ィ
ス
ト
進
化
し
た
解
析
用
ソ
フ
ト
現状使われているソフトウェア群
RDB / NoSQL Hadoop / SQL-like
Analytics
○○○出現以前のビッグデータ分析プロセス
[データサイエンティスト w/ Hadoop+R+Weka, 2013]
ビ
グ
デ
ー
タ
データサイエンティスト
ビッグデータ処理理系
需要予測
故障予知
パーソナライズ
マーケ最適化
⼤大規
模
DB
解析ソフトウェア
プログラム言語出現以前のプログラミング
[ENIAC, 1946]
出典:wikipedia.org
 急募!配線エンジニア
 設計書通りに壁の穴から穴へ配線を繋ぐだけの簡単なお仕事
 これからのコンピュータ時代に求められるスキルが身につきます!
解析ソフトウェアの進化:あまり考慮されていない
今後もこれからのツールがずっと使われるのか?
 Matlab: 1984-
 SPSS: 1988-
 Weka: 1993-
 GNU R: 1996-
 元のS言語は
1984-
RDB / NoSQL Hadoop / SQL-like
Analytics
統計リテラシーの向上と解析ツールの進歩により
データサイエンティスト不要のケースが増大
ビ
グ
デ
ー
タ
需要予測
故障予知
パーソナライズ
マーケ最適化
データ分析担当者
新たな分析ツール群
健全なビッグデータ分析を実現するために
 ビッグデータという言葉によって
データとミドルウェアだけに注目が
集まっている
 そこで解決できない課題を人力で何
とかしてくれるデータサイエンティ
ストの出現と、その理想像に関する
議論が盛んに行われている
 組織の意識変革や経営陣・マネジメ
ント層の統計リテラシー向上も重要
だが、その他の変化も見失ってはい
けない
解析ソフト
人
組織
データ
ミドルウェア
 続:データサイエンティストブーム
 なぜ「さらば」なのか?
 具体例
 まとめ
 作者のあとがき
Agenda
データサイエンティスト
うおおおおおお
解析ソフトウェアの進化とは
 何が解析ソフトウェアをどう変えるのか
 メモリの大容量化→インメモリ処理のスケーラビリティ向上
 仮想化技術→面倒なデータ管理をユーザーから隠蔽
 ネットワークの高速化→処理結果を瞬時に伝送可能
 ブラウザ上GUIの進化→ブラウザからカンタンにに使えるUI
 クラウド→環境構築と性能増減のコストがほぼゼロに
 進化した解析ソフトウェアの特徵
 インメモリ動作:解析処理のインタラクティブ性を重視
 クラウド、SaaS化:データは向こう側に置いて結果だけ得る
 使いやすいUIに特化:ユーザーの敷居を出来る限り下げる
 シンプルな課金体系:無料トライアル+機能x月額料金
紹介する実例
 インタラクティブなデータ可視化ツール
 QlikView
 Tableau
 表形式データ加工ツール
 Fivetran
 カンタンに使える機械学習ツール
 bigML
 Bazil
 データサイエンティストのお助けツール
 MLbase
 maf
インタラクティブなデータ可視化(1/2)
QlikTech - QliKview (1996-)
 従来のBIツールとの違い:セルフサービス型
 データをインメモリで保持しビューをその場で変更可能
 複数の情報源を透過的に組合せ検索しながら深堀り・絞込み
 概要ムービー
インタラクティブなデータ可視化(2/2)
Tableau (2003-)
 VizQLという独自の可視化クエリ言語に基づいたシステム
 Amazon EC2で動作可能、クラウドサービスもリリース
 サンプルデモ
表形式データ加工ツール:
Fivetran (2013-)
 完全ブラウザベースで表形式データの処理を実行
 「ExcelとMatlabの間」→サンプルデモ
 独自の処理クエリを入力すると結果が次の表になる
 単なる変換から集計、時系列分析まで機能を拡張中
カンタンに使える機械学習ツール(1/2)
bigML (2012-)
 “Machine Learning for Everyone”
 決定木アルゴリズムによる学習&予測フローを固定化
 パラメータ調整や結果の表示を重視
 動作デモ
分析
担当者
テキスト ログ/履歴
Webブラウザ クラウド
予測要因 予測評価
数値データ
カンタンに使える機械学習ツール(2/2)
Preferred Infrastructure - Bazil (2013-)
 “Machine Learning for Everyone”
 決定木アルゴリズムによる学習&予測フローを固定化
 パラメータ調整や結果の表示を重視
 動作デモ
データサイエンティストのお助けツール(1/2)
UC Berkley - MLbase in BDAS(2013-)
 機械学習タスクの実行クエリを抽象的に記述
 アルゴリズムやパラメータを変更して分散実行
[Kraska+, CIDR2013]
データサイエンティストのお助けツール(2/2)
Preferred Infrastructure – maf (2013-)
 アルゴリズムやパラメータを変更して実行
 wafベース、設定から可視化(matplotlib)までを
pythonコードとして簡単に記述できる
解析ソフトウェアの変化がもたらすもの:
データサイエンティストの負担が減る
 今は非力でもソフトウェアの高性能化と抽象化が後押し
 不要になる:面倒なデータ管理や前処理の繰り返し
 自動化される:実験設定を変更しては再実行の試行錯誤
 敷居が下がる:一般ユーザーがExcelのようにこなせる仕事
従来のソフトウェア基盤 新しいソフトウェア基盤
BI
・例:Cognos、BusinessObjects
・DB上でのバッチ処理
・固定のビュー・ドリルダウン
・定型的なレポート中心
・例:QlikView、Tableau
・インメモリで高速処理
・自由に変更可能なビュー
・インタラクティブな分析
機械学習
・例:R、MATLAB
・任意の解析処理が実現可能
・専用スクリプトの記述が必要
・結果の解釈は重視されていない
・例:bigML、Bazil
・解析フローは固定、調整可
・スクリプト無し、設定のみ
・結果の可視化なども統合
 続:データサイエンティストブーム
 なぜ「さらば」なのか?
 具体例
 まとめ
 作者のあとがき
Agenda
データサイエンティスト
うおおおおおお
まとめ
 ビッグデータ分析を効率化するためのソフトウェアが
必ずこれからどんどん市場に出てきます
 この解析ソフトウェアの進化は、データインフラの整
備、統計リテラシーの向上、組織的ビッグデータ戦略の
浸透、データサイエンティストの育成と並行して進みま
す
 重要なスキル、組織のIT戦略、ソフトウェア、ミドル
ウェア、ハードウェア、コンピュータアーキテクチャは
刷新サイクルはがそれぞれ異なります
 それを見極めるのが最先端を逃さないために重要です
 続:データサイエンティストブーム
 なぜ「さらば」なのか?
 具体例
 まとめ
 作者のあとがき
Agenda
データサイエンティスト
うおおおおおお
作者のあとがき
 良くも悪くも全てはポジショントーク!
 データサイエンティストとして自分を高く売りたい人
 育成ビジネスで儲けたい研修サービス会社
 ブームに乗って関連本を売りたい出版社
 最終的にIT投資を増やして欲しいベンダー
 ネットでちょっとウケて目立ちたかった僕
ブームに乗せられるのではなく、乗る
 ビッグデータとかデータサイエンティストとかの言葉は
滅びるかもしれない
 けど以下の事実は不変
 収集できるデータの量、品質、種類が増える
 データ分析を支えるツールの使いやすさと計算能力が上がる
 経営陣、マネジメント層にデータ活用の意識が高まる
 これまでデータ活用で何かを成し遂げようとしたときに
障害となってきたデータ/ソフト/ハード/組織の壁が
どんどん低くなりつつある
 これらのハードルをギリギリで飛び越えて結果を出した
勇者のみがデータサイエンティストを名のれる!!
 まぁ観念論はこの辺にして、Excel作業に戻ろうか…
Have a
happy data scientist life!!
そんじゃーね!

More Related Content

さらば!データサイエンティスト