SlideShare a Scribd company logo
データサイエンティストの
つくり⽅方
PFIセミナー 2012/09/13
株式会社Preferred Infrastructure
リサーチャー&Jubatusチームリーダー
⽐比⼾戸  将平
⾃自⼰己紹介
l  ⽐比⼾戸将平(HIDO Shohei)
l  TwitterID: @sla
l  専⾨門:データマイニング、機械学習
l  経歴:
l  2006: 京都⼤大学⼤大学院情報学研究科修⼠士卒
l  ⽊木構造データマイニング
l  2006-2012: IBM東京基礎研究所データ解析グループ
l  機械学習(特に異異常検知)のアルゴリズム研究開発
l  お客様案件でデータ解析プロジェクトに従事
l  2012-: 株式会社プリファードインフラストラクチャー
l  ⼤大規模オンライン分散機械学習基盤Jubatusチームリーダー
2
「データサイエンティスト」って、なに?
l  2010年年まではほとんど⽬目にしなかった単語
l  2011年年から急激に増加
l  さらに2012年年は現時点で去年年の倍のヒット数
3
0
500
1000
1500
2000
2500
3000
3500
データサイエンティストの検索索ヒット数(Google)
最近増えているデータサイエンティスト情報
(特に海外から)
4
http://www.computerworld.jp/topics/1468/204704/
http://www.computerworld.jp/topics/1468/204705/
http://www.computerworld.jp/contents/204769
⼀一⽅方、データサイエンティストに対する懐疑的な声
5
データサイエンティストのイメージ
6
デ
ー
タ
サ
イ
エ
ン
テ
ィ
ス
ト
的
に
この発表の⽬目的
l  データサイエンティストの真実
l  この単語にまつわる誤解や過度度の期待を解く
l  データサイエンティストの仕事
l  そういう役割の⼈人が今後増えるという⾒見見通しを明らかにする
l  データサイエンティストのつくり⽅方
l  どうやったらいいデータサイエンティストになれるのか
7
データサイエンティストの真実
9
Data science ≒ Applied statistics
Data scientist ≒ Applied statistician
海外での定義
応⽤用 統計
応⽤用 統計家
Data science: 英語Wikipediaにおける定義
l  Data science: 複合領領域
l  データ⼯工学、科学的思考、数学、
統計学、先端コンピューティング、
可視化技術、ハッカー精神、
特定ドメインでの経験
l  Data scientist: practitioner
l  Data scienceの実務家
l  複雑なデータの問題を解決する⼈人
l  通常は上記のうち2-3の専⾨門家
l  残りのうち2-3に熟練している
l  ⼀一⼈人では全領領域でエキスパートにはなれない
l  Data scienceはチームで補い合って実践すべき
10
http://en.wikibooks.org/wiki/Data_Science:_An_Introduction/
,"
20%
,"
20%
,"15%
,"5%
,"
25%
,"15%
Data scienceの起源:
統計学の範囲を広げるための新カリキュラムとして
l  William S. Cleveland, “Data Science: An Action Plan for Expanding
the Technical Areas of the Field of Statistics”, 2001.
l  重視すべきこと
l  (統計の)アルゴリズム研究だけに没頭しない
l  実問題に当たって実データに触れる
l  発達した計算機のデータ処理理能⼒力力をフル活⽤用する
11
http://cm.bell-labs.com/cm/ms/departments/sia/doc/datascience.pdf
Data scientist: math and statistics
l  “For Today’s Graduate, Just One Word: Statistics”, NYT, 2009
l  GoogleのHal Varian「次の10年年で最もセクシーな職業は統計」
l  データ活⽤用「能⼒力力」がいろんなビジネスでボトルネックに
l  新世代の統計家が豊富なコンピュータ処理理能⼒力力と⾼高度度なモデリング
⼿手法を使ってそれらを解決しようとしている
l  例例:Web, Netfilx Challenge, IBMのBAOサービス
l  “What is data science?”, O’Reilly, 2010
l  Data products and Data-driven apps
l  CDDBが最も初期のData product
l  その後はGoogle周辺を中⼼心に爆発的に増加
l  「データサイエンティストに向いてるのは
コンピュータサイエンスでなく物理理の⼈人」
12http://radar.oreilly.com/2010/06/what-is-data-science.html
http://www.nytimes.com/2009/08/06/technology/06stats.html
“The ability to take data — to be able to understand it,
to process it, to extract value from it, to visualize it, to
communicate it — that’s going to be a hugely
important skill in the next decades.”
— Hal Varian, Google
13
Data scientist: for “data jiujitsu”
データサイエンス ≒ Data science
国内での定義
データサイエンティスト ≒ Data scientist
or Rによるデータ分析
or ビッグデータ分析者
データサイエンス: ⽇日本語Wikipediaに項⽬目なし
l  柴⽥田⾥里里程教授(慶応⼤大学数理理科学科)
l  データサイエンス=統計+データベース+データマイニング
l  「本来データの科学であった統計学も確率率率論論を基礎とする近代統計
学に⾐衣替えするにつれ、形式的な論論理理を展開するための道具となっ
てしまった」
l  「いま再び、データサイエンスの枠組みでその輝きを取り戻しつつ
あります。」
l  「いまではデータの構造や作⽤用、その成分や性質を研究する「デー
タサイエンス」も⽴立立派な科学の⼀一分野です。」
l  関連書籍:共⽴立立出版「データサイエンス」シリーズ
15
http://www.st.keio.ac.jp/learning/0611.html
データサイエンスがRと結びつきやすい理理由
l  ⾦金金明哲教授(同志社⼤大学⽂文化情報学部)
l    財団法⼈人統計情報研究開発センター  ⽉月刊専⾨門誌  ESTRELA連載
「フリーソフトによるデータ解析・マイニング」
2003年年8⽉月号から2009年年7⽉月号まで系72回
l  関連書籍:共⽴立立出版「Rによるデータサイエンス」
l  関連書籍:森北北出版「Rで学ぶデータサイエンス  データ解析の基礎
から最新⼿手法まで」全20巻中13巻刊⾏行行
16
データサイエンティスト=ビッグデータ分析者?
l  海外:本来Data scientistとBig dataは別系統から⽣生まれた概念念
l  Big data→データが⼤大量量かつ⾼高速に⽣生まれる現場から
l  Wikipediaには”Data science”に関する記述は無い
l  Data scientist→センサと計算機の発展がキー、サイズは副次的
l  ここ数年年でBig dataと結び付けられたとある
l  Data scienceの困難さが際⽴立立つのがBig data環境だからだろう
l  国内:ビッグデータ流流⾏行行直後にデータサイエンティストの輸⼊入
l  最初からデータサイエンティストはビッグデータと不不可分
l  バズワード化したビッグデータに対する違和感や批判の眼差しが
データサイエンティストにもそのまま注がれている
17
http://www.computerworld.jp/topics/617/201766/
(理理想的な)データサイエンティストの真の姿
データサイエンティストの仕事
データサイエンティストのお仕事
1.  業務でデータを使って改善できそうなところを探す
2.  改善のための仮説を⽴立立てて提案を作る
3.  社内で調整してプロジェクト化する
4.  データを収集する・データを受け取る
5.  データをクリーニングする
6.  データを可視化する
7.  データを集計する
8.  データマイニングや機械学習を⽤用いる
9.  結果を元に再調整や再実験を繰り返す
10.  結果を可視化してレポートにまとめる
11.  レポートを関係者と共有する
12.  結果を元に有効と思われるビジネスアクションを取る
13.  ビジネアクションの効果を測定して検証する
14.  (可能であればこれらをPDCAサイクルのように回す)
データサイエンティスト
うおおおおおお
ここがツライよデータサイエンティスト(1)
プロジェクトが開始できない
いくら儲かるかわからないと
投資もデータも出せないよ。
で、データ分析すると
どれくらい売上アップするの?
データサイエンティスト マネージャー
それは実データで
やってみないと…
ここがツライよデータサイエンティスト(2)
データ⼊入⼿手の壁が超えられない
…そこをなんとか…
機密情報だからなー
個⼈人情報保護もあるし。
そんなデータないよ。
え?新しく取れ?
(⾯面倒だな…)
データサイエンティスト
マネージャー
現場社員
ここがツライよデータサイエンティスト(3)
データが汚い
すいませんデータが変です
分析できたろ?
そんなはずないけどな
…あーなるほど…
まぁなんとかしてよ
データサイエンティスト
マネージャー
現場社員
いえ、あの、まだです
ここがツライよデータサイエンティスト(4)
データ分析の利利害調整ができてない
お⼿手数おかけしますが
データ準備お願いします
早くやれって!
(査定UP〜~♪)
え、忙しいし無理理だよ
(俺にメリット無いし)
データサイエンティスト
マネージャー
現場社員
なんか難しいみたいですが…
ここがツライよデータサイエンティスト(5)
必殺技が効かない
いろいろ調整しましたが
どうやらそのようで…
何これ?フリーのツールで
やったときより悪いじゃん!?
データサイエンティスト
マネージャー
つまり無駄ってこと?
ここがツライよデータサイエンティスト(6)
必殺技が使えない
いや、たぶんLIBSVM
使ったほうが精度度が…
じゃあWekaの決定⽊木で
いろいろ試してやってみてよ
データサイエンティスト
マネージャー
SVMは何で良良くなったか
わからないじゃん!
働くデータサイエンティスト:
Twitterプロフィールから
l  海外
l  Data Scientist @ Twitter x 3
l  Principal Data Scientist @LinkedIn
l  Data Scientist @Cloudera, creator of Crunch
l  Data scientist, blogger, and R evangelist at Revolution Analytics
l  国内
l  DeNA
l  J!NS
l  Albert
l  ( チーフデータマエショリスト @ Treasure Data )
⽇日本で最もデータサイエンティストが
活躍している企業はソーシャルゲーム企業(1)
l  “2100万⼈人会員「モバゲー」はデータマイニングの宝の⼭山”
l  Hadoop、Mahout、R⾔言語などを駆使してユーザー分析
l  データサイエンティストとして外部で活躍する社員
http://rikunabi-next.yahoo.co.jp/tech/docs/ct_s03600.jsp?p=001829
⽇日本で最もデータサイエンティストが
活躍している企業はソーシャルゲーム企業(2)
l  “「個⼈人のセンスよりも数千万⼈人のデータの⽅方を信じる」、
これがGREEの作り⽅方” (CEDEC 2011)
l  少⼈人数チームでPDCAを徹底的に回すデータ駆動ゲーム開発
l  GREE Analyticsというデータマイニングツール
http://gigazine.net/news/20110914_gree_howto_cedec2011/
将来的に:Chief Analytics Officerと
アナリティクス部⾨門の出現
設計
営業
品質管理理
保守作業
業務改⾰革
経営
研究開発
財務
製造
IT
CAO
アナリティクス部⾨門
l  全社横断的なデータ活⽤用に権限と責任を持つCAO
l  その実⾏行行部隊としてのアナリティクス部⾨門(IT部⾨門とは別)
理理想的なデータサイエンティスト集団:
⼤大阪ガス(株)情報通信部情報ソリューションチーム
l  ミッション
l  関連会社含む全組織・全業務・全サービスにおいてデータ分析の
活⽤用機会を探って価値ある分析結果を提供する
l  独⽴立立採算制、構成員10名
http://ci.nii.ac.jp/naid/110008722771
データサイエンティストのつくり⽅方
(理理想的な)データサイエンティストの真の姿
無理理!
データサイエンティスト
データサイエンティストのつくり⽅方(1):
タイプ別に弱点を補う
数学,
20%
統計,
20%
機械学
習やマ
イニン
グ, 15%
Rなどツー
ル, 5%
実データ
処理理,
25%
ビジネス
連携,
15%
理理論論
20%
モデリン
グ⼿手法
20%
計算⼿手法
15%ツール評
価
5%
実データ
処理理
25%
教育⽅方法
15%
タイプ別
l  コンサル型
l  ビジネスコンサルタント
l  BI型
l  KPI設計やダッシュボード
l  研究者型
l  機械学習やマイニングの
修⼠士号や博⼠士号
l  新世代型
l  RやHadoopなどOSSに精通
l  ドメイン型
l  ⾃自企業のデータ分析など
l  必要に応じて万遍ないスキル
0
1
2
3
4
5
統計・機械学
習・マイニング
R/Matlab/
Weka
Hadoop/
NoSQL
DWH/BI/可視
化
コンサル
ドメイン知識識
コンサル型
BI型
研究者型
新世代型
ドメイン型
データサイエンティストのつくり⽅方(2):多様な
スキルを持つデータサイエンティスト集団を作る
0
1
2
3
4
5
統計・機械学
習・マイニング
R/Matlab/
Weka
Hadoop/
NoSQL
DWH/BI/可視
化
コンサル
ドメイン知識識 コンサル型
BI型
研究者型
新世代型
ドメイン型
l  そもそも全部を満たす個⼈人を作ることは不不可能
l  グループとして全部のスキルが揃うように⼈人を集めてくる
まとめ
l  データサイエンティストの真実
l  統計ベースのデータ分析者として正しい⼈人たち
l  データサイエンティストの仕事
l  データが競争優位性の源泉になるという流流れは変わらない
l  データサイエンティストのつくり⽅方
l  タイプに応じて弱点を補う、あるいはグループで補完する
明⽇日から君も
データサイエンティストだ!!
データサイエンティスト

More Related Content

データサイエンティストのつくり方