SlideShare a Scribd company logo
最新業界事情から見る
データサイエンティストの
「実像」
株式会社リクルートコミュニケーションズ データサイエンティスト
尾崎 隆 (Takashi J. OZAKI, Ph. D.)
2013/8/31 1
一応、自己紹介を…
尾崎 隆 (Takashi J. OZAKI, Ph.D.)
 “J”に深い意味はありません
 学者だった頃に同業界にT. Ozakiさんがいたので
 と思ってJをつけたら、別業界にT. J. Ozakiさんが…
2013/8/31 2
一応、自己紹介を…
 前職は「脳科学者」(認知神経科学者)でした
2013/8/31 3
(Ozaki, PLoS One, 2011)
一応、自己紹介を…
こういうキャリアをたどっております
 1997~2001年 東京大学工学部計数工学科
(※情報工学系)
 2001~2006年 東京大学大学院新領域創成科学研究科
修士&博士課程(脳科学)
 2006~2011年 理化学研究所脳科学総合研究センター
研究員(脳科学)
 2011~2012年 東京大学教養学部 特任研究員(心理学)
 2012年4月 慶應義塾大学医学部 特任助教(産学連携)
※30代のうちにポスドク問題を乗り切ることは
事実上不可能と判断して、キャリアチェンジに
打って出ることを決心
 2012年6月 サイバーエージェント入社
 2013年7月 リクルートコミュニケーションズ入社
2013/8/31 4
一応、自己紹介を…
こういうことをしていました
 2003~2006年 機能的MRIを用いたヒト脳研究
(有力なノーベル賞候補として知られ、
機能的MRIを発明した小川誠二先生
の研究所にて研修生として共同研究を
していました)
 2006~2011年 脳信号に対する計量時系列分析を用いた
ネットワーク解析
 2011~2012年 脳信号に対する上記ネットワーク解析+
SVMを用いた脳活動分類
2013/8/31 5
一応、自己紹介を…
現在は…
2013/8/31 6
ブログ&Twitterやってます
一応、自己紹介を…
現在は…
2013/8/31 7
リクルートグループ全体のマーケティングにおける
データ分析を担当するデータサイエンティスト
ところで、
2013/8/31 8
「データサイエンティスト」についての記事、
もうだいぶ前から世間では溢れ返ってますよね。
例えば
 データサイエンティストとは何か
 データサイエンティストのつくり方
 データサイエンティストのつかい方
 データサイエンティストと「分析力」
 データサイエンティストの育成について
 データサイエンティストのスキルセット
 データサイエンティストとビッグデータ
 データサイエンティストの要件とは
 データサイエンティストはどんな企業にいるのか
…などなど挙げればキリがないですね
2013/8/31 9
ということで、
2013/8/31 10
今日は「実際のデータ分析の現場から見た」
データサイエンティストの実像についてお話します。
本日のお品書き
 データサイエンティストの新・3要素
 データサイエンティストは2系統に分かれる
 どこにデータサイエンティストはいるのか
 実際にデータサイエンティストはどのような仕事をしているのか
2013/8/31 11
本日のお品書き
3要素!
うおおおおおお?
※PFI比戸様より承諾を頂いております
2013/8/31 12
データサイエンティスト
データサイエンティスト
)),(1(
1


n
k
kikki Kyy xx
データサイエンティスト マネージャー
うおおおおおお たのんだよー
ふたりはデータサイエンティスト
)),(1(
1


n
k
kikki Kyy xx
本日のお品書き
 データサイエンティストの新・3要素
 データサイエンティストは2系統に分かれる
 どこにデータサイエンティストはいるのか
 実際にデータサイエンティストはどのような仕事をしているのか
2013/8/31 13
本日のお品書き
3要素!
うおおおおおお?
※PFI比戸様より承諾を頂いております
2013/8/31 14
データサイエンティスト
データサイエンティスト
)),(1(
1


n
k
kikki Kyy xx
データサイエンティスト マネージャー
うおおおおおお たのんだよー
ふたりはデータサイエンティスト
)),(1(
1


n
k
kikki Kyy xx
データサイエンティストの新・3要素
データサイエンティスト
“Data Scientist: The Sexiest Job of the 21st Century”
- Thomas H. Davenport and D.J. Patil, HBR Oct, 2012
「データサイエンティストは21世紀で最もセクシーな職業」
大変有名な売り文句
2013/8/31 15
データサイエンティストの新・3要素
データサイエンティスト
データマイニング
アナリティクス・レポーティング
コンサルティング・マーケティング
中でも重要な3つの要件と言われていたのが…
2013/8/31 16
データサイエンティストの新・3要素
 「スーパーマン」説(HBRなど)
 コンサルタントorマーケッター
 アナリストorレポーティング
スペシャリスト
 データマイニングスペシャリスト
…を、「同時に兼ねる」
 そんなスーパーマンどこにいるの?
…いたら誰も苦労しない
データサイエンティスト
へ?スーパーマン?
2013/8/31 17
データサイエンティストの新・3要素
優秀なデータ・サイエンティストは稀少なので、獲得競争
が熾烈で、離職を食い止めるのも難しい。金銭面の報酬だ
けでなく、自由度のある職務環境を用意し、意思決定者と
データをつなぐ「かけ橋」となって価値あるものをつくり
上げたいというニーズに応え、やりがいのある課題を与え
ることが重要である
データサイエンティスト
ニヤリ
2013/8/31 18
データサイエンティストの新・3要素
 「三位一体」説
(ブレインパッド社草野社長、佐藤氏)
 スーパーマンなんて無理
 3つの役割を例えば3人で分担
 チームで揃えば「1つの完成したデータ
サイエンティスト像になる」
データサイエンティスト
・・・三位一体!
2013/8/31 19
データサイエンティストの新・3要素
データマイニング
スペシャリスト
分析ィィィィィ
アナリストor
レポーティングスペシャリスト
レポートォォォォォ
コンサルタントor
マーケッター
コンサルゥゥゥゥゥ
データサイエンティスト像
2013/8/31 20
データサイエンティストの新・3要素
2013/8/31 21
ここまでが、今年の上半期までに言われてきた
「データサイエンティスト像」でした。
ならば、今の「データサイエンティスト像」とは?
データサイエンティストの新・3要素
データマイニング
スペシャリスト
分析ィィィィィ
アナリストor
レポーティングスペシャリスト
レポートォォォォォ
コンサルタントor
マーケッター
コンサルゥゥゥゥゥ
2013/8/31 22
データサイエンティスト像
データサイエンティストの新・3要素
データマイニング
スペシャリスト
分析ィィィィィ
アナリストor
レポーティングスペシャリスト
へ?
コンサルタントor
マーケッター
へ?
2013/8/31 23
データサイエンティスト像
データサイエンティストの新・3要素
データマイニング
スペシャリスト
・・・あれれ?
コンサルタントorマーケッター
orアナリスト
一人分にまとめられた。。。
2013/8/31 24
データサイエンティスト像
データサイエンティストの新・3要素
データマイニング
スペシャリスト
・・・あれれ?
コンサルタントorマーケッター
orアナリスト
2013/8/31 25
一人分にまとめられた。。。
データサイエンティスト像
データサイエンティストの新・3要素
統計学・機械学習の
スペシャリスト
おお!!!
コンサルタントorマーケッター
orアナリスト
2013/8/31 26
プログラミング・DB・インフラ
等IT基盤技術スペシャリスト
おおお!!! 一人分にまとめられた。。。
データサイエンティスト像
データサイエンティストの新・3要素
 コンサルティング / マーケティング / アナリティクス などの
ビジネススキル
 プログラミング / DB / ITインフラ などのIT基盤技術
 統計学 / 機械学習 などのデータサイエンスの学識
2013/8/31 27
データサイエンティストの新・3要素
統計学・機械学習の
スペシャリスト
コンサルタントorマーケッター
orアナリスト
2013/8/31 28
プログラミング・DB・インフラ
等IT基盤技術スペシャリスト
public static void main(String[] args) KPI#1を上げるためには○○!)),(1(
1


n
k
kikki Kyy xx
データサイエンティスト像
本日のお品書き
 データサイエンティストの新・3要素
 データサイエンティストは2系統に分かれる
 どこにデータサイエンティストはいるのか
 実際にデータサイエンティストはどのような仕事をしているのか
2013/8/31 29
本日のお品書き
3要素!
うおおおおおお?
※PFI比戸様より承諾を頂いております
2013/8/31 30
データサイエンティスト
データサイエンティスト
)),(1(
1


n
k
kikki Kyy xx
データサイエンティスト マネージャー
うおおおおおお たのんだよー
ふたりはデータサイエンティスト
)),(1(
1


n
k
kikki Kyy xx
データサイエンティストは2系統に分かれる
統計学・機械学習の
スペシャリスト
コンサルタントorマーケッター
orアナリスト
2013/8/31 31
プログラミング・DB・インフラ
等IT基盤技術スペシャリスト
public static void main(String[] args) KPI1を上げるためには○○!)),(1(
1


n
k
kikki Kyy xx
データサイエンティスト像
データサイエンティストは2系統に分かれる
統計学・機械学習の
スペシャリスト
コンサルタントorマーケッター
orアナリスト
2013/8/31 32
プログラミング・DB・インフラ
等IT基盤技術スペシャリスト
public static void main(String[] args) KPI1を上げるためには○○!)),(1(
1


n
k
kikki Kyy xx
割と容易
かなり難しい
データサイエンティストは2系統に分かれる
統計学・機械学習の
スペシャリスト
コンサルタントorマーケッター
orアナリスト
2013/8/31 33
プログラミング・DB・インフラ
等IT基盤技術スペシャリスト
public static void main(String[] args) KPI1を上げるためには○○!)),(1(
1


n
k
kikki Kyy xx
データサイエンティストは2系統に分かれる
統計学・機械学習の
スペシャリスト
コンサルタントorマーケッター
orアナリスト
2013/8/31 34
プログラミング・DB・インフラ
等IT基盤技術スペシャリスト
public static void main(String[] args)
あれれ、吸収されていく…
)),(1(
1


n
k
kikki Kyy xx
左側の二者がビジネススキルを
身に付けてしまえば良い
データサイエンティストは2系統に分かれる
2013/8/31 35
3要素!
データサイエンティスト
)),(1(
1


n
k
kikki Kyy xx
データサイエンティストは2系統に分かれる
2013/8/31 36
お、2要素?
ビジネス感覚に優れた
データサイエンティスト
)),(1(
1


n
k
kikki Kyy xx
統計学・機械学習などの学識
プログラミング・DB・インフラ
等のIT基盤技術
データサイエンティストは2系統に分かれる
2013/8/31 37
ところで、データサイエンティストの仕事は、
さらに2通りに分かれることをご存知ですか?
データサイエンティストは2系統に分かれる
• スパムフィルタ・レコメンド
システム・広告最適化配信など
アルゴリズム
実装系
• 事業改善・現況分析レポート・
市場動向予想など
アドホック
分析系
2013/8/31 38
データサイエンティストは2系統に分かれる
2013/8/31 39
尾崎の古巣でもあるアカデミック業界の
イメージで喩えると…
データサイエンティストは2系統に分かれる
• 機械学習・自律制御・言語認識
などのシステム研究開発
• 計算機科学・情報科学・
情報工学など
人工知能系
• 新たな科学的知識の発見
• 生態学・計量経済学・生命科
学・心理学・社会学など
実験科学系
2013/8/31 40
データサイエンティストは2系統に分かれる
2013/8/31 41
これらの2パターンを名付けて…
データサイエンティストは2系統に分かれる
2013/8/31 42
アルゴリズム実装系
データサイエンティスト
)),(1(
1


n
k
kikki Kyy xx
アドホック分析系
データサイエンティスト
本日のお品書き
 データサイエンティストの新・3要素
 データサイエンティストは2系統に分かれる
 どこにデータサイエンティストはいるのか
 実際にデータサイエンティストはどのような仕事をしているのか
2013/8/31 43
本日のお品書き
3要素!
うおおおおおお?
※PFI比戸様より承諾を頂いております
2013/8/31 44
データサイエンティスト
データサイエンティスト
)),(1(
1


n
k
kikki Kyy xx
データサイエンティスト マネージャー
うおおおおおお たのんだよー
ふたりはデータサイエンティスト
)),(1(
1


n
k
kikki Kyy xx
どこにデータサイエンティストはいるのか
今後は、データ・サイエンティストを養成する大学が増え
てくると思われるが、それを待たずに、いまから積極的に
確保していかないと、情報化社会では致命的な遅れにつな
がるおそれがあるデータサイエンティスト
!
2013/8/31 45
どこにデータサイエンティストはいるのか
データサイエンティストを育成する方法論は、
今のところ日本ではどこにもない(企業にも大学にも)
2013/8/31 46
どこにデータサイエンティストはいるのか
崖から親に落とされ、這い登って
強くなる獅子の子の如く…
自らの力で道なき道を切り拓き、
データサイエンティストになる
ことを目指すしかない!
2013/8/31 47
余談
※野生のライオンでもちゃんと
親が助けに下りていくそうです
2013/8/31 48
どこにデータサイエンティストはいるのか?
でも、適性もあるはず。例えば学生ならどこにいる?
2013/8/31 49
どこにデータサイエンティストはいるのか?
計算機科学系
情報工学系
「定量科学」系
• 生態学、疫学、計量経済学、生命情報
学、実験心理学、社会学etc.
2013/8/31 50
どこにデータサイエンティストはいるのか?
もう面倒だからどっかから引き抜きたい。
即戦力のデータサイエンティストはどこにいる?
2013/8/31 51
どこにデータサイエンティストはいるのか?
インターネット産業
•SNS、メッセージング、ソシャゲ、eコマース、キュレーショ
ンサービスetc.
広告代理店
•特にオンライン広告系、アドテクノロジー系
金融業
•いわゆる「クオンツ」系
一部メーカー
•大手Sier、製造業の品質管理系など
2013/8/31 52
どこにデータサイエンティストはいるのか?
データサイエンティスト候補を見つけた。
でも、どの辺を最低限の条件として見るべき?
2013/8/31 53
どこにデータサイエンティストはいるのか?
データサイエンティスト
1. データサイエンティストは「科学者」、
よって「科学者になれる人」が大前提
- そもそも”scientist”という語が付いている
- 名前の通り、科学的方法に従ってデータを扱い、
ビジネスに貢献できる人材であることが期待され
ている
- 「科学者」でなければ、おそらくありふれた普通
のコンサルタント・マーケッター・アナリストと
同じになってしまう
2013/8/31 54
どこにデータサイエンティストはいるのか?
データサイエンティスト
2. 文系理系は関係ない
- 要は科学的方法に従ってデータを扱い、ビジネスに
貢献できる人材であることが重要であり、文系理系
どちらの出身でも問題ない
- ただし、文系分野なら計量経済学や計量社会学・実
験心理学などの統計学の素養のある人の方がおそら
く無難かもしれない
2013/8/31 55
どこにデータサイエンティストはいるのか?
データサイエンティスト
3. 自分の「主観」よりも、データの「客観」を優先でき
る人であること
- そもそも科学的方法に従ってデータを扱い、
ビジネスに貢献することが求められている
- もし、自分の主観に合わないデータだと思って、
勝手に改竄・捏造したら…?
- 万一それが経営に直結するような大事な施策を決
めるような代物だったら、会社が傾いて沢山の同
僚を路頭に迷わせかねない!
- データサイエンティストの仕事はデータの「客
観」を扱うことであり、自分の「主観」を持ち込
むことではない
2013/8/31 56
本日のお品書き
 データサイエンティストの新・3要素
 データサイエンティストは2系統に分かれる
 どこにデータサイエンティストはいるのか
 実際にデータサイエンティストはどのような仕事をしているのか
2013/8/31 57
本日のお品書き
3要素!
うおおおおおお?
※PFI比戸様より承諾を頂いております
2013/8/31 58
データサイエンティスト
データサイエンティスト
)),(1(
1


n
k
kikki Kyy xx
データサイエンティスト マネージャー
うおおおおおお たのんだよー
ふたりはデータサイエンティスト
)),(1(
1


n
k
kikki Kyy xx
実際にデータサイエンティストはどのような仕事をしているのか
データサイエンティスト マネージャー
ランダムフォレストetc.の結果から言うとAですね
棒グラフにして時期別にしてみました
分かりました、資料を用意していきますね!
どれくらい違うか分かりやすい図にできます?
アプリA, B, C, どれが一番新規UUにウケてます?
他にも色々言えることありそうですね、
戦略マーケMTGで話してくれます?
※尾崎のCA時代の日常風景をだいたい反映しています
2013/8/31 59
実際にデータサイエンティストはどのような仕事をしているのか
尾崎の前職であるCA時代の事例をご紹介いたします
(※現職の事例については上からの許可がまだ出ておりませんので…)
(※※5月の講演会で既に公開済みの内容からそのまま抜粋しております)
2013/8/31 60
実際にデータサイエンティストはどのような仕事をしているのか
データサイエンティスト
(尾崎) 戦略マーケ会議
データサイエンティスト
(尾崎)
うおおおおおお
数値の共有
検証すべき仮説の設定
分析ゴールの決定
最適な分析手法の選定
仮説を検証した結果の可視化
レポート作成&口頭で報告
このKPIの
貢献度は…
今月の数字
なんだけど…
2013/8/31 61
実際にデータサイエンティストはどのような仕事をしているのか
データサイエンティスト
(尾崎)
データ分析環境
- データマイニング
- R, Python, Matlab
- DB基盤
- Hadoop + Hive
データサイエンス手法
- 機械学習
- 決定木、ロジスティック回帰、SVM、
ランダムフォレスト、アソシエーション分析、
グラフィカルモデルetc.
- 計量時系列分析
- ARIMA、VAR、VECM、SETAR、
マルコフ転換モデルetc.
2013/8/31 62
実際にデータサイエンティストはどのような仕事をしているのか
ちなみに、どんなデータ分析をやっていたのか?
2013/8/31 63
実際にデータサイエンティストはどのような仕事をしているのか
ユーザーID ゲーム1 ゲーム2 ゲーム3 SNS 1 SNS 2 PF 1 PF 2 定着or離脱
1001 1 0 1 1 1 1 1 定着
1002 1 0 0 0 0 0 1 離脱
1003 1 0 1 1 0 0 0 離脱
1004 1 1 0 1 1 1 0 定着
... ... ... ... ... ... ... ... ...
ユーザーID+素性(そせい)ベクトル+分類ラベル
ユーザー行動ログをHiveで取ってきて、
前処理をかけて以下のように直す。
2013/8/31 64
実際にデータサイエンティストはどのような仕事をしているのか
ユーザーID ゲーム1 ゲーム2 ゲーム3 SNS 1 SNS 2 PF 1 PF 2 定着or離脱
1001 1 0 1 1 1 1 1 定着
素性=学習データ 正解
ラベル
教師あり機械学習で
1) 分類&貢献度の高い指標の特定
2) 未来データの予測
などの高度な分析が可能!
(※ロジスティック回帰、ランダムフォレスト等)
2013/8/31 65
実際にデータサイエンティストはどのような仕事をしているのか
2013/8/31 66
実際にデータサイエンティストはどのような仕事をしているのか
ヘビー定着
ライト定着
即離脱
アソシエーション分析
+
グラフィカルモデルで可視化
プラットフォーム上での
行動パターン
2013/8/31 67
実際にデータサイエンティストはどのような仕事をしているのか
 詳しい事例についてはこちらの書籍をご参照ください!
2013/8/31 68
以上、データサイエンティストの「実像」を見てきました
3要素!
うおおおおおお?
※PFI比戸様より承諾を頂いております
2013/8/31 69
データサイエンティスト
データサイエンティスト
)),(1(
1


n
k
kikki Kyy xx
データサイエンティスト マネージャー
うおおおおおお たのんだよー
ふたりはデータサイエンティスト
)),(1(
1


n
k
kikki Kyy xx
最後に
データサイエンティスト
データサイエンティストの皆さん、
ともに頑張りましょう!
そしてまだデータサイエンティストでは
ないと(ご自分では)考えておられる皆
さん、今からデータサイエンティストに
なっちゃいましょう!
2013/8/31 70

More Related Content

最新業界事情から見るデータサイエンティストの「実像」