渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

興味がない時には沢山見かけるがいざ欲しい時に限って見つからない:日本のデータサイエンティスト&機械学習エンジニアブーム

我らが業界の雄*1、てつろーさんが新たなweb連載記事を始められたようです。

このタイトルが、流石は業界経験の長いお方だけあって非常に鋭いところを突いているなと個人的には感じています。で、完全に奇遇ながら実は6月8日に旧知の友人の依頼でプレイベートな講演会に登壇してきたのですが、その時も「あれから日本のデータサイエンティスト(そして機械学習エンジニア)ってどうなったんだっけ」という話題をしてきたということもあり。。。ということで、久しぶりに与太話でもしてみようかと思います。


首都圏のデータサイエンティストと機械学習エンジニアは合わせて大体500人ぐらいいる(私見)


大多数の「自称」データサイエンティストはこの4年間のブームの栄枯盛衰の中で現れては消えるというのを散々繰り返してきたように思いますが(笑)、現実に日々の業務として明確にデータ分析を、しかも統計学や機械学習のスキルを駆使して行っている「本当の」データサイエンティストは、首都圏全体でもおそらく200人ぐらいではないかと個人的には見積もっています。


また、昨今の機械学習(いわゆる「人工知能」)ブームもあってweb / tech業界を中心に機械学習に取り組んでいる現場が増えていますが、それらの現場で働く機械学習エンジニア*2がざっと見積もって首都圏全体で300人ぐらいいるのではないかと個人的には踏んでいます。


ということで、私見ですが首都圏には(本当の)データサイエンティストと機械学習エンジニアが双方合わせて大体500人ぐらいいるだろう、と推定しています。もちろんただの私見なのでこれが正確な数字かどうかは分かりませんが、桁数という意味ではこんなもんだろうという実感はあります。つまり、少なければ100人、多くても1000人ぐらいということで。


ところで、日本の一部上場企業数は2000社弱、都内の上場企業数は1800社ほどと言われています。これらに対して500人ということは、(本当の)データサイエンティストは4社に1人ぐらいしかいないことになります。ちなみに6月8日の講演会で「身近にデータサイエンティストがいる方は挙手してください」と聞いたところ、手を挙げた参加者の方は1割ぐらいしかいませんでした。


一方で、彼らは例えばTokyoRやTokyoWebminingはたまた火曜勉強会*3やKaggleコミュニティを通じて互いにつながっていることが多いので、その500人ぐらいで割と密で狭いコミュニティを形成している印象があります*4。


「囲い込み」


上記のように、私見による概算ですが「首都圏で500人」程度(本当の)データサイエンティスト+機械学習エンジニアが存在するらしい、という話になりました。では、彼らはどこにいるのでしょうか?


具体的な社名や業界の話は一旦置いといて大まかな話をすると、「どこそこの業界ではデータ分析に力を入れているらしい」「どこそこの業界ではデータ分析部門を解体したらしい」みたいな話題が陰に陽に流れるたびに、データサイエンティストの大移動が起きているように僕には見えます。少なくとも僕が知る限りでは、2012年頃と、2014年頃、そして2016年現在とで、彼らが多く集中している企業・業界は大きく異なっています。それぞれの間で大移動が起きているということですね。


それらの大量にデータサイエンティストや機械学習エンジニアを抱える業界・企業は、実際にかなり具体的なデータ分析業務を必要としていることが多いです。例えば、かつてソシャゲ業界では膨大なユーザーデータの統計分析や機械学習によるマーケティングオートメーションが流行していましたし、その後はアドテク業界で広告配信の最適化に機械学習を応用したりプランニングに統計分析を活用するのが流行りました。現在はもっと広汎な業界に統計分析・機械学習が普及するようになり、例えばone-to-oneマーケティングなどの文脈で用いられることが多いようです。


そういった業務に、囲い込まれたデータサイエンティストや機械学習エンジニアたちが投入され成果を挙げるようになると、関連部署の定員が増え、似たようなスキルセットの人材が他所から採用され、ますます人材集中が進むというわけです。


そして、面白いことに一度データサイエンティストたちが特定の企業・業界に集結すると、その後しばらくそこから動かなくなります(まぁ誰しも根無し草になりたいわけではないので当たり前っちゃ当たり前なんですが)。その状態に落ち着いてから数ヶ月経つと、様々なメディアに「データ分析に注力する○○社」「機械学習でビジネスを変えようとしている△△社」というような記事が出るんですよね(笑)。こうして集結したデータサイエンティストたちがそれらのブランド形成に貢献し、さらにそこにデータサイエンティストが引き寄せられていくというプロセスを繰り返しているというのがここ4年ぐらいの状況だと思います。


そしてもう一点。この4年間の栄枯盛衰を見ていると、データサイエンティスト・機械学習エンジニアの獲得に熱心な業界・企業は入れ替わり立ち替わり現れるのですが、一方で一貫して「彼らの獲得に全く興味を示さない」業界・企業というのが根強くあって、しかもその方が圧倒的な多数派なんですね。僕の手元に山ほど*5流れてくる求人・勧誘メールに一度も社名が挙がってこない超有名大企業は沢山あります。


つまり「大多数の企業はデータサイエンティストに興味がないので見向きもせず、ごく一部のデータ分析の重要性を強く認識している企業群だけが年代わりぐらいのタイミングで入れ替わり立ち替わりデータサイエンティストたちを徹底的に囲い込んでしまい、市場に出さないようにしている」のが日本のデータサイエンティスト(&機械学習エンジニア)ブームの現状です。これはこれで需給が一致していて良いように見えますが、一つ問題があると個人的には思っています。


「供給不足」


そう、「前者の企業が事情が変わっていざデータサイエンティストが欲しくなったとしても、人材マーケットにほとんど出回っていないので全く獲得のしようがない」という事態の発生です。


基本的に、データ分析そして統計分析・機械学習はビジネス実務の場で用いる限りは、いわゆる「問題解決」に分類される取り組みです。定量的なエビデンスの構築とその自動化というのは、ビジネスの場ではそれなりに確率的にニーズの発生する取り組みでもあります。どっぷりそれらに浸かっている後者の企業だけでなく、基本的には無縁なつもりだった前者の企業であっても、時としてそのニーズに気付かされることがあるわけです。そしてそのニーズが一定のラインを越えれば「よし、うちでもデータサイエンティスト(機械学習エンジニア)を育成しよう!外から採用しよう!」という話になるはずです。


ところが。(本当の)データサイエンティスト・機械学習エンジニアコミュニティの中でもよく言われる話ですが、新たにデータサイエンティストを育成するというのは物凄く大変なことです。何も前提知識がないところから統計学や機械学習の知識、そしてコーディングを含めたIT基盤技術のスキルを身につけるのは至難の技です。既に後者のスキルを持ち合わせているエンジニアをトレーニングするならまだしも、どのスキルもないビジネス側の人材をトレーニングするのはまさにlong way to goです。正直言って、正真正銘のゼロから初心者をきちんと育成してデータサイエンティストを増やしている企業はごくごく僅かなのではないでしょうか。


ゆえに、上記の「首都圏で500人」からは供給数はなかなか増えないまま。しかも上述のように彼らの大半はどこかしら既存のデータ分析に注力する業界・企業によって囲い込まれていて、なかなか人材マーケットには出てきません。おまけに、特にIT業界の中ではここ数年のバズワード化・ブームの過熱そして「幻滅期」への突入を経て、それらの業界・企業が限られるということが知れ渡っており、新たにデータサイエンティストになろうと志す人はなかなか増えない状況です。


必然的に、上述のような「ようやく統計分析・機械学習のニーズが高まってきた」企業にとっては、データサイエンティスト・機械学習エンジニアは「欲しい時には見つからない」供給不足の人材ということになるわけです。そこかしこのメディアで「活躍するデータサイエンティスト」像を多く見かけるにもかかわらず、です。


しかもこの歪んだ状況にとって拍車をかけているのが、冒頭に述べたような「データサイエンティスト・機械学習エンジニアの定期的な業界・企業間大移動」という現象です。理由は色々あって、例えば当該業界の景気が悪くなってきたことでデータ分析部門のようなコストセンターに金をかけられなくなったのを嫌気してデータサイエンティストが流出するとか、最終的に業界内でデータ分析の必要性の認識が広まり切らなかったことでデータサイエンティストが邪魔者扱いされるようになって逃げ出す人が続出するとか、単に新しく勃興してきた業界でデータ分析業務のニーズが高まっていてしかも待遇が良さそうだからみんな移るとか、実に様々です。


この大移動の波に乗れた業界・企業が、データサイエンティスト・機械学習エンジニアを文字通りwinner-take-allつまり「勝者総取り」に成功する。。。そんな光景を既に何度か目撃しています。今後も同じ光景は繰り返されると思いますし、それがますます人材需給の歪みを助長することになるのでしょう。


ちなみに、供給サイドという意味で言えば昨今のブームによってデータサイエンティストを志す学生も増えており、毎年一定数の新卒データサイエンティストが誕生しているのは事実です。特に情報系の学生は、既にデータサイエンティストに必要なスキルが備わっているケースが多く、過去には有望な就活生の争奪戦が企業間で繰り広げられた年もあります。

f:id:TJO:20160705224754j:plain

けれども、新卒でそれだけの立場の仕事を任される・それなりのポジションに就かせてもらえる人材というのは本当に稀です*6。それこそ後者の企業の新卒から毎年1〜2人現れるかどうか、といったところでしょう。


一方で、後者の企業でデータサイエンティストとして仕事している人であっても管理職への昇進や異動はたまた異業種への転職など様々な理由で、データ分析業務から離れていく人がやはり毎年一定数出ます。結果的にデータサイエンティストの総数は「首都圏で500人」から変わらないまま、というのが個人的な観測です。


以上の話は日本での事情について述べたものです。他方、例えばUSなどでは未だに次々とData Scientistを必要とする企業・組織が現れ、ついにはホワイトハウスにChief Data Scientist職が創設されるというところにまで至っています。未だに"Data Scientist"のGoogleトレンドが右肩上がりの成長を続けているのも当然かと。しかも、このGoogleトレンドの結果にも見えていますがインドやシンガポールといった国々が新たにData Scientistの活躍の場になったり、それらの国々の人々の注目を集めている*7のも大きいのでしょう。


歪んだ需給構造ゆえ、おそらくこのまま低空飛行が続く


これまで挙げてきた論点を総合すると、

  1. 日本でもデータサイエンティストや機械学習エンジニアのニーズはあり続ける
  2. だがその需給関係は歪んだ構造になっており、従ってその総数も当面は「相応に少ない」ままになると考えられる

というのが僕の結論です。上述のように、データサイエンティストや機械学習エンジニアの需給関係はかなり歪んでおり、「データサイエンティストは好待遇」という巷のメディアの評判も正直言ってその獲得コストの高さに由来しているに過ぎないのでは*8、と個人的には睨んでいます。今後しばらくは「首都圏で500人」の規模を良くも悪くも維持し続けるのでしょう。


ところで、冒頭に掲げた我らがてつろーさんの記事にもこんなことが書いてあります。

筆者の実感としても、多くの企業においてデータサイエンティストと呼ばれる職種の人材がいたり、求人においてもデータサイエンティスト職での募集も見かけるため、市民権を得たのではないかという感覚がありますので、この仮説もあながち間違っていないのではないかと思われます。


一方で、先進的にデータ分析に取り組もうと着手したものの、折り合いがつかず失敗してしまった企業も多いのではないでしょうか。データをうまく扱える人材がいなかったり、外部のベンダーに依頼したものの自社のビジネスドメイン課題などをうまく伝えられず、出てきたアウトプットが期待値を超えなかったり、そもそものデータの整備もままならない場合など、さまざまな要因が想像できます。


先ほど各ワードのGoogleでの検索トレンドを紹介しました。分析担当者同士の情報交換や、過去の経験から、データサイエンティストの盛り上がり後の幻滅期は、世間のブームに乗り遅れまいと企業がこぞってデータ分析を開始しようと外部のベンダーなどに依頼したものの、需要過多となり供給が追いついていない落ち込みのようにも感じています。


また、その後の人工知能やAIブームに見られる分析者依存ではなく、自動解析を求めるような風潮が流行していることもその証左ではないでしょうか。

僕もこれらの指摘に完全に同意です。実際問題、供給が間に合わないことで結果的にデータサイエンティスト・機械学習エンジニアの採用を諦めるところも出てきている可能性は否定できないと思います。こういう状況もまた、データサイエンティストの需給関係をさらに歪ませる要因になっているのではないかと。


そう言えば、最近こんなニュースが流れていました。

3年前に「データサイエンティストが25万人不足する」とか言っていたのを考えれば、「毎年500人必要」までトーンダウンしたのでちょっとだけ実態に即した話になってきた感じがごく僅かながらするのかな?という気もします。そして3年経ったら500分の1になったところを見るに、また3年後になったらいよいよ「毎年1人必要」にまで減るんでしょうか(笑)。。。お粗末様でした。

*1:ご本人は「もうそっちの業界の人間じゃない」と仰せですが

*2:主に機械学習のシステム実装がメインで統計分析のようなアドホック分析は殆どやらない人たち

*3:毎回題材にしている専門書のタイトルに従って名前が変わるので便宜的にこう呼んでいます

*4:というか僕もその中におそらく含まれているのでしょうが笑

*5:文字通り掃いて捨てるほど

*6:現実には新卒研修を経てデータ分析とは無縁なエンジニアになったり、そもそもエンジニアではないポジションに回ったりすることが多い

*7:国外もしくはグローバル市場で良い職にありつくためのキャリアとして認識されているという部分もある

*8:それまでデータサイエンティストに全く縁のなかった企業が、突然とんでもない好待遇を提示して首狩り賊に依頼しまくるというのはLinkedInなどでは極めて頻繁に見かける光景です