データサイエンティストのひよこ

分析に関する日々の相談事項

データサイエンティストのモノ作り

半年ぶりくらいにデータサイエンティストの仕事について書きたいと思う。大学で数年データサイエンスに関わってきて、ここ1年ほど、企業に籍を移した。私がtwitterで日々つぶやいていることをまとめたようなものだから、あまり新しさは感じられないかもしれない。

まず、少し前にデータサイエンティストは数理専門職なのではないかと書いたら、同意してくれる人が多かったようだ。

 データサイエンティストは、確率・統計、機械学習やら科学技術を振り回す専門職だと私は思う。証券・銀行にクオンツ、保険にアクチュアリーがいるが、彼らも確率・統計を学び、商品の設計、管理、顧客の動向予測などを行っている。彼らも今までは試験科目や理論の知識に傾倒していたが、昨今ではデータを使いモデリングする事が重要だと認識している。一方、我々DSは流通・マーケティングで活躍する数理専門職と言えるだろうか*1。データサイエンティストが、プログラムが書ける業務コンサルタントと区別されるのは、データ分析のできる数理専門職として活動し、科学技術を使い、モノ作りができるからだと思う。しかし、確率・統計、機械学習を利用する分析と呼ばれる行為には、目的を異にする2つの分析がある。
その2つが、

  • ルールづくり:インサイトを得る分析
    • 私が、以前書いた記事でいうと、業務評価や業務改善のフェーズに当たる。インサイトとは、データから「分析」を通じて、発見をすることだ。発見を通じて、こうしたらいいですね、ああしたらいいですねとルールの検証とルールづくりにつなげていく。このように、業務仮説と異なる別の適切な状態を見つけること、つまり現状の業務の不備を見つけて、業務により良い別の状態の可能性があることを見つけることだ。現場を管理する部署のお客さんに非常に喜ばれて、現場の部署のお客さんには敵対されやすい。
  • モノづくり:モデルを作る分析
    • 業務最適化と業務自動化のフェーズに当たる。モデルを作る分析とは、ある業務プロセスを前提にして、人間と同じ結論を生む統計・機械学習手法を作ることだ。人間と同じ動きをするロボットを作ることとほぼ同義だ。「分析」しているが、新しい発見を生み出すものではないので、お客さんが上記の「分析」と勘違いしている場合、理解されない。

である。
 この2つの方法は、分析手法が異なるわけでもなくて、プロジェクトの進め方(フェーズ)が異なる。多くの場合、前処理、インサイト発見、検証、モデル化、導入という流れが望ましい。インサイト発見のフェーズが終わるまでは、何が良いかを決める指標がないことから、最適化するための指標が存在しないのである。つまり、データからインサイト発見しようとしている間は、再現する人間の動きが定まらないからモデルは作れない。前提にする業務は固定しておかなければならないからである。
 この2つの分析は、それぞれ難しさと分析の価値が異なる。これがごっちゃになっているとお客さんと齟齬が生まれる。広告出稿の戦略や営業支援施策の提案など人が動くルールを見直すタスクでは、顧客はインサイトを求めていて、生産ラインや在庫管理系の自動化や画像認識などのタスクでは、顧客はモデル(ロボット)を求めている。

 モデルを作っているDSは、インサイトが欲しい顧客には「当たり前のことしかいっていない分析に価値はない」と言われることが多々ある。モデル作るプロジェクトで顧客側の不理解でこれを言われると、なかなか厄介だ。業務要件を理解し、それを全てアルゴリズムや数式に翻訳する点が難易の高いところであり、与えられた現実の業務を数式で表せることが価値である。逆に、いろいろ作り上げた数式から出てくることに大きく意味はない。意味はないというのは、人間と同じ動きができるロボットを作り上げようとしているのに、インサイト(業務の不備)などでてきたらもう一度業務検証をしなければいけないからである。
 実はいまのDS界隈でもっとも年収高く採用される部類の人材である。kaggleなどのコンペでは、この能力が求められる。ただ、真に求められるケースとしては絶対数が多くないから、kaggleでみんな楽しんでるんだろうと思う。基本的には顧客はデータ分析して何かできればいいなというモチベーションでしか期待してないので、客前にでていく報告会が頻繁にあると、インサイトを持っていかないと喜ばれないのも辛いところ。

例:モデル化の事例
 天気図から気象を予報する
 写真・映像から人の位置や情報を抽出する
 文脈判断して記事にタグ付けする
 与えたテーマで文章を自動生成する

 一方で、インサイトを得ようとしているDSは、ひたすらデータに新しい切り口を見つけて業務の不備を見つけようとするので、モデル作って欲しい顧客には「人と違う結果を出すモデルはいらない」と、混乱をうむ。

例:インサイト発見の事例
 ○○業への営業電話は午前の方が良い傾向にある
 広告は、インパクトよりも長期に渡って出すことで認知が稼げる
 客対応は、相手の話を聞き出す事が重要

である。

 同じ分析と言っても、プロジェクトの目的に応じてインサイト分析担当とモデル作成担当は分けるべきだし、実際スキルも異なる。インサイトを出し切る業務コンサル系DSと、モデル化するエンジニアは同じプロジェクトでも、参加時期を変えるなり別に動く事が理想だと思う。

*1:数理的背景がきっちりしている人材がどれだけいるんだろう