渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

ビジネス実務で「正しいデータ分析」を行うということ

一般に、ビジネス実務におけるデータ分析というと、経営者や各種ビジネス部門の責任者といったステークホルダーたちが「ビジネス上の意思決定のためのエビデンス」を得る目的で、往々にして社内外のデータ分析の専門家たちに依頼して実施させるものであることが多いかと思います。


そうすると、データ分析業界では太古の昔からの鉄板あるあるネタである「上が〇〇という結果が欲しいと言っているので〇〇という結果になるようにしろ」とか「お客さんが〇〇は経営判断に必要なので分析結果に入れろと言っているから〇〇だけは外さないでくれ」というような、統計学や機械学習の「外側」にある事情が分析プロセスに割り込んでくるという事態が、ほぼ常につきまといます。


で、そういった事態にどう対処するかは、僕個人の観測範囲ではデータ分析業界の中でも割と幅広くやり方が分かれるように見えます。「毅然として断る」という人もいれば、「仕事である以上仕方ないので受け入れる」という人もいて、さらにそのスペクトラムまで入れるとデータ分析者の数だけバリエーションがあると言っても過言ではなさそうです。


そこで、ここ数年僕自身がビジネス実務向けのデータ分析(主に統計分析:もっと言えばMMM)を手掛ける中で気づいたことを中心にまとめながら、そういったビジネス実務の現実の中でどのようにして「正しいデータ分析」をやっていくか、そして何故そうするべきかという点について論じてみようと思います。

データ分析する側の事情


これは他でもない僕自身が当事者であり、このブログでも散々書き立ててきたテーマなので、論を俟たないでしょう。6年前にも似たようなテーマの記事を書いたことがあり、その課題意識は今でも変わっていません。


他にも様々な表現が可能かとは思いますが、統計学や機械学習を適切に用いて「正しいデータ分析」を行いそのアウトプットに従って意思決定した方が、(例えば)勘や経験や度胸ベースで根拠薄弱な意思決定を行うよりは「合理的」だと考えられるからです。それは例えば再現性であったり、予測精度の高さや汎化性能であったりという基準や指標からも言えることだと思われます。


そして何よりも、データ分析者の立場としては統計学や機械学習を適切な形で駆使した「正しいデータ分析」を行うということは、その職掌の「独自性」を訴求することにも繋がると、個人的には考えています。即ち「表計算やデータ可視化ダッシュボードのような一般的な分析ツールだけではカバーし切れない」ところ、以前書いたことのある表現であれば「直感で理解できるレベルを超えた非直感的な分析」*1を手掛けることで、「正しいデータ分析の意義」のアピールになっていくはずだ、ということですね。


ビジネス上の意思決定をする側の事情


一方で、8年以上に渡ってenterprise salesの仕事を手掛けている立場からは、ビジネス上の意思決定をする側の事情も良く分かります。5年前のエイプリルフールネタではかなり辛辣に皮肉ってしまいましたが(笑)、現実のビジネス部門においては一見馬鹿げて見えるけれども決して馬鹿に出来ないあれやこれやが沢山あるものです。


例えば、全く同一の事業に対して関わっている部門ごとに全てKPIが異なる……というのは良くある話で、必然的に全社横断的な分析の類をやろうとすると途端にKPI同士がconflictを起こしてにっちもさっちも行かなくなったりします。しかし、これは個々の部門に閉じれば「部門ごとに独自のKPIを置く」方が効率的だったりすることが多く、大企業になればなるほど個々の部門の人数も事業規模も大きくなることを考えれば、局所最適だと安易に切り捨てられないんですよね。


また、役員会などで使われる需要予測モデルのような分析の取り組みにおいても、「〇〇という一見珍妙に見える変数」が実はその会社の経営における長年の経験上経営指標の予測性が高く、役員陣もそれらに基づいて長年意思決定し続けてきているので、外すことができない……といったケースも割と良くある話だったりします。


そういった「一見合理的でない〇〇」がデータ分析の「正しさ」よりも優先されることはビジネス実務の現場では良くあることですが、それらの裏側には「〇〇がビジネスのステークホルダーたちにとって重要である理由」があり、それを無視してはそもそもビジネス上の意思決定も回らないという現実が往々にしてある、というのが僕の個人的な認識です。その辺の「物分かりの良さ」こそが、僕がセールス部門で8年働いて身についたものだといっても過言ではないかもしれません。


「正しく行われない」データ分析は、ビジネス実務に害をなすこともある


ということで、データ分析者にも「物分かりの良さ」が求められるという話をしたわけですが、無軌道に物分かりが良ければOKという話でもないんですね。ここで原則論的な御託を並べても冗長になるだけなので、具体例を挙げます。


ある大企業の役員会では懇意にしているコンサル会社に依頼して毎月需要予測モデルを計算してもらい、その回帰係数の大小関係を見ながら「次月はどの施策に注力して予算を投下するか」を決めていたそうです。曰く「R^2 > 0.95と実に高精度なモデルだ」と自慢のタネにすらなっていたとか。ところが、ある時期からそのモデルの託宣に従って予算を振り分けても、KGIが全然上がってこないどころか、むしろ下がっていくばかりという事態に陥り、役員陣揃って真っ青に。慌てて手数料の高い仲介業者を沢山使うようにして当座のKGIは確保したものの、需要予測モデルの分析結果が信じられなくなってしまった……という話です。


裏側で起きていたことは実に単純でした。毎月需要予測モデルを計算する際に、役員会では「今月からこれこれの施策も増えたから」という理由で、月ごとに新たな説明変数をどんどん足していっていたそうなんですね。しかも、役員会からの厳命でそれらの説明変数を減らすことはまかりならなかったとか。一方で、モデルの精度は「学習データへの当てはまり」だけで評価していた、という。「R^2 > 0.95」というのはあくまでも学習データへのフィッティングの結果であって、交差検証やテストデータへの当てはまりのチェックは一切していなかったのでした。そう、役員会で毎月使うほど大事な大事な需要予測モデルが、どストレートな過学習(過剰適合)を起こしていた……という顛末だったのです。過学習した回帰モデルの回帰係数は、当然ながら大きなバイアスのかかったいびつなものになります。そんないびつな回帰係数の託宣に従えば、効いていないはずの施策が「効いている」と錯覚してしまい、予算をドブに捨てる結果になってしまうのは無理からぬことです。


つまり、このケースでは「役員会にとっての需要予測モデルの使い勝手の良さ」ばかり出入りのコンサル会社まで含めて追求した結果、「正しくないデータ分析」へと繋がってしまい、とんでもなく間違った帰結に至ってしまったのでした。ちなみに、この会社では需要予測モデルの過学習を指摘されたことでコンサル会社を交代させて、以後同種の問題は起きなくなったらしいと聞きます。この事例は、ビジネス実務において何故「正しいデータ分析」を行うべきかという問いへの、端的な答えになっていると個人的には思います。


「きちんと話をする」ことの重要性


とは言え、いかに「正しくないデータ分析」がビジネスに害をなし得るとはいっても、それをベースに回っているビジネスプロセスに介入するのは難しいものです。特にそれが役員会レベルなど、意思決定の規模やレベル感が大きく高くなるほど、そこに割って入るのは困難になります。そうなると、データ分析者の側からは「どうせ何も変わりやしないんだから」と放置してしまいがちです。


しかし、昨年の記事でも指摘したように、ビジネス実務の現場においてはデータ分析の価値を出せるか否かは、得てしてデータ分析の「外側」のプロセスへの働きかけによる部分が大きいんですね。特に、先述の需要予測モデルの失敗談のように「外側」に「正しくないデータ分析」が生じる理由が明確にある場合は尚更です。


個人的には、役員や事業部長などビジネス上のステークホルダーだが非専門家という人々には、どれほど面倒であったとしても「正しいデータ分析」を行うための必須プロセスだと捉えて、可能な限り最大限のコミュニケーションを取る、と言いますか「きちんと話をする」ことを心掛けています。そこには粘り強さも必要だったりしますし、同時に「分かりやすく噛み砕いて説明する」工夫も必要だったりします。場合によっては「誰に先に話してから次に別の誰と話すか」というような社内政治を考えることも求められたりします。それらはデータ分析者など専門家からは非本質的な努力と映るかもしれませんが、「正しいデータ分析」を行うために必要なコストだと割り切るべきだと考えています。つまり、データの前処理をしたり分析のためのコードを書いたりするのと同じくらい重要なことだ、ということですね。


大事なのが、「必要以上に相手のことを慮らない」こと。例えば、ある部門にとっての重要KPIが〇〇だったとして、統計学の観点からはその〇〇を分析に用いるのは不適切*2だと判断された場合に、「でもあそこの事業部長としては〇〇は無視できないだろうしなぁ」というように迎合するべきではない、という話です。仮にその〇〇を含めたままだと明らかに「正しくないデータ分析」に繋がるという確信があるのならば、コミュニケーションの仕方*3に工夫はするとしても、率直に伝えて改善を求めるべきでしょう。これは結構勇気の要ることですが、それを怠ってビジネスが間違った方向に行ってしまって多くの方面に損害を出すよりは、ステークホルダーとの間に多少軋轢が生じたとしても、信念を持ってやるべきかと。


「正しくないデータ分析」を避けることで未然に害を防ぎ、「正しいデータ分析」で価値を出そうというのであれば、データ分析の「外側」にいるステークホルダーたちと「きちんと話をする」ことが大切ですよ、というお話でした。

*1:ヒトの直感的理解は単変量モデルまで、直感を超えたければ多変量モデルへ - 渋谷駅前で働くデータサイエンティストのブログ

*2:多重共線性だったり内生性だったり理由は幾らでもあり得る

*3:言葉遣いとか言い方とか