渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

たとえ有償でも絶対に引き受けてはいけないデータ分析依頼の3タイプ

id:dscaさんのタダでは引き受けてはいけないネタが大ブレークしてるみたいですね。


データの分析をタダで引き受けてはならない10の理由 - ネガティブにデータサイエンティストでもないブログ


受託系便利屋的なポジションの悲哀が大変よく透けて見える良記事だと思うんですが、一方で仮に金を取ったとしても引き受けてはいけない案件というのもよくあるものです。


ということで、便乗して「たとえ有償でも絶対に引き受けてはいけないデータ分析依頼の3タイプ」とか僕がこれまで経験してきた様々な現場and/or案件での事例を踏まえて、適当に吹聴してみようと思います。


なお、「前処理が煩雑」とか「DB整備が貧弱でCSVでデータをやり取りしなければならない」というような構造的な問題点は別物なので、今回は割愛しましたごめんなさい。


(※これは他所の様々な現場での話を聞き取ってまとめた話であり、現職場の話ではありません!!!現職場は良いところですよ~)




要件定義がドキュメント化されていない


「どこからデータを取ってきて」「どのデータを使って」「何のデータを解釈or予測して」というのが、ドキュメントとしてまとまってなくてメールの文面で素で投げられるとか、うっかりすると口頭で話して終わりとか。


情シス案件とかSIerが入るような案件では「要件定義をきっちりと」なんて常識を通り越して「要件定義が完了してドキュメント化されるまでは絶対に着手するな」とまで言われることが多いと思うんですが、データ分析業務となるとそれが忘れ去られているケースの多いこと多いこと。


おそらく、データ分析という業務がそこまで色々と厳密にやらなきゃいけないものだと、ビジネス側からは理解されてないんでしょうねぇ。。。ちなみに要件定義以外の様々な重要な情報(例えばテーブルカラム定義とか)までもがドキュメント化してない場合、速やかに死ねます。


ということで、SI案件と全く同じように「要件定義のドキュメント化が完了するまでは動かない」というのがベストチョイスです。きっと。

「○○という手法で分析してくれ」と使う手法が初めから決められている


時々聞くのが「重回帰分析でやってくれる?ぶっちゃけ算数よりも難しいと結果見せられても分かんないんだよ」みたいなリクエスト。二値分類なのに正規線形重回帰でやるのかオイみたいな。


こういうケースだと、例えば機械学習の分類器系使った方が良かったり、ネットワーク分析/グラフィカルモデル使った方が良いケースでも、とにかく「難しい方法使うなよ!重回帰分析だけやってりゃいいんだ!」とか言われるハメになりがち。いやいや、それ重回帰使う場面じゃないし。


さらに困るのが「△△ってデータサイエンティストの記事で○○って手法使うといいって言ってたからその手法でやってよ!」みたいな依頼。いやー、今回分析するデータには○○は使えないと思うんですけどー、とか言っても通じなかったり。


あと、たまに聞くのが「どこそこのコンサルが提案した手法でデータ分析したいんだけどコンサルに金を払うのは嫌なので社内のデータ分析部門に全く同じようにやらせたい」みたいなケース。これも結構辛いと思うんですよね。。。例えば社内部門側にそのノウハウがなくてゼロから構築するハメになって、途方もない工数を食うとか。最悪の場合、コンサルが提案した手法というかやり方自体が間違っていることも。。。


データ分析手法は、分析する本人がデータの性質を見たりリクエストの内容を精査したりして決めていくべきものであって、初めから依頼する側が生半可な知識で予め決めてしまってはいかんのです。

自分以外にはデータ分析者もエンジニアすらもいない分析プロジェクト


1番目とも関連しますが、他にデータ分析者もエンジニアもいないと工数管理一つとっても苦労するケースが多いと聞きます。特にデータ分析といえどもコードを書かなきゃいけないような案件では、その辺のエンジニア感覚の分かる人が他にいないと大変なことになることもしばしば。「え?何で今日中にできないの?」いやいやどんだけDB回してどんだけコード書くか分かります?的な。


下らないように見えて大事なのが、DB基盤まわりの権限付与とかデータ取得に関連する細々としたポイント。ここも、他にエンジニアがいないとそこが分かる人を探しに行くところから始めなきゃいけなかったりするので、猛烈に手間だったり。


現場ごとに事情は違うと思いますが、今時のデータ分析案件は大体どこの企業でも基本的にはIT案件とほぼイコール。データ分析者もエンジニアも複数ずつ揃っているべき、というのが一般的な姿かと。なので他にサポートメンバー皆無でデータ分析者一人だけ、みたいな案件は引き受けたらアウトだと思います。。。

最後に


要はデータ分析案件もSI案件やエンジニア案件と同じようにやってくれっていうか、もっと言えばデータ分析部門もIT部門と同じになるように整備しろという話なんですが(笑)、それはどちらかというとデータ分析組織論とかになるので、詳しい話はまた改めて。。。

追記


Twitterでこんなコメントをいただきました。



「口頭指示のみ」「素人/半可通による手順指示」「自分がクリティカルポイント」このシンプルな3つのキーワードで完璧に表現できますねー。今度から使わせていただこうっと。。。