はじめに
下記の書籍を以前(結構時間が経ってしまいました)高柳さんから頂いていましたので感想を書きたいと思います。
遅くなった言い訳としては、「個人としては多くの内容が既知であったこと」が挙げられるのですが、この書籍に書かれている内容が未知であるかあやふやな人にとっては当然非常に有用になっています。そして、何よりもその伝え方(書かれ方)が今になって素晴らしいと実感できたためこのタイミングで書くこととしました。
誰向けか
大きく分けて4種類の人におすすめできます。もし日本中の指定した層が「評価指標入門を読み込んでくれる」という魔法を使えるのだとしたら下記からは「データサイエンスのプロジェクトを管理する人」を選ぶかもしれません。なんか他の層はいずれ自分で学ぶ気がしますが、「データサイエンスのプロジェクトを管理する人」は意欲に対して一番効果が高い層な気がします。これは完全に感想で、しかもなんとなくです。
顧客や自身の部下などにデータサイエンスを説明をしなければならない立場の人
既に業務でバリバリにデータサイエンティストをやっており、比較的周囲をリードできる立場の人にとっては「知識的には」ほとんどが知っていることになると思われます。 ただそのような立場の人ほど、他の部署の非データサイエンティストであるとか、今後データサイエンティストになってもらう部下であるとか、あるいは顧客であるとか、何らかのステークホルダーに対してデータサイエンスがビジネス上どう効くのかを説明しなければならないシーンが出てきます。そのような場合に、当書籍の内容(特に第一章)は非常に腑に落ちるところがあるので、この本の説明の例を、自分たちの実課題に照らし合わせて説明の例を作ると、非常に納得してもらいやすいのではないかと思います。 人によっては、「そんなの今更…当たり前だから説明しなくてよくない?」とか思うかもしれませんが、以外と周囲は理解していなかったりします。いきなり教科書に書かれているコトバを持ち出してF値を良くしたい、と言い出す人はたくさんいらっしゃると思います。それは理由を聞けば、「Accuracyだと稀な例を見逃すから…」と言ってくださったりするのですが、それはAccuracyを使わない理由であってF値を使う理由ではないのです。そして本来メトリクスは固有名詞がついているようななにかにこだわる必要も無いということを、この本を通じて非常にわかりやすく説明できると思います。
機械学習のアルゴリズムには詳しいけどビジネス貢献ってどうやってやるの?という人
「機械学習のメトリクスはあくまで小さなスコープ内での話で、ビジネスサイドはそれをうまくやって勝手に頑張ってね」が成り立っている職場なら良いですが、データサイエンティストという肩書の人がそれで許されるケースはあまりない気がします。基本的には上記にも記したとおりですが、分類問題において「F値を良くしたい」理由は「Accuracyだと稀な例を見逃すから」と言ってる人になっているのであれば、一旦本を読んだほうが良いかもしれません。
データサイエンスのプロジェクトを管理する人
発注側にしても受注側にしても、自分がデータサイエンティストとして手を動かさないにしても、この本の内容は適切に把握しておくべきです。おそらく、把握をしてなかった時に一番損をするのはこの立場の人ではないかと思います。 プロジェクトマネージャーは基本的にプロジェクトの成否に責任を持つわけですし、多くの意思決定を行わなければなりません。なので、アルゴリズムにべらぼうに詳しいとか、数学がめちゃくちゃわかるとか、そういうことが必要になることよりも、ある場所に正しく旗印を立ててその方向に(向かう方法は任せるけど)向かっていることだけは担保しなければなりません。 まさにデータサイエンス・機械学習プロジェクトの一つの旗印が評価指標になってくるので、これが変なものになっていると気づけ無いと厳しいように思います。まあ評価指標の設計自体を誰かに丸投げする方法もあるのかもしれませんが、設計したものに向かっていこうという意思決定をするときに自分で分からないの不安じゃないですかね(算数レベルの話なので、これくらいは多分抑えておいた方が良いと思います)。
機械学習やデータサイエンスをこれから始める人
単純にF値やRecall、AUCだとかそれらの指標を知らない人は、ビジネスの話と繋げつつそれ自体を勉強する書籍としても使うことができます。典型的な機械学習モデルや統計分析は、今やフリーソフトに実装されていて、動かすだけならとりあえずできるという状況になっていますので、コンピュータに丸投げはできない評価指標というものを正しく設定する方法を学ぶのは第一歩として悪くないと思います。(データサイエンティストや機械学習エンジニアになるのであれば、いつまでもフリーソフトが動いてるけど中身は一切わかりません……は頼りないのですが。※FortranやCでスクラッチできるようにしろとかは思わないけど、たまにはPRML見返すとか、実装してみるのは大事)。
感想
個人的な感想としては、数年間データサイエンスをやっている身としては「第一章」みたいな話を割りと永遠に聞きたかったのというふうに思いました。実際にどんな事例があるのかとか、数式に落としづらい場合の工夫であるとか、あるいはステークホルダーとの対話などよりビジネスシーンでどのように決まってくるのかなども体験談ベースなどでも話があると更に面白いなと思いました(そんなの書きづらいのでしょうけど)。
他の評価指標自体を解説している章の内容としては、こちらは知っている人は「うん知っている」としかならない内容なので、1章から最後まで面白く読めるのは、「ビジネスにもある程度関心のあるデータサイエンスこれから学び始める大学生」とか「すでにビジネスサイドの経験を持つ人、データサイエンスに挑戦する場合」とか上記で述べた通り「プロジェクトを管理する人」などになってくるかなと思います。
ただ技術評論社のこのシリーズはいずれも、数式ゴリゴリというよりは日本語を読むことで理解をしていくスタイルなので技術者・研究者よりもビジネスシーンでこれらの技術を扱いたい人に向いている本なのだと思います。ぜひ、ビジネスサイドでデータサイエンスに興味がある or 既に関わっているという人は読んでほしい一冊でした。ちなみにこの本のノリで、ビジネスとデータサイエンスのプロジェクトを上手に設計しましょうね、という話をプレゼンスライドにして話したらすごく好評でした。ありがとう。