目次
感想
自分も仕事でデータ解析をすることが多いですが、
この本はデータ解析をする方法ではなく、
仕事でデータ解析をする人が持つべき
心がけを分かりやすく説明してくれる名著だと思います。
データ解析をするときには、
決定木、ベイズ推定など高度な解析手法を使いたくなりますが、
本当に重要なのは、その結果を使って
ビジネスの意思決定をすることであることに気づかせてくれます。
自分も、今後データ解析をする上で、
意思決定ができるような結果に注力し、
その結果が実際に使われるようにする所まで
実施していきたいと思いました。
そのような意味で、
仕事でデータ解析をするすべての人が読むべき本でしょう。
読書メモ
データ分析に必要なのは、数値解析ではなく、意思決定できるようにすること 分析手法はこだわらずに、意思決定に役立つことだけを考える
これが一番重要な所です。
ビッグデータは数十テラ以上のデータ量のデータのことを言う
最近ビッグデータと言う言葉が流行っていますが、
殆どの企業のデータはスモールデータですね。
ビッグデータにより、サンプリングが不要になった。 全数データとして解析をすることができる ビッグデータは因果律を示さないで、相関だけを示すことができるようになる。 しかし、相関の理由は説明できない。
つまり、サンプリングによる近似は考えなくて良くなったのですね。
しかし、その相関の理由は自分たちで考える必要があります。
秒単位の細かいデータを分析する前に、もっと荒い日次データを分析するようにする
最初から、あまり大量のデータを解析せずに
小さい部分から始めようということでしょうか。
未来を、予測するのにデータ分析が使える
この本の例題として出てくるデータ分析の例は、
大抵、有るデータから未来を予測することでした。
データ分析者は、見つける、解く、使うまでの、すべてを実施しなくてはならない
ツールは作るだけでなく、ビジネス担当に使わせるところまでやる
これも重要な観点です。
解析するだけでなく、データを取得し、
その結果をビジネスに利用されるところまで
分析者が実施しないといけないということでしょう。
データ分析をする前に、サスセスストーリーを考える
いきなりデータ解析するのではなく、
その解析が上手く行ったらどのようにビジネスに応用されるのかを
考えると、データ解析による数字遊びが少なくなります。
データ分析者ほど、現場に行く
相関だけでなく、因果律を知るためにはこれが重要です。
分析モデルをひたすら、高精度化しない
これも、分析を目的とせずに、
ビジネスに役立つことを再優先に考えることが重要であることを
示しています。
ミスをしない秘訣は、予測モデルと実際のデータを比較する
ビジネスで使用するには、ミスは許されないので
このようにちゃんと精度とロジックのチェックは必須です。
Kaggleはデータ分析のコンテストサイト
知らなかったです。
あとで調べてみようかなと思います。
データ分析が成功したら、同じ解析手法や近い意思決定内容に横にらみできないか?を考える
成功体験を上手く使うと、
一つの解析手法で何度も美味しくなります。
解析する前に 生データを可視化して異常値などを確認するようにする
いきなりデータ解析すると、元データがおかしい場合に
自分のミスに気が付かなくなります。
参考資料
MyEnigma Supporters
もしこの記事が参考になり、
ブログをサポートしたいと思われた方は、
こちらからよろしくお願いします。