目次
はじめに
下記の記事で、Googleのデータアナリストが、
データ解析の心得を公開しており、
シンプルながら心に響いたので、
連続Tweetとしてまとめてみました。
Tweetメモ
Googleのデータアナリストが、大規模で多次元のデータを扱って、説得力のある提言をする秘訣について書かれたこの記事面白いな。心に響いた所をまたTweetでまとめてみよう。Good Data Analysis | ML Universal Guides | Google Developers https://t.co/swc35jjlTQ
— Atsushi Sakai (@Atsushi_twi) 2022年3月19日
「データの分布をちゃんと見よう」: 多くの実務家は要約指標(平均値や標準偏差など)を見るが、それだけでなく、ヒストグラムなどでデータの分布を見ましょう。多峰性や外れ値に気がつけます。外れ値は、解析から除外しても良いですが、なぜその外れ値が発生したのかはちゃんと確認しないといけません
— Atsushi Sakai (@Atsushi_twi) 2022年3月19日
「例を確認しよう」:複雑な解析をいきなり大規模のデータで実施するのではなく、いくつかのサンプルのデータを入れて、意図した解析ができているかを事前に確認しましょう。クラス分類する場合も、代表的なデータがちゃんと目的のクラスに分類できるか確認しましょう。
— Atsushi Sakai (@Atsushi_twi) 2022年3月19日
「データをスライスしてみよう」:スライスとは、データをサブグループに分割して、解析結果を比較することです。例えば使用ブラウザ、デバイスの種類などで分割できます。これにより解析の正しさや新しい発見が得れます。サブグループのデータ量に偏りがあるときには、結果の比較に注意が必要です。
— Atsushi Sakai (@Atsushi_twi) 2022年3月19日
「時系列にスライスしよう」:システムは日々変化するので、時系列にスライスしてデータを比較することも重要です。長期間のスライスしたデータを解析することにより、データのノイズを確認することができ、信頼区間もある程度推定出来るようになります。これにより異常にも気づけるようになるでしょう
— Atsushi Sakai (@Atsushi_twi) 2022年3月19日
「割合を出すときは分子と分母を明確にする」:割合を出すときは分子と分母を何にするのかを気を配り、明確に定義すべきです。またデータをフィルタリングした場合は、どれだけの割合のデータをフィルタリングしたのかを逐次把握するようにしましょう。
— Atsushi Sakai (@Atsushi_twi) 2022年3月19日
「検証、説明、評価を分ける」データ解析は、1. 検証:データが正しいか確認, 2. 説明:データから客観的に分析, 3. 評価: 説明から提言を考える、の3つに分類でき、明確に今どれをやっているか認識する必要があります。特に説明はすべての人が同意する必要がありますが、評価は議論が発生するものです
— Atsushi Sakai (@Atsushi_twi) 2022年3月20日
「データが取得された環境を確認する」データを解析する前に、そのデータがどのような背景で取得されたのか確認しましょう。もし観測機器が取得されたデータであれば、実際にその機器がデータを取得しているのを見に行くべきですし、データ取得に制約がある場合には事前に認識しておくことが重要です。
— Atsushi Sakai (@Atsushi_twi) 2022年3月20日
「変わってほしいデータを見る前に、変わってほしくないデータを確認する」何かの施策によって変わってほしいデータを見る前に、それ以外の比較のためには変わってほしくないデータ(例えばデータ量やエラー率など)が変わってない、悪くなってないことを確認した上で、見たい部分を解析すべきです。
— Atsushi Sakai (@Atsushi_twi) 2022年3月20日
「仮説を立てて、その仮説の証拠を探す」優れたデータ分析には、ストーリーが必要です。それが正しいストーリーであることを確認するためには、自分自身にそのストーリーを語り、それが正しいか、間違っているかという証拠を探す必要があります。
— Atsushi Sakai (@Atsushi_twi) 2022年3月20日
「データ解析はデータや技術からではなく、疑問から始まる」データ分析には必ず動機や疑問があり、疑問のない分析は、目的を失ったまま終わってしまいます。お気に入りの解析手法を見つけ、その手法が有効な問題のみを見つけるということは避けないといけません。
— Atsushi Sakai (@Atsushi_twi) 2022年3月20日
「自分の解析の信者であり、懐疑的であれ」:自分のストリーを信じて、解析することも重要ですが、同じく自分の解析に懐疑的であることも重要です。自分のストーリーを信じすぎると、相関と因果を取り違えたりします。まず結果が出たら、自分で再確認したり、仲間に意見をもらうことも良い方法です。
— Atsushi Sakai (@Atsushi_twi) 2022年3月20日
「データ解析の仕事は、あなたのデータに既存のすごいツールを当てはめることではなく、正しく重要な洞察を見つけ、与えることなのです。」
— Atsushi Sakai (@Atsushi_twi) 2022年3月20日
参考資料
MyEnigma Supporters
もしこの記事が参考になり、
ブログをサポートしたいと思われた方は、
こちらからよろしくお願いします。