ホーム
Topics
探索的データ分析とは
探索的データ分析(EDA)とは、データサイエンティストがデータセットを分析・調査して、その主な特徴をまとめる際に用いるもので、多くの場合、データの可視化手法を使用しています。
EDAは、必要な答えを得るためにデータ・ソースを操作する最適な方法を決定する際に役立つため、データサイエンティストはパターンの発見、異常の特定、仮説の検証、仮定の確認を容易に行うことができます。
EDAは主に、形式的モデル化や仮説検証のタスクを超えて、データから何を明らかにできるのかを確認するために使用され、データ・セットの変数とそれらの関係をより深く理解できるようにします。 また、データ分析に向けて検討している統計的手法が適切かどうかを判断するのにも役立ちます。 EDAの手法は、元々1970年代にアメリカの数学者John Tukey氏によって開発されたものですが、現在でもデータ検出プロセスで広く使われている手法です。
アプリケーション、分析、生成AIのために適切なデータベースを活用する方法について説明します。
EDAの主な目的は、仮定を行う前にデータを確認できるようにすることです。明らかなエラーを特定するだけでなく、データ内のパターンをより深く理解し、外れ値や異常なイベントを検知して、変数間の興味深い関係を見つけることもできます。
データサイエンティストがこの探索的分析を使用すると、自分たちが出した結果が妥当で、望ましいビジネスの成果や目標に適用できることを確認できます。 EDAはまた、利害関係者がしている質問が適切かどうかを確認することで、利害関係者を支援します。 EDAは、標準偏差、カテゴリ変数、信頼区間に関する質問に答えるのに役立ちます。 EDAが完了してインサイトが得られると、その機能を活用して、機械学習を含む、より高度なデータ分析やモデリングを行うことができます。
EDAツールで実行できる具体的な統計関数と手法には、以下のようなものがあります。
EDAには、主に4つの種類があります。
その他のよく使われる多変量グラフィックスの種類には、以下のようなものがあります。
EDAの作成に使用される最も一般的なデータサイエンス・ツールには、以下のようなものがあります。
これらのアプローチの違いについては、「PythonとRの違い」をご覧ください。