データが収集され、保存されたら、データについて有意義な理解を得るために分析する必要があります。このため、探索的データ分析 (EDA) が登場します。名前が示すように、私たちはデータを「探索」しています。つまり、データの全体的な概要を取得しています。
収集されるデータはテキスト、ビデオ、または画像のいずれかであり、通常は非構造化された方法で保存されます。 100% クリーンな、つまり異常のないデータが見つかることはほとんどありません。さらに、データは、Excel、CSV (カンマ区切り値)、Json、Parquet などのさまざまな形式である場合があります。
データの世界では、EDA は データ操作 または データ クリーニング とも呼ばれます。業界の専門家は、データをクリーニングして「ジャンク」を削除することの重要性を強調しています。これは、予測だけでなく結果にも悪影響を与える可能性があるためです。通常は表形式の構造化データは、いくつかの手法やツール (Excel、Power BI、SQL など) を使用して分析できますが、この図では Python に焦点を当てます。
Python を使用した EDA
Python プログラミング言語は、金融、教育、医療、鉱業、接客業など、複数の業界にわたって使用できる多用途性により、EDA で最も広く使用されているツールの 1 つです。
組み込みライブラリ、つまり Pandas と NumPy はこの点で非常に効果的であり、(Anaconda/Jupyter Notebook、Google Collab、Visual Studio などの IDE のいずれを使用している場合でも) 全体的に機能します
以下は、EDA を実行するときに実行できる一般的な手順とコード行です。
まず、操作/分析に必要な Python ライブラリをインポートします。
パンダを pd としてインポートします
numpy を np
次に、データセットをロードします
df = pd.read_excel('ファイルパス')
注: df は、表形式のデータをデータ フレームに変換するための標準関数です。
ロードしたら、コードを使用してデータをプレビューできます:
df.head()
これにより、データセットの最初の 5 行が表示されます
あるいは、単純に df を実行すると、データセット全体とその中のすべての列の選択された数行 (上部と下部の両方) が表示されます。
第三に、以下を使用してすべてのデータ型を理解します。
df.info()
注: データ型には、整数 (整数)、浮動小数点数 (10 進数)、または オブジェクト (定性データ/説明語) が含まれます。
このステップでは、以下を使用してデータの概要統計を取得することをお勧めします。
df.describe()
これにより、平均、最頻値、標準偏差、最大/最小値、四分位数などの統計が得られます。
4 番目に、以下を使用してデータセットに null 値が存在するかどうかを特定します。
df.isnull()
その後、重複 (繰り返しのエントリ) がチェックされます
df.duplicated()
EDA のその他の重要な側面は、データセット内のさまざまな変数が互いにどのように関係しているか (相関) とその 分布 をチェックすることです。
相関は正または負の値で、範囲は -1 から 1 です。そのコードは次のとおりです:
df.corr()
注: 1 に近い相関図は 強い正の相関 を示し、-1 に近い数値は を示します。強い負の相関.
分布は、データがどのように対称または非対称であるか、またデータの歪度をチェックします。データは、正規、二項、ベルヌーイ、またはポアソン。
要約すると、探索的データ分析は、データをより深く理解するための重要なプロセスです。これにより、視覚化とモデルの構築が向上します。
以上がデータの理解: 探索的データ分析 (EDA) の要点。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。