ホームページ  >  記事  >  バックエンド開発  >  データの理解: 探索的データ分析 (EDA) の要点。

データの理解: 探索的データ分析 (EDA) の要点。

WBOY
WBOYオリジナル
2024-08-18 06:12:32729ブラウズ

Understanding your data: The Essentials of Exploratory Data Analysis (EDA).

データが収集され、保存されたら、データについて有意義な理解を得るために分析する必要があります。このため、探索的データ分析 (EDA) が登場します。名前が示すように、私たちはデータを「探索」しています。つまり、データの全体的な概要を取得しています。

収集されるデータはテキスト、ビデオ、または画像のいずれかであり、通常は非構造化された方法で保存されます。 100% クリーンな、つまり異常のないデータが見つかることはほとんどありません。さらに、データは、Excel、CSV (カンマ区切り値)、Json、Parquet などのさまざまな形式である場合があります。

データの世界では、EDA は データ操作 または データ クリーニング とも呼ばれます。業界の専門家は、データをクリーニングして「ジャンク」を削除することの重要性を強調しています。これは、予測だけでなく結果にも悪影響を与える可能性があるためです。通常は表形式の構造化データは、いくつかの手法やツール (Excel、Power BI、SQL など) を使用して分析できますが、この図では Python に焦点を当てます。

Python を使用した EDA
Python プログラミング言語は、金融、教育、医療、鉱業、接客業など、複数の業界にわたって使用できる多用途性により、EDA で最も広く使用されているツールの 1 つです。
組み込みライブラリ、つまり Pandas と NumPy はこの点で非常に効果的であり、(Anaconda/Jupyter Notebook、Google Collab、Visual Studio などの IDE のいずれを使用している場合でも) 全体的に機能します

以下は、EDA を実行するときに実行できる一般的な手順とコード行です。

まず、操作/分析に必要な Python ライブラリをインポートします。

パンダを pd としてインポートします
numpy を np

としてインポート

次に、データセットをロードします
df = pd.read_excel('ファイルパス')

注: df は、表形式のデータをデータ フレームに変換するための標準関数です。

ロードしたら、コードを使用してデータをプレビューできます:
df.head()

これにより、データセットの最初の 5 行が表示されます
あるいは、単純に df を実行すると、データセット全体とその中のすべての列の選択された数行 (上部と下部の両方) が表示されます。

第三に、以下を使用してすべてのデータ型を理解します。
df.info()

注: データ型には、整数 (整数)、浮動小数点数 (10 進数)、または オブジェクト (定性データ/説明語) が含まれます。

このステップでは、以下を使用してデータの概要統計を取得することをお勧めします。
df.describe()

これにより、平均、最頻値、標準偏差、最大/最小値、四分位数などの統計が得られます。

4 番目に、以下を使用してデータセットに null 値が存在するかどうかを特定します。
df.isnull()

その後、重複 (繰り返しのエントリ) がチェックされます
df.duplicated()

EDA のその他の重要な側面は、データセット内のさまざまな変数が互いにどのように関係しているか (相関) とその 分布 をチェックすることです。
相関は正または負の値で、範囲は -1 から 1 です。そのコードは次のとおりです:

df.corr()

注: 1 に近い相関図は 強い正の相関 を示し、-1 に近い数値は を示します。強い負の相関.

分布は、データがどのように対称または非対称であるか、またデータの歪度をチェックします。データは、正規、二項、ベルヌーイ、またはポアソン。

要約すると、探索的データ分析は、データをより深く理解するための重要なプロセスです。これにより、視覚化とモデルの構築が向上します。

以上がデータの理解: 探索的データ分析 (EDA) の要点。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。