はじめに
データ サイエンティストおよびデータ アナリストとして、これは実行する必要がある非常に重要かつ重要な最初のステップです。データ収集後のデータは未処理の形式であり、データ サイエンティスト、アナリスト、その他の人はデータの構造や内容を理解できません。そこで EDA が登場します。データを分析および視覚化して、その主要な特性を理解し、パターンを明らかにし、変数間の関係を特定します。
データを理解するには、データに期待される品質と特性を理解する必要があります。データについての知識、データが満たすニーズ、それがコンテンツであり、創造です。ここで、EDA をさらに深く掘り下げて、データを情報に変換する方法を理解しましょう。情報とは、処理、整理、解釈、構造化されたデータです。
探索的データ分析
上で定義したように、EDA とは、データの主要な特性を理解し、パターンを明らかにし、変数間の関係を特定するためにデータを分析および視覚化することを指します。これは、必要な答えを得るためにデータ ソースを操作する最適な方法を決定するのに役立ち、データ サイエンティストがパターンを発見し、異常を特定し、仮説や仮定をテストすることが容易になります。これはデータ分析の重要な最初のステップであり、複雑なデータセットを理解して解釈するための基礎です。
EDA の種類
これらは、探索的データ分析プロセス内で使用されるさまざまな方法とアプローチです。 EDA の主なタイプは次の 3 つです:
一変量分析: これはデータ分析に使用できる最も単純な形式であり、データセット内の各変数を調査します。値の範囲と値の中心的な傾向を調べることが含まれます。これは、各変数が独自に反応するパターンを記述しますたとえば、会社の従業員の年齢を調べます。
二変量分析: この分析では、2 つの変数が観察されます。これは、2 つの変数間に統計的な関連性があるかどうか、またある場合にはそれらがどの程度強いかを判断することを目的としています。二変量を使用すると、研究者は 2 つの変数間の関係を調べることができます。この分析を使用する前に、なぜそれが重要なのかを理解する必要があります。
Bivariate analysis helps identify trends and patterns Helps identify cause and effect relationships. Helps researchers to make predictions. It also inform decision-making.
二変量分析で使用される手法には、散布図、相関関係、回帰、カイ二乗検定、t 検定、および 2 つの変数の関連性を判断するために使用できる分散分析が含まれます。
多変量解析: これには、各実験ユニットで複数の測定が行われ、多変量測定とその構造間の関係が重要な実験の統計的研究が含まれます。実験の理解。 たとえば、人が 1 日に Instagram に費やす時間。
テクニックには、依存テクニックと相互依存テクニックが含まれます。
EDA の必需品
a. データ収集: データを扱うときの最初のステップは、まず必要なデータを入手することです。データは、Web スクレイピングや Kaggle などのプラットフォームからのデータセットのダウンロードなどの方法を使用して、取り組んでいるトピックに応じてさまざまなソースから収集されます。
b. データについて: クリーニングに進む前に、まず収集したデータを理解する必要があります。作業する行と列の数、各列の情報、データの特性、データ型などを理解するようにしてください。
c. データ クリーニング: このステップには、データ内のエラー、不一致、重複、または不完全なエントリの特定と対処が含まれます。このステップの主な目的は、データの品質と有用性を向上させ、より信頼性の高い正確な結果をもたらすことです。データ クリーニングにはいくつかの手順が含まれます。
データをクリーンアップする方法;
i)Handling missing values: by imputing them using mean, mode, median of the column, fill with a constant, forward-fill, backward-fill, interpolation or dropping them using the dropna() function. ii)Detecting outliers: you can detect outliers using the interquartile range, visualizing, using Z-Score or using One-Class SVM. iii)Handle duplicates: Drop duplicate records iv)Fix structural errors: Address issues with the layout and format of your data such as date formats or misaligned fields. v)Remove unnecessary values: Your dataset might contain irrelevant or redundant information that is unnecessary for your analysis. You can identify and remove any records or fields that won't contribute to the insights you are trying to derive.
d. 概要統計。 このステップでは、pandas または numpy の description メソッドを使用して、平均、中央値、最頻値、標準偏差、最小値、最大値を含む、データセットの中心的な傾向と広がりの概要を示します。数値特徴の場合。カテゴリ特徴については、グラフと実際の要約統計量を使用できます。
え。 データの視覚化: これは、大量の複雑な定量的および定性的データを、伝達しやすく理解しやすいグラフィックまたは視覚的表現を設計および作成する実践です。 matplotlib、seaborn、tableau などのツールで線、棒、散布図、箱ひげ図を使用して、データセット内の傾向とパターンを特定してみます。
f. Data relationship. Identify the relationship between your data by performing correlation analysis to examine correlations between variables.
g. Test Hypothesis: Conduct tests like t-tests, chi-square tests, and ANOVA to determine statistical significance.
h. Communicate Your findings and Insights: This is the final step in carrying out EDA. This includes summarizing your evaluation, highlighting fundamental discoveries, and imparting your outcomes cleanly.
The next step after conducting Exploratory Data Analysis (EDA) in a data science project is feature engineering. This process involves transforming your features into a format that can be effectively understood and utilized by your model. Feature engineering builds on the insights gained from EDA to enhance the data, ensuring that it is in the best possible form for model training and performance. Let’s explore feature engineering in simple terms.
Feature Engineering.
This is the process of selecting, manipulating and transforming raw data into features that can be used in model creation. This process involves 4 main steps;
Feature Creation:- Create new features from the existing features, using your domain knowledge or observing patterns in the data. This step helps to improve the model performance.
Feature Transformation: This involves the transformation of your features into more suitable representation for your model. This is done to ensure that the model can effectively learn from the data. Transforming data involves 4 types;
i) Normalization: Changing the shape of your distribution data. Map data to a bounded range using methods like Min-Max Normalization or Z-score Normalization. ii) Scaling. Rescale your features to have a similar scale to make sure the model considers all features equally using methods like Min-Max Scaling, Standardization and MaxAbs Scaling. iii) Encoding. Apply encoding to your categorical features to transform them to numerical features using methods like label encoding, One-hot encoding, Ordinal encoding or any other encoding according to the structure of your categorical columns. iv) Transformation. Transform the features using mathematical operations to change the distribution of features for example logarithmic, square root.
Feature Extraction: Extract new features from the existing attributes. It is concerned with reducing the number of features in the model, such as using Principal Component Analysis(PCA).
Feature Selection: Identify and select the most relevant features for further analysis. Use filter method( Evaluate features based on statistical metrics and select the most relevant ones), wrapper method(Use machine learning models to evaluate feature subsets and select the best combination based on model performance) or embedded method(Perform feature selection as part of model training e.g regularization techniques)
Tools Used for Performing EDA
-Let's look at the tools we can use to perform our analysis efficiently.
Python libraries
i) Pandas: Provides extensive functions for data manipulation and analysis. ii) Matplotlib: Used for creating static, interactive, and animated visualizations. iii) Seaborn: Built on top of Matplotlib, providing a high-level interface for drawing attractive and informative capabilities. iv) Plotly: Used for making interactive plots and offers more sophisticated visualization capabilities.
R Packages
i) ggplot2: This is used for making complex plots from data in a dataframe. ii) dplyr: It helps in solving the most common data manipulation challenges. iii) tidyr: This tool is used to tidy your dataset; Storing it in a consistent form that matches the semantics of the dataset with the way it is stored.
Conclusion
Exploratory Data Analysis (EDA) forms the foundation of data science, offering insights and guiding informed decision-making. EDA empowers data scientists to uncover hidden truths and steer projects toward success. Always ensure to perform thorough EDA for effective model performance.
以上がデータを理解する: 探索的データ分析の基礎。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。