소개
데이터 과학자이자 데이터 분석가로서 이는 반드시 수행해야 할 매우 중요하고 결정적인 초기 단계입니다. 데이터 수집 후 데이터는 원시 형식이며 처리되지 않은 사실이므로 데이터 과학자, 분석가 또는 다른 사람은 해당 데이터의 구조와 내용을 이해할 수 없습니다. 이것이 바로 EDA가 들어오는 곳입니다. 데이터를 분석하고 시각화하여 주요 특성을 이해하고 패턴을 발견하며 변수 간의 관계를 식별합니다.
데이터를 이해하려면 데이터의 예상 품질과 특성을 이해해야 합니다. 데이터에 대해 갖고 있는 지식, 데이터가 충족할 요구 사항, 그것이 바로 콘텐츠이자 창작물입니다. 이제 데이터를 정보로 변환하는 방법을 이해하기 위해 EDA에 대해 더 자세히 살펴보겠습니다. 정보는 가공, 정리, 해석, 구조화된 데이터입니다.
탐색적 데이터 분석
위에서 정의한 것처럼 EDA는 데이터의 주요 특성을 이해하고, 패턴을 찾아내고, 변수 간의 관계를 식별하기 위해 데이터를 분석하고 시각화하는 것을 의미합니다. 필요한 답변을 얻기 위해 데이터 소스를 가장 잘 조작하는 방법을 결정하는 데 도움이 되므로 데이터 과학자가 패턴을 발견하고, 이상 현상을 발견하고, 가설 또는 가정을 테스트하는 것이 더 쉬워집니다. 이는 데이터 분석의 중요한 첫 단계이며, 복잡한 데이터 세트를 이해하고 해석하기 위한 기초입니다.
EDA 종류
이는 탐색적 데이터 분석 프로세스에서 사용되는 다양한 방법과 접근 방식입니다. EDA의 세 가지 주요 유형은 다음과 같습니다.
일변량 분석: 이는 데이터를 분석하는 데 사용할 수 있는 가장 간단한 형식으로, 데이터 세트의 각 변수를 탐색합니다. 값의 범위와 값의 중심 경향을 살펴보는 작업이 포함됩니다. 반응 패턴을 설명하며, 각 변수는 그 자체로 예를 들어 회사 직원의 연령을 조사합니다.
이변량 분석: 이 분석에는 두 가지 변수가 관찰됩니다. 이는 두 변수 사이에 통계적 연관성이 있는지, 그렇다면 그 연관성이 얼마나 강한지 확인하는 것을 목표로 합니다. 이변량을 통해 연구자들은 두 변수 사이의 관계를 살펴볼 수 있습니다. 이 분석을 사용하기 전에 이것이 왜 중요한지 이해해야 합니다.
Bivariate analysis helps identify trends and patterns Helps identify cause and effect relationships. Helps researchers to make predictions. It also inform decision-making.
이변량 분석에 사용되는 기술에는 산점도, 상관관계, 회귀, 카이제곱 검정, t-검정, 두 변수의 관계를 확인하는 데 사용할 수 있는 분산 분석 등이 있습니다.
다변량 분석: 여기에는 각 실험 단위에 대해 여러 측정이 이루어지고 다변량 측정 간의 관계와 구조가 중요한 실험에 대한 통계적 연구가 포함됩니다. 실험의 이해. 예를 들어, 사람이 하루에 인스타그램을 몇 시간이나 보내는지.
기술에는 의존 기법과 상호 의존 기법이 있습니다.
EDA의 필수 요소
아. 데이터 수집: 데이터를 다루는 첫 번째 단계는 먼저 원하는 데이터를 확보하는 것입니다. 웹 스크래핑이나 Kaggle과 같은 플랫폼에서 데이터세트를 다운로드하는 등의 방법을 사용하여 작업 중인 주제에 따라 다양한 소스에서 데이터가 수집됩니다.
ㄴ. 데이터 이해: 청소를 진행하기 전에 먼저 수집한 데이터를 이해해야 합니다. 작업할 행과 열의 수, 각 열의 정보, 데이터의 특성, 데이터 유형 등을 이해해 보세요.
ㄷ. 데이터 정리: 이 단계에는 데이터 내의 오류, 불일치, 중복 또는 불완전한 항목을 식별하고 해결하는 작업이 포함됩니다. 이 단계의 주요 목표는 데이터의 품질과 유용성을 향상시켜 보다 신뢰할 수 있고 정확한 결과를 얻는 것입니다. 데이터 정리에는 여러 단계가 포함됩니다.
데이터를 정리하는 방법;
i)Handling missing values: by imputing them using mean, mode, median of the column, fill with a constant, forward-fill, backward-fill, interpolation or dropping them using the dropna() function. ii)Detecting outliers: you can detect outliers using the interquartile range, visualizing, using Z-Score or using One-Class SVM. iii)Handle duplicates: Drop duplicate records iv)Fix structural errors: Address issues with the layout and format of your data such as date formats or misaligned fields. v)Remove unnecessary values: Your dataset might contain irrelevant or redundant information that is unnecessary for your analysis. You can identify and remove any records or fields that won't contribute to the insights you are trying to derive.
디. 요약 통계. 이 단계에서는 Pandas 또는 numpy의 설명 방법을 사용하여 평균, 중앙값, 모드, 표준 편차, 최소값, 최대값을 포함하여 데이터세트의 중심 경향과 산포에 대한 빠른 개요를 제공합니다. 숫자 기능의 경우. 범주형 기능의 경우 그래프와 실제 요약 통계를 사용할 수 있습니다.
e. 데이터 시각화: 대량의 복잡한 정량적, 정성적 데이터를 전달하기 쉽고 이해하기 쉬운 그래픽 또는 시각적 표현으로 디자인하고 제작하는 관행입니다. matplotlib, seaborn 또는 tableau와 같은 도구를 사용하여 선, 막대, 분산형 및 상자 그림을 사용하여 데이터세트의 추세와 패턴을 식별해 보세요.
f. Data relationship. Identify the relationship between your data by performing correlation analysis to examine correlations between variables.
g. Test Hypothesis: Conduct tests like t-tests, chi-square tests, and ANOVA to determine statistical significance.
h. Communicate Your findings and Insights: This is the final step in carrying out EDA. This includes summarizing your evaluation, highlighting fundamental discoveries, and imparting your outcomes cleanly.
The next step after conducting Exploratory Data Analysis (EDA) in a data science project is feature engineering. This process involves transforming your features into a format that can be effectively understood and utilized by your model. Feature engineering builds on the insights gained from EDA to enhance the data, ensuring that it is in the best possible form for model training and performance. Let’s explore feature engineering in simple terms.
Feature Engineering.
This is the process of selecting, manipulating and transforming raw data into features that can be used in model creation. This process involves 4 main steps;
Feature Creation:- Create new features from the existing features, using your domain knowledge or observing patterns in the data. This step helps to improve the model performance.
Feature Transformation: This involves the transformation of your features into more suitable representation for your model. This is done to ensure that the model can effectively learn from the data. Transforming data involves 4 types;
i) Normalization: Changing the shape of your distribution data. Map data to a bounded range using methods like Min-Max Normalization or Z-score Normalization. ii) Scaling. Rescale your features to have a similar scale to make sure the model considers all features equally using methods like Min-Max Scaling, Standardization and MaxAbs Scaling. iii) Encoding. Apply encoding to your categorical features to transform them to numerical features using methods like label encoding, One-hot encoding, Ordinal encoding or any other encoding according to the structure of your categorical columns. iv) Transformation. Transform the features using mathematical operations to change the distribution of features for example logarithmic, square root.
Feature Extraction: Extract new features from the existing attributes. It is concerned with reducing the number of features in the model, such as using Principal Component Analysis(PCA).
Feature Selection: Identify and select the most relevant features for further analysis. Use filter method( Evaluate features based on statistical metrics and select the most relevant ones), wrapper method(Use machine learning models to evaluate feature subsets and select the best combination based on model performance) or embedded method(Perform feature selection as part of model training e.g regularization techniques)
Tools Used for Performing EDA
-Let's look at the tools we can use to perform our analysis efficiently.
Python libraries
i) Pandas: Provides extensive functions for data manipulation and analysis. ii) Matplotlib: Used for creating static, interactive, and animated visualizations. iii) Seaborn: Built on top of Matplotlib, providing a high-level interface for drawing attractive and informative capabilities. iv) Plotly: Used for making interactive plots and offers more sophisticated visualization capabilities.
R Packages
i) ggplot2: This is used for making complex plots from data in a dataframe. ii) dplyr: It helps in solving the most common data manipulation challenges. iii) tidyr: This tool is used to tidy your dataset; Storing it in a consistent form that matches the semantics of the dataset with the way it is stored.
Conclusion
Exploratory Data Analysis (EDA) forms the foundation of data science, offering insights and guiding informed decision-making. EDA empowers data scientists to uncover hidden truths and steer projects toward success. Always ensure to perform thorough EDA for effective model performance.
위 내용은 데이터 이해: 탐색적 데이터 분석의 필수 요소.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!