Maison >développement back-end >Tutoriel Python >Comprendre vos données : les éléments essentiels de l'analyse exploratoire des données

Comprendre vos données : les éléments essentiels de l'analyse exploratoire des données

WBOY
WBOYoriginal
2024-08-10 07:03:02604parcourir

L'analyse exploratoire des données est une approche populaire pour analyser des ensembles de données et présenter visuellement vos résultats. Il permet de fournir un maximum d’informations sur l’ensemble et la structure des données. Cela identifie l'analyse exploratoire des données comme une technique permettant de comprendre les différents aspects des données.
Pour mieux comprendre les données, il faut s'assurer qu'elles sont propres, qu'elles ne comportent pas de redondance, de valeurs manquantes ou même de valeurs NULL.

Types d'analyse exploratoire des données

Il en existe trois types principaux :
Univarié : c'est ici que vous regardez une variable (colonne) à tout moment. Il aide à mieux comprendre la nature de la variable et est considéré comme le type d’EDA le plus simple.

Bivarié : C'est ici que l'on regarde deux variables ensemble. Cela aide à comprendre la relation entre les variables A et B, qu'elles soient indépendantes ou corrélées.

Multivarié : Cela implique d'examiner trois variables ou plus à la fois. Il est identifié comme une bivariée « avancée ».

Méthodes

Graphique : Cela implique d'explorer les données à travers des représentations visuelles telles que des graphiques et des diagrammes. Les visualisations courantes incluent les diagrammes en boîte, les graphiques à barres, les nuages ​​de points et les cartes thermiques.

Non graphique : Cela se fait grâce à des techniques statistiques. Les mesures utilisées incluent la moyenne, la médiane, le mode, l'écart type et les percentiles.

Outils d'analyse exploratoire des données

Certains des outils les plus couramment utilisés pour l'EDA incluent
Python : Un langage de programmation orienté objet utilisé pour connecter les composants existants et identifier les valeurs manquantes

R : Un langage de programmation open source utilisé en calcul statistique

Étapes

  1. Comprendre les données - Voyez avec quel type de données vous travaillez ; nombre de colonnes, de lignes et de types de données.
  2. Nettoyer les données – cela implique de travailler sur les irrégularités telles que les valeurs manquantes, les lignes manquantes et les valeurs NULL.
  3. Analyse – Analyser la relation entre les variables.

Exemple d'EDA à l'aide de Python

L'ensemble de données utilisé pour cet exemple est l'ensemble de données Iris - disponible ici

  1. Chargez les données à l'aide de la bibliothèque pandas.
df = pd.read_csv(io.BytesIO(uploaded['Iris.csv']))
df.head()

Understanding Your Data: The Essentials of Exploratory Data Analysis

  1. Identifier les types de données df.info()

Understanding Your Data: The Essentials of Exploratory Data Analysis

  1. Nettoyer les données, par ex. vérifier les valeurs NULL df.isnull().sum()

Understanding Your Data: The Essentials of Exploratory Data Analysis

  1. Analyse non graphique des données pour donner des informations variables df.describe()

Understanding Your Data: The Essentials of Exploratory Data Analysis

  1. Analyse graphique pour montrer la corrélation ou l'indépendance des variables
df.plot(kind='scatter', x='SepalLengthCm', y='SepalWidthCm') ;
plt.show()

Understanding Your Data: The Essentials of Exploratory Data Analysis

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Article précédent:Spectre PyTorchArticle suivant:Spectre PyTorch