Maison >développement back-end >Tutoriel Python >Comprendre vos données : les éléments essentiels de l'analyse exploratoire des données
L'analyse exploratoire des données est une approche populaire pour analyser des ensembles de données et présenter visuellement vos résultats. Il permet de fournir un maximum d’informations sur l’ensemble et la structure des données. Cela identifie l'analyse exploratoire des données comme une technique permettant de comprendre les différents aspects des données.
Pour mieux comprendre les données, il faut s'assurer qu'elles sont propres, qu'elles ne comportent pas de redondance, de valeurs manquantes ou même de valeurs NULL.
Il en existe trois types principaux :
Univarié : c'est ici que vous regardez une variable (colonne) à tout moment. Il aide à mieux comprendre la nature de la variable et est considéré comme le type d’EDA le plus simple.
Bivarié : C'est ici que l'on regarde deux variables ensemble. Cela aide à comprendre la relation entre les variables A et B, qu'elles soient indépendantes ou corrélées.
Multivarié : Cela implique d'examiner trois variables ou plus à la fois. Il est identifié comme une bivariée « avancée ».
Graphique : Cela implique d'explorer les données à travers des représentations visuelles telles que des graphiques et des diagrammes. Les visualisations courantes incluent les diagrammes en boîte, les graphiques à barres, les nuages de points et les cartes thermiques.
Non graphique : Cela se fait grâce à des techniques statistiques. Les mesures utilisées incluent la moyenne, la médiane, le mode, l'écart type et les percentiles.
Certains des outils les plus couramment utilisés pour l'EDA incluent
Python : Un langage de programmation orienté objet utilisé pour connecter les composants existants et identifier les valeurs manquantes
R : Un langage de programmation open source utilisé en calcul statistique
L'ensemble de données utilisé pour cet exemple est l'ensemble de données Iris - disponible ici
df = pd.read_csv(io.BytesIO(uploaded['Iris.csv'])) df.head()
df.plot(kind='scatter', x='SepalLengthCm', y='SepalWidthCm') ; plt.show()
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!