Maison >développement back-end >Tutoriel Python >Comment faire de la visualisation et de l'exploration de données en Python

Comment faire de la visualisation et de l'exploration de données en Python

WBOY
WBOYoriginal
2023-10-21 08:58:461120parcourir

Comment faire de la visualisation et de lexploration de données en Python

Comment effectuer la visualisation et l'exploration des données en Python

La visualisation et l'exploration des données sont l'un des aspects importants de l'analyse des données. Avec l'aide de diverses bibliothèques et outils puissants en Python, nous pouvons facilement effectuer la visualisation et l'exploration des données. Cet article présentera les bibliothèques et techniques de visualisation de données couramment utilisées en Python et donnera des exemples de code spécifiques.

  1. Introduction
    La visualisation de données est une méthode d'affichage de données abstraites de manière intuitive et facile à comprendre. Grâce à la visualisation, nous pouvons mieux comprendre la distribution, les relations et les caractéristiques des données. Il existe de nombreuses bibliothèques et outils de visualisation de données en Python, tels que Matplotlib, Seaborn, Plotly, etc.
  2. Préparation des données
    Avant de faire de la visualisation de données, vous devez d'abord préparer les données à analyser. Cet article prend l'ensemble de données Iris comme exemple. L'ensemble de données Iris est un ensemble de données classique de la bibliothèque d'apprentissage automatique UCI. Il contient 150 échantillons de trois variétés de fleurs d'iris (Setosa, Versicolor et Virginica). les caractéristiques (longueur des sépales, largeur des sépales, longueur des pétales, largeur des pétales) sont incluses.

Tout d'abord, vous devez installer la bibliothèque pandas pour le traitement et l'analyse des données. Ensuite, utilisez le code suivant pour lire l'ensemble de données Iris et préparer une visualisation simple des données :

importer des pandas en tant que pd

Lire l'ensemble de données Iris

iris_data = pd.read_csv('iris.csv')

Afficher le ensemble de données Les premières lignes

print(iris_data.head())

Afficher les informations de base de l'ensemble de données

print(iris_data.info())

  1. Visualisation des données univariées
    La visualisation des données univariées fait référence à la distribution d'une visualisation à variable unique. Les méthodes couramment utilisées incluent les histogrammes, les histogrammes et les boxplots.

En prenant la longueur des sépales comme exemple, l'exemple de code pour utiliser la bibliothèque Matplotlib pour dessiner un histogramme est le suivant :

importer matplotlib.pyplot en tant que plt

Dessiner un histogramme

plt.bar(iris_data['Species' ], iris_data['Sepal length'])
plt.xlabel('Species') # Définir l'étiquette de l'axe x
plt.ylabel('Sepal length') # Définir l'étiquette de l'axe y
plt.title('Distribution de la longueur des sépales') # Définissez le titre du graphique
plt.show()

De plus, vous pouvez également utiliser la bibliothèque Seaborn pour dessiner des histogrammes et des boîtes à moustaches. Voici un exemple de code pour dessiner un histogramme :

importer seaborn en tant que sns

Tracer un histogramme

sns.histplot(data=iris_data, x='Sepal length', kde=True)
plt.xlabel('Sepal length' ) # Définissez l'étiquette de l'axe x
plt.ylabel('Count') # Définissez l'étiquette de l'axe y
plt.title('Distribution of Sepal length') # Définissez le titre du graphique
plt.show()

  1. Visualisation de données à double variable
    La visualisation de données bivariées fait référence à la visualisation de la relation entre deux variables. Les méthodes couramment utilisées incluent les nuages ​​de points et les cartes thermiques.

En prenant comme exemple la longueur des sépales et la longueur des pétales, l'exemple de code pour utiliser la bibliothèque Matplotlib pour dessiner un nuage de points est le suivant :

Dessinez un nuage de points

plt.scatter(iris_data['Sepal length'], iris_data['Petal length' ])
plt.xlabel('Sepal length') # Définir l'étiquette de l'axe x
plt.ylabel('Petal length') # Définir l'étiquette de l'axe y
plt.title('Relation between Longueur des sépales et longueur des pétales') # Définissez le titre du graphique
plt.show()

De plus, vous pouvez également utiliser la bibliothèque Seaborn pour dessiner une carte thermique afin de montrer la corrélation entre les variables. Voici un exemple de code pour dessiner une carte thermique :

Calculez la matrice des coefficients de corrélation entre les variables

correlation_matrix = iris_data[['Longueur des sépales', 'Largeur des sépales', 'Longueur des pétales', 'Largeur des pétales']]. corr( )

Dessiner une carte thermique

sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Matrix')
plt.show()

  1. Visualisation de données multivariables
    Multivariable La visualisation des données fait référence à la visualisation de la relation entre plusieurs variables. Les méthodes couramment utilisées incluent les matrices de dispersion et les tracés de coordonnées parallèles.

En prenant les quatre fonctionnalités de l'ensemble de données Iris comme exemple, l'exemple de code d'utilisation de la bibliothèque Seaborn pour dessiner la matrice de dispersion est le suivant :

Dessinez la matrice de dispersion

sns.pairplot(iris_data, hue ='Species')
plt.show ()

De plus, vous pouvez également utiliser la bibliothèque Plotly pour dessiner des tracés de coordonnées parallèles. Voici un exemple de code pour dessiner des tracés de coordonnées parallèles :

importer plotly.express en tant que px

.

Dessiner des tracés de coordonnées parallèles

fig = px.parallel_coordonnées(iris_data, color='Species')
fig.show()

Résumé
Cet article présente les méthodes de visualisation et d'exploration des données en Python et donne des exemples de code spécifiques. Grâce à la visualisation et à l'exploration des données, nous pouvons mieux comprendre la distribution, les relations et les caractéristiques des données, fournissant ainsi une base et des conseils pour l'analyse et la modélisation ultérieures des données. Dans les applications pratiques, des méthodes et technologies de visualisation appropriées peuvent également être sélectionnées en fonction de besoins spécifiques et des caractéristiques des données pour explorer davantage la valeur des données.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn