Maison >développement back-end >Tutoriel Python >Manipulation des données des fichiers CSV à l'aide de pandas : étapes et astuces

Manipulation des données des fichiers CSV à l'aide de pandas : étapes et astuces

王林
王林original
2024-01-10 11:54:351391parcourir

Manipulation des données des fichiers CSV à laide de pandas : étapes et astuces

Étapes et techniques d'utilisation des pandas pour lire des fichiers CSV à des fins de manipulation de données

Introduction :
Dans l'analyse et le traitement des données, il est souvent nécessaire de lire les données des fichiers CSV et d'effectuer d'autres opérations et analyses. pandas est une puissante bibliothèque Python qui fournit un ensemble d'outils pour le traitement et l'analyse des données, facilitant le traitement et la manipulation des fichiers CSV. Cet article présentera les étapes et les techniques de lecture de fichiers CSV basés sur des pandas et fournira des exemples de code spécifiques.

1. Importer la bibliothèque pandas
Avant d'utiliser la bibliothèque pandas, vous devez d'abord importer la bibliothèque. Nous pouvons y parvenir grâce au code suivant :

importer des pandas en tant que pd

2. Lecture de fichiers CSV
La lecture de fichiers CSV est une fonction importante des pandas. pandas fournit la fonction read_csv(), qui peut lire un fichier CSV dans un objet DataFrame pour faciliter les opérations et analyses ultérieures des données. Voici un exemple de code de base pour lire un fichier CSV :

data = pd.read_csv('file.csv')

Dans le code ci-dessus, 'file.csv' est le chemin d'accès au fichier CSV que vous souhaitez lire . Après lecture, les données seront stockées dans un objet DataFrame nommé data.

3. Afficher les données
Après avoir lu le fichier CSV, nous pouvons utiliser la fonction head() pour afficher les premières lignes des données. Ceci est très utile pour comprendre la structure des données et la nécessité de les nettoyer. Voici un exemple de code pour afficher les données :

print(data.head())

Ce code affichera les cinq premières lignes de données dans data.

4. Traitement et exploitation des données
pandas offre une multitude de fonctions et de méthodes pour traiter et exploiter les données. Plusieurs techniques de traitement de données couramment utilisées seront présentées ci-dessous.

4.1 Filtrage des données
Nous pouvons utiliser la fonction de filtrage conditionnel fournie par les pandas pour filtrer rapidement les données dont nous avons besoin. Par exemple, si l'on veut retrouver les données dont la "ville" est "Beijing" dans data, on peut utiliser le code suivant :

filtered_data = data[data['city'] == 'Beijing']

Dans le ci-dessus le code, data[' City'] == 'Beijing' renvoie une série de valeurs booléennes, indiquant si chaque ligne de données remplit les conditions. Ensuite, nous utilisons cette série booléenne comme index pour filtrer les données qui remplissent les conditions et les stocker dans filtered_data.

4.2 Tri des données
pandas fournit la fonction sort_values() pour trier les données. Ce qui suit est un exemple de code pour trier les données par ordre décroissant selon la colonne « ventes » :

sorted_data = data.sort_values(by='sales', ascending=False)

Le code ci-dessus triera les données selon le Colonne "ventes" Triez par ordre décroissant et stockez les résultats triés dans sorted_data.

4.3 Regroupement et agrégation de données
pandas fournit la fonction groupby() et la fonction agg(), qui peuvent facilement implémenter des opérations de regroupement et d'agrégation de données. Voici un exemple de code pour regrouper les données par colonne « Ville » et calculer les ventes totales de chaque ville :

grouped_data = data.groupby('City').agg({'Sales':'sum'})

Le code ci-dessus regroupera les données par colonne "Ville" et utilisera la fonction agg() pour calculer les ventes totales de chaque groupe (ville). Les résultats seront stockés dans grouped_data.

5. Sortie des données
Après le traitement des données, nous pouvons les exporter vers un fichier CSV ou un autre format de fichier. Utilisez la fonction to_csv() de pandas pour générer l'objet DataFrame sous forme de fichier CSV. Voici un exemple de code qui génère des données groupées sous forme de fichier CSV :

grouped_data.to_csv('grouped_data.csv')

Le code ci-dessus génère des données groupées sous la forme d'un fichier CSV nommé 'grouped_data.csv'.

Conclusion :
Cet article présente les étapes de base et les techniques courantes d'utilisation des pandas pour lire des fichiers CSV à des fins de manipulation de données, et fournit des exemples de code spécifiques. En maîtrisant ces compétences, vous pouvez facilement lire et traiter des fichiers CSV et effectuer rapidement des analyses de données et des opérations sur les données. L'utilisation de la bibliothèque pandas peut considérablement améliorer l'efficacité du traitement des données, rendant le travail d'analyse des données plus pratique et plus efficace.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn