Maison  >  Article  >  développement back-end  >  Guide de démarrage rapide pour lire des fichiers txt avec des pandas

Guide de démarrage rapide pour lire des fichiers txt avec des pandas

WBOY
WBOYoriginal
2024-01-19 08:46:141327parcourir

Guide de démarrage rapide pour lire des fichiers txt avec des pandas

Pandas est une bibliothèque de traitement de données qui peut être utilisée pour lire, manipuler et analyser des données. Dans cet article, nous présenterons comment lire des fichiers txt à l'aide de Pandas. Cet article est destiné aux débutants qui souhaitent apprendre les Pandas.

  1. Importez la bibliothèque Pandas

Tout d'abord, importez la bibliothèque Pandas en Python.

import pandas as pd
  1. Lire les fichiers txt

Avant de lire les fichiers txt, nous devons comprendre certains paramètres courants des fichiers txt :

  • délimiteur : délimiteur
  • en-tête : s'il y a un en-tête
  • noms : sinon en-tête de tableau, vous pouvez spécifier manuellement le nom de la colonne
  • index_col : définir une certaine colonne comme colonne d'index, non définie par défaut
  • skiprows : ignorer le nombre de lignes précédent
  • sep : spécifier le séparateur

Exemple : supposons que nous ayons un fichier nommé "data.txt". Tout d’abord, nous devons lire le fichier txt à l’aide de la fonction read_table(). read_table() fournit un moyen très flexible de lire des données texte.

data = pd.read_table('data.txt', delimiter=',', header=0)
  1. Afficher les données lues

Vous pouvez utiliser la fonction .head() pour afficher les premières lignes de données lues. Les 5 premières lignes de données sont affichées par défaut.

print(data.head())
  1. Nettoyage des données

Après avoir lu les données, nous devons y effectuer le nettoyage et la transformation nécessaires. Cela inclut généralement la suppression des colonnes inutiles, la suppression des valeurs manquantes, le renommage des noms de colonnes, la conversion des types de données, etc. Voici quelques méthodes courantes de nettoyage des données.

  • Supprimer les colonnes inutiles :
data = data.drop(columns=['ID'])
  • Supprimer les valeurs manquantes :
data.dropna(inplace=True)
  • Renommer les noms de colonnes :
data = data.rename(columns={'OldName': 'NewName'})
  • Convertir les types de données :
data['ColumnName'] = data['ColumnName'].astype(str)
data['ColumnName'] = data['ColumnName'].astype(int)
  1. Analyse des données

Après le nettoyage des données, nous pouvons démarrer l’analyse des données. Pandas fournit des méthodes riches pour traiter les données.

Par exemple, pour calculer la somme d'une colonne :

total = data['ColumnName'].sum()
print(total)

Dans Pandas, vous pouvez regrouper vos données à l'aide de la fonction groupby(). Par exemple, disons que nous souhaitons regrouper les données par nom et calculer la moyenne après le regroupement :

grouped_data = data.groupby(['Name']).mean()
print(grouped_data.head())
  1. Visualisation des données

Enfin, grâce à la visualisation des données, nous pouvons comprendre plus clairement les tendances et les modèles des données.

import matplotlib.pyplot as plt

plt.bar(data['ColumnName'], data['Count'])
plt.xlabel('ColumnName')
plt.ylabel('Count')
plt.title('ColumnName vs Count')
plt.show()

Pour résumer, Pandas offre un moyen pratique et rapide de lire, nettoyer et analyser les données. Grâce à cet article, les lecteurs peuvent apprendre comment utiliser Pandas pour lire des fichiers txt et comment effectuer le nettoyage, l'analyse et la visualisation des données.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn