Maison >développement back-end >Tutoriel Python >Comment puis-je corriger une UnicodeDecodeError lors de la lecture d'un fichier CSV dans Pandas ?

Comment puis-je corriger une UnicodeDecodeError lors de la lecture d'un fichier CSV dans Pandas ?

Mary-Kate Olsen
Mary-Kate Olsenoriginal
2024-12-15 09:00:23262parcourir

How Can I Fix a UnicodeDecodeError When Reading a CSV File in Pandas?

UnicodeDecodeError lors de la lecture d'un fichier CSV dans Pandas

Lors du traitement d'un grand nombre de fichiers similaires, rencontrer une UnicodeDecodeError peut être frustrant. Cette erreur particulière, provenant de la méthode read_csv de Pandas, indique une incapacité à décoder un octet dans le fichier à l'aide de l'encodage UTF-8.

Pour résoudre ce problème, Pandas fournit l'option d'encodage, vous permettant de spécifier l'encodage format du fichier. Les encodages couramment utilisés incluent :

  • UTF-8 : encoding="utf-8"
  • ISO-8859-1 : encoding="ISO-8859-1" (équivalent à " latin" ou "cp1252")

Pour la majorité des fichiers, l'utilisation de l'encodage UTF-8 suffire.

Exemple de code :

import pandas as pd

filepath = 'filepath.csv'
data = pd.read_csv(filepath, encoding="utf-8")

Si la détection de l'encodage du fichier est nécessaire, envisagez d'utiliser des outils comme enca, file -i (Linux) ou file - Je (macOS). L'encodage peut ensuite être spécifié en conséquence.

En utilisant l'option d'encodage, vous pouvez garantir un décodage correct des fichiers CSV et empêcher des erreurs inattendues d'interrompre votre processus d'importation de données.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn