Maison  >  Article  >  développement back-end  >  Comment puis-je lire et écrire correctement des fichiers Unicode (UTF-8) en Python ?

Comment puis-je lire et écrire correctement des fichiers Unicode (UTF-8) en Python ?

Susan Sarandon
Susan Sarandonoriginal
2024-11-05 02:35:02106parcourir

How Can I Read and Write Unicode (UTF-8) Files Correctly in Python?

E/S de fichier Unicode (UTF-8) en Python

En Python, la gestion du texte Unicode dans les fichiers implique des opérations d'encodage et de décodage. Cependant, comprendre ces concepts peut être difficile, comme en témoigne un problème courant :

Décoder la confusion :

Considérez le code suivant dans Python 2.4 :

<code class="python">ss = u'Capit\xe1n'
ss8 = ss.encode('utf8')
print(ss, ss8)</code>

Ce code génère :

Capit\xe1n b'Capit\xc3\xa1n'

Le caractère a-aigu (á) est représenté différemment en Unicode (u'Capitxe1n') et en UTF-8 (ss8 = 'Capitxc3xa1n'). Lors de l'impression de ss8, Python utilise par défaut une représentation ASCII, d'où la séquence xc3xa1n.

L'ouverture du fichier 'f1' en mode écriture et l'écriture de ss8 entraîne l'écriture de 'Capitxc3xa1nn' dans le fichier. À l'inverse, lors de l'écriture de ss dans un autre fichier « f2 », Python tente d'interpréter le caractère a-aigu comme une séquence d'échappement, ce qui donne « Capitxc3xa1nn ».

Solution de décodage :

Pour résoudre cette confusion, spécifiez explicitement l'encodage lors de l'ouverture du fichier. Dans Python 2.6 et versions ultérieures, la fonction io.open peut être utilisée :

<code class="python">import io
f = io.open("test", mode="r", encoding="utf-8")</code>

Cette approche garantit que le fichier est lu et écrit en UTF-8, éliminant ainsi le besoin d'encodage et de décodage manuels. Dans Python 3.x, la fonction io.open est un alias pour la fonction open intégrée, qui prend également en charge l'argument d'encodage.

Alternativement, le module codecs peut être utilisé :

<code class="python">import codecs
f = codecs.open("test", "r", "utf-8")</code>

Il est important de noter que le mélange des méthodes read() et readline() peut entraîner des problèmes lors de l'utilisation de codecs.open.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn