Maison >développement back-end >Tutoriel Python >Comment puis-je lire et écrire correctement des fichiers Unicode (UTF-8) en Python ?
E/S de fichier Unicode (UTF-8) en Python
En Python, la gestion du texte Unicode dans les fichiers implique des opérations d'encodage et de décodage. Cependant, comprendre ces concepts peut être difficile, comme en témoigne un problème courant :
Décoder la confusion :
Considérez le code suivant dans Python 2.4 :
<code class="python">ss = u'Capit\xe1n' ss8 = ss.encode('utf8') print(ss, ss8)</code>
Ce code génère :
Capit\xe1n b'Capit\xc3\xa1n'
Le caractère a-aigu (á) est représenté différemment en Unicode (u'Capitxe1n') et en UTF-8 (ss8 = 'Capitxc3xa1n'). Lors de l'impression de ss8, Python utilise par défaut une représentation ASCII, d'où la séquence xc3xa1n.
L'ouverture du fichier 'f1' en mode écriture et l'écriture de ss8 entraîne l'écriture de 'Capitxc3xa1nn' dans le fichier. À l'inverse, lors de l'écriture de ss dans un autre fichier « f2 », Python tente d'interpréter le caractère a-aigu comme une séquence d'échappement, ce qui donne « Capitxc3xa1nn ».
Solution de décodage :
Pour résoudre cette confusion, spécifiez explicitement l'encodage lors de l'ouverture du fichier. Dans Python 2.6 et versions ultérieures, la fonction io.open peut être utilisée :
<code class="python">import io f = io.open("test", mode="r", encoding="utf-8")</code>
Cette approche garantit que le fichier est lu et écrit en UTF-8, éliminant ainsi le besoin d'encodage et de décodage manuels. Dans Python 3.x, la fonction io.open est un alias pour la fonction open intégrée, qui prend également en charge l'argument d'encodage.
Alternativement, le module codecs peut être utilisé :
<code class="python">import codecs f = codecs.open("test", "r", "utf-8")</code>
Il est important de noter que le mélange des méthodes read() et readline() peut entraîner des problèmes lors de l'utilisation de codecs.open.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!