Maison >développement back-end >Tutoriel Python >Analyse approfondie du problème tronqué de Python en chinois

Analyse approfondie du problème tronqué de Python en chinois

高洛峰
高洛峰original
2017-01-13 16:07:131275parcourir

Dans cet article, 'Ha' est utilisé comme exemple pour expliquer tous les problèmes. Les différents encodages de "Ha" sont les suivants :
1 UNICODE (UTF8-16), C854 ; . UTF-8, E59388 ;
3. GBK,B9FE.
1. str et unicode en python
L'encodage chinois en python a toujours été un très gros problème, et des exceptions de conversion d'encodage sont souvent levées. Que sont exactement str et unicode en python ?
Lorsque Unicode est mentionné en python, il fait généralement référence à des objets Unicode. Par exemple, l'objet Unicode de 'haha' est
u'u54c8u54c8'
Et str est un tableau d'octets. est le format de stockage après encodage des objets Unicode (peut être utf-8, gbk, cp936, GB2312). Ici, il s'agit simplement d'un flux d'octets, sans autre signification. Si vous souhaitez rendre significatif le contenu affiché par ce flux d'octets, vous devez utiliser le format de codage, le décodage et l'affichage corrects.
Par exemple :

python 中文乱码问题深入分析

L'objet Unicode est codé dans un str-s_utf8 codé en utf-8. s_utf8 est un tableau d'octets qui stocke 'xe5x93x88xe5x93x88', mais c'est le cas. juste un tableau d'octets Si vous souhaitez l'afficher sous la forme haha ​​​​via l'instruction print, alors vous serez déçu.

Étant donné que l'implémentation de l'instruction print transmet le contenu de sortie au système d'exploitation, le système d'exploitation encodera le flux d'octets d'entrée en fonction de l'encodage du système, ce qui explique pourquoi la chaîne au format UTF-8 "Haha" , le résultat est "鍝獚搐", car "xe5x93x88xe5x93x88" est interprété par GB2312 et il est affiché comme "鍝鍚搱". Permettez-moi de souligner à nouveau que str enregistre un tableau d'octets, qui n'est qu'un certain format de stockage d'encodage. Quant au format dans lequel il est généré dans un fichier ou imprimé, cela dépend entièrement de la façon dont il est décodé par l'encodage de décodage.

Voici une petite explication supplémentaire sur l'impression : lorsqu'un objet Unicode est passé à l'impression, l'objet Unicode sera converti en interne dans l'encodage local par défaut (ce n'est qu'une supposition personnelle)

2. Conversion des objets str et unicode

La conversion des objets str et unicode est réalisée par encodage et décodage. L'utilisation spécifique est la suivante :

python 中文乱码问题深入分析

Convertir. GBK 'haha' en Unicode, puis en UTF8

3. Setdefaultencoding

python 中文乱码问题深入分析

Comme indiqué dans le code de démonstration ci-dessus :


Lorsque s (string gbk) est directement encodé en utf-8, une exception sera levée, mais en appelant le code suivant :

import sys

reload( sys)

sys.setdefaultencoding('gbk')

et la conversion peut alors réussir. Pourquoi ? Dans le processus d'encodage et de décodage de str et unicode en Python, si une str est directement codée dans un autre encodage, str sera d'abord décodée en unicode, et l'encodage utilisé est l'encodage par défaut. Généralement, l'encodage par défaut est ancii, donc in. l'exemple ci-dessus Une erreur se produira lors de la première conversion dans le code. Après avoir défini le codage par défaut actuel sur 'gbk', il n'y aura aucune erreur.

Quant à reload(sys), comme Python2.5 supprimera la méthode sys.setdefaultencoding après l'initialisation, nous devons la recharger.

4. Manipuler des fichiers avec différents formats d'encodage

Créer un fichier test.txt Le format de fichier est ANSI et le contenu est :


abc chinois

Utilisez python pour lire

# coding=gbk

print open("Test.txt").read()

Résultat : abc chinois

Changez le format de fichier en UTF-8 :

Résultat : abc涓枃

Évidemment, le décodage est requis ici :

# coding=gbk

importer des codecs

print open("Test.txt").read().decode("utf-8")

Résultat : abc chinois

ci-dessus J'ai modifié le test.txt à l'aide d'Editplus, mais lorsque je l'ai modifié à l'aide du Bloc-notes intégré de Windows et que je l'ai enregistré au format UTF-8,

a signalé une erreur lors de l'exécution :

Traceback ( dernier appel le plus récent) :

Fichier "ChineseTest.py", ligne 3, dans

print open("Test.txt").read().decode("utf-8" )

UnicodeEncodeError : le codec 'gbk' ne peut pas encoder le caractère u'ufeff' en position 0 : séquence multi-octets illégale

Il s'avère que certains logiciels, tels que le bloc-notes, enregistrent un fichier encodé en UTF- 8 , trois caractères invisibles (0xEF 0xBB 0xBF, ou BOM) seront insérés au début du fichier.

Nous devons donc supprimer nous-mêmes ces caractères lors de la lecture. Le module codecs en python définit cette constante :

# coding=gbk

import codecs

data = open("Test.txt").read()

if data[:3] == codecs.BOM_UTF8:

data = data[3:]

print data.decode("utf-8")

Résultat : abc chinois

5 Le format d'encodage du fichier et le rôle de l'instruction d'encodage

Le fichier source Quel effet le format d'encodage a-t-il sur la déclaration des chaînes ? Ce problème me tracasse depuis longtemps, et maintenant j'ai enfin quelques indices. Le format d'encodage du fichier détermine le format d'encodage de la chaîne déclarée dans le fichier source, par exemple :

str = ' Haha'

print repr(str)

a. Si le format de fichier est utf-8, alors la valeur de str est : 'xe5x93x88xe5x93x88' (encodage utf-8 de haha)

b. Si le format de fichier est gbk, alors la valeur de str est : 'xb9xfexb9xfe' (haha gbk encodage)

Comme mentionné dans la première section, une chaîne en python n'est qu'un tableau d'octets, ainsi, lorsque a Lorsque la chaîne du cas b est sortie sur la console codée en gbk, elle sera affichée sous forme de caractères tronqués : 鍝矚搱; et lorsque la chaîne du cas b est sortie sur la console codée en utf-8, des caractères tronqués sera également affiché. Quel est le problème ? Non, peut-être que « xb9xfexb9xfe » est décodé et affiché en utilisant utf-8, donc il est vide. >_<

Après avoir parlé du format de fichier, parlons du rôle de l'instruction d'encodage. En haut de chaque fichier, une instruction comme #coding=gbk sera utilisée pour déclarer l'encodage, mais. cette déclaration à quoi ça sert ? Jusqu'à présent, je pense qu'il a trois fonctions :

déclare que l'encodage non-ascii apparaîtra dans le fichier source, généralement en chinois

en mode avancé dans l'IDE, l'EDI enregistrera votre format de fichier dans le format d'encodage que vous spécifiez.

Déterminer le format d'encodage utilisé pour décoder 'ha' en Unicode pour des déclarations comme u'ha' dans le code source est également un endroit déroutant :

#coding:gbk


ss = u'haha'

imprimer repr(ss)

imprimer 'ss:% s' % ss

Enregistrez ces codes dans un texte utf-8 et exécutez-le. Selon vous, que sera le résultat ? La première impression de chacun doit être que le résultat est :

u'u54c8u54c8'

ss : Haha

Mais le résultat réel est :

u'u935du581du6431 '

ss:鍝埚搱

Pourquoi cela se produit-il à ce moment-là, l'instruction d'encodage pose problème Lors de l'exécution de ss = u'haha', l'ensemble du processus peut être divisé en. les étapes suivantes :

1) Obtenez l'encodage de 'haha' : déterminé par le format d'encodage du fichier, qui est 'xe5x93x88xe5x93x88' (la forme d'encodage utf-8 de haha)

2) Lors de la conversion en encodage Unicode, lors de ce processus de conversion, le décodage de 'xe5x93x88xe5x93x88' n'est pas décodé avec utf-8, mais avec l'encodage GBK spécifié lors de la déclaration Encoding 'xe5x93x88xe5x93x88' selon GBK, et le résultat est "鍝.獟搐" , le codage Unicode de ces trois caractères est u'u935du581du6431', ce qui peut expliquer pourquoi print repr(ss) génère u'u935du581du6431'.

D'accord, c'est un peu déroutant, analysons l'exemple suivant :

#-*- coding:utf-8 -*-

ss = u'haha'

print repr(ss)

print 'ss:%s' % ss

Enregistrez cet exemple dans l'encodage GBK cette fois, et le résultat est :

UnicodeDecodeError : le codec 'utf8' ne peut pas décoder l'octet 0xb9 en position 0 : octet de code inattendu

Pourquoi y a-t-il une erreur de décodage utf8 ici ? Pensez à l'exemple précédent et vous comprendrez. Dans la première étape de conversion, comme l'encodage du fichier est GBK, l'encodage obtenu est 'haha', qui est l'encodage GBK 'xb9xfexb9xfe' lors de la deuxième étape, lors de la conversion. en Unicode, UTF8 sera utilisé pour décoder 'xb9xfexb9xfe', et si vous vérifiez la table de codage utf-8, vous constaterez qu'elle n'existe pas du tout dans la table de codage utf8 (pour une explication de UTF-8, veuillez vous référer à aux notes de codage des caractères : ASCII, UTF-8, UNICODE), il sera donc signalé l'erreur ci-dessus.


Pour une analyse plus approfondie des problèmes tronqués de python chinois et des articles connexes, veuillez faire attention au site Web PHP chinois !


Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn