Analyse approfondie du problème tronqué de Python en chinois-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Analyse approfondie du problème tronqué de Python en chinois

高洛峰

Jan 13, 2017 pm 04:07 PM

Dans cet article, 'Ha' est utilisé comme exemple pour expliquer tous les problèmes. Les différents encodages de "Ha" sont les suivants :
1 UNICODE (UTF8-16), C854 ; . UTF-8, E59388 ;
3. GBK,B9FE.
1. str et unicode en python
L'encodage chinois en python a toujours été un très gros problème, et des exceptions de conversion d'encodage sont souvent levées. Que sont exactement str et unicode en python ?
Lorsque Unicode est mentionné en python, il fait généralement référence à des objets Unicode. Par exemple, l'objet Unicode de 'haha' est
u'u54c8u54c8'
Et str est un tableau d'octets. est le format de stockage après encodage des objets Unicode (peut être utf-8, gbk, cp936, GB2312). Ici, il s'agit simplement d'un flux d'octets, sans autre signification. Si vous souhaitez rendre significatif le contenu affiché par ce flux d'octets, vous devez utiliser le format de codage, le décodage et l'affichage corrects.
Par exemple :

python 中文乱码问题深入分析

L'objet Unicode est codé dans un str-s_utf8 codé en utf-8. s_utf8 est un tableau d'octets qui stocke 'xe5x93x88xe5x93x88', mais c'est le cas. juste un tableau d'octets Si vous souhaitez l'afficher sous la forme haha via l'instruction print, alors vous serez déçu.

Étant donné que l'implémentation de l'instruction print transmet le contenu de sortie au système d'exploitation, le système d'exploitation encodera le flux d'octets d'entrée en fonction de l'encodage du système, ce qui explique pourquoi la chaîne au format UTF-8 "Haha" , le résultat est "鍝獚搐", car "xe5x93x88xe5x93x88" est interprété par GB2312 et il est affiché comme "鍝鍚搱". Permettez-moi de souligner à nouveau que str enregistre un tableau d'octets, qui n'est qu'un certain format de stockage d'encodage. Quant au format dans lequel il est généré dans un fichier ou imprimé, cela dépend entièrement de la façon dont il est décodé par l'encodage de décodage.

Voici une petite explication supplémentaire sur l'impression : lorsqu'un objet Unicode est passé à l'impression, l'objet Unicode sera converti en interne dans l'encodage local par défaut (ce n'est qu'une supposition personnelle)

2. Conversion des objets str et unicode

La conversion des objets str et unicode est réalisée par encodage et décodage. L'utilisation spécifique est la suivante :

python 中文乱码问题深入分析

Convertir. GBK 'haha' en Unicode, puis en UTF8

3. Setdefaultencoding

python 中文乱码问题深入分析

Comme indiqué dans le code de démonstration ci-dessus :

Lorsque s (string gbk) est directement encodé en utf-8, une exception sera levée, mais en appelant le code suivant :

import sys

reload( sys)

sys.setdefaultencoding('gbk')

et la conversion peut alors réussir. Pourquoi ? Dans le processus d'encodage et de décodage de str et unicode en Python, si une str est directement codée dans un autre encodage, str sera d'abord décodée en unicode, et l'encodage utilisé est l'encodage par défaut. Généralement, l'encodage par défaut est ancii, donc in. l'exemple ci-dessus Une erreur se produira lors de la première conversion dans le code. Après avoir défini le codage par défaut actuel sur 'gbk', il n'y aura aucune erreur.

Quant à reload(sys), comme Python2.5 supprimera la méthode sys.setdefaultencoding après l'initialisation, nous devons la recharger.

4. Manipuler des fichiers avec différents formats d'encodage

Créer un fichier test.txt Le format de fichier est ANSI et le contenu est :

abc chinois

Utilisez python pour lire

# coding=gbk

print open("Test.txt").read()

Résultat : abc chinois

Changez le format de fichier en UTF-8 :

Résultat : abc涓枃

Évidemment, le décodage est requis ici :

# coding=gbk

importer des codecs

print open("Test.txt").read().decode("utf-8")

Résultat : abc chinois

ci-dessus J'ai modifié le test.txt à l'aide d'Editplus, mais lorsque je l'ai modifié à l'aide du Bloc-notes intégré de Windows et que je l'ai enregistré au format UTF-8,

a signalé une erreur lors de l'exécution :

Traceback ( dernier appel le plus récent) :

Fichier "ChineseTest.py", ligne 3, dans

print open("Test.txt").read().decode("utf-8" )

UnicodeEncodeError : le codec 'gbk' ne peut pas encoder le caractère u'ufeff' en position 0 : séquence multi-octets illégale

Il s'avère que certains logiciels, tels que le bloc-notes, enregistrent un fichier encodé en UTF- 8 , trois caractères invisibles (0xEF 0xBB 0xBF, ou BOM) seront insérés au début du fichier.

Nous devons donc supprimer nous-mêmes ces caractères lors de la lecture. Le module codecs en python définit cette constante :

# coding=gbk

import codecs

data = open("Test.txt").read()

if data[:3] == codecs.BOM_UTF8:

data = data[3:]

print data.decode("utf-8")

Résultat : abc chinois

5 Le format d'encodage du fichier et le rôle de l'instruction d'encodage

Le fichier source Quel effet le format d'encodage a-t-il sur la déclaration des chaînes ? Ce problème me tracasse depuis longtemps, et maintenant j'ai enfin quelques indices. Le format d'encodage du fichier détermine le format d'encodage de la chaîne déclarée dans le fichier source, par exemple :

str = ' Haha'

print repr(str)

a. Si le format de fichier est utf-8, alors la valeur de str est : 'xe5x93x88xe5x93x88' (encodage utf-8 de haha)

b. Si le format de fichier est gbk, alors la valeur de str est : 'xb9xfexb9xfe' (haha gbk encodage)

Comme mentionné dans la première section, une chaîne en python n'est qu'un tableau d'octets, ainsi, lorsque a Lorsque la chaîne du cas b est sortie sur la console codée en gbk, elle sera affichée sous forme de caractères tronqués : 鍝矚搱; et lorsque la chaîne du cas b est sortie sur la console codée en utf-8, des caractères tronqués sera également affiché. Quel est le problème ? Non, peut-être que « xb9xfexb9xfe » est décodé et affiché en utilisant utf-8, donc il est vide. >_

Après avoir parlé du format de fichier, parlons du rôle de l'instruction d'encodage. En haut de chaque fichier, une instruction comme #coding=gbk sera utilisée pour déclarer l'encodage, mais. cette déclaration à quoi ça sert ? Jusqu'à présent, je pense qu'il a trois fonctions :

déclare que l'encodage non-ascii apparaîtra dans le fichier source, généralement en chinois

en mode avancé dans l'IDE, l'EDI enregistrera votre format de fichier dans le format d'encodage que vous spécifiez.

Déterminer le format d'encodage utilisé pour décoder 'ha' en Unicode pour des déclarations comme u'ha' dans le code source est également un endroit déroutant :

#coding:gbk

ss = u'haha'

imprimer repr(ss)

imprimer 'ss:% s' % ss

Enregistrez ces codes dans un texte utf-8 et exécutez-le. Selon vous, que sera le résultat ? La première impression de chacun doit être que le résultat est :

u'u54c8u54c8'

ss : Haha

Mais le résultat réel est :

u'u935du581du6431 '

ss:鍝埚搱

Pourquoi cela se produit-il à ce moment-là, l'instruction d'encodage pose problème Lors de l'exécution de ss = u'haha', l'ensemble du processus peut être divisé en. les étapes suivantes :

1) Obtenez l'encodage de 'haha' : déterminé par le format d'encodage du fichier, qui est 'xe5x93x88xe5x93x88' (la forme d'encodage utf-8 de haha)

2) Lors de la conversion en encodage Unicode, lors de ce processus de conversion, le décodage de 'xe5x93x88xe5x93x88' n'est pas décodé avec utf-8, mais avec l'encodage GBK spécifié lors de la déclaration Encoding 'xe5x93x88xe5x93x88' selon GBK, et le résultat est "鍝.獟搐" , le codage Unicode de ces trois caractères est u'u935du581du6431', ce qui peut expliquer pourquoi print repr(ss) génère u'u935du581du6431'.

D'accord, c'est un peu déroutant, analysons l'exemple suivant :

#-*- coding:utf-8 -*-

ss = u'haha'

print repr(ss)

print 'ss:%s' % ss

Enregistrez cet exemple dans l'encodage GBK cette fois, et le résultat est :

UnicodeDecodeError : le codec 'utf8' ne peut pas décoder l'octet 0xb9 en position 0 : octet de code inattendu

Pourquoi y a-t-il une erreur de décodage utf8 ici ? Pensez à l'exemple précédent et vous comprendrez. Dans la première étape de conversion, comme l'encodage du fichier est GBK, l'encodage obtenu est 'haha', qui est l'encodage GBK 'xb9xfexb9xfe' lors de la deuxième étape, lors de la conversion. en Unicode, UTF8 sera utilisé pour décoder 'xb9xfexb9xfe', et si vous vérifiez la table de codage utf-8, vous constaterez qu'elle n'existe pas du tout dans la table de codage utf8 (pour une explication de UTF-8, veuillez vous référer à aux notes de codage des caractères : ASCII, UTF-8, UNICODE), il sera donc signalé l'erreur ci-dessus.

Pour une analyse plus approfondie des problèmes tronqués de python chinois et des articles connexes, veuillez faire attention au site Web PHP chinois !

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article connexe

Comment utiliser Python pour trouver la distribution ZIPF d'un fichier texteMar 05, 2025 am 09:58 AM

Ce tutoriel montre comment utiliser Python pour traiter le concept statistique de la loi de Zipf et démontre l'efficacité de la lecture et du tri de Python de gros fichiers texte lors du traitement de la loi. Vous vous demandez peut-être ce que signifie le terme distribution ZIPF. Pour comprendre ce terme, nous devons d'abord définir la loi de Zipf. Ne vous inquiétez pas, je vais essayer de simplifier les instructions. La loi de Zipf La loi de Zipf signifie simplement: dans un grand corpus en langage naturel, les mots les plus fréquents apparaissent environ deux fois plus fréquemment que les deuxième mots fréquents, trois fois comme les troisième mots fréquents, quatre fois comme quatrième mots fréquents, etc. Regardons un exemple. Si vous regardez le corpus brun en anglais américain, vous remarquerez que le mot le plus fréquent est "th

Filtrage d'image en pythonMar 03, 2025 am 09:44 AM

Traiter avec des images bruyantes est un problème courant, en particulier avec des photos de téléphones portables ou de caméras basse résolution. Ce tutoriel explore les techniques de filtrage d'images dans Python à l'aide d'OpenCV pour résoudre ce problème. Filtrage d'image: un outil puissant Filtre d'image

Comment utiliser la belle soupe pour analyser HTML?Mar 10, 2025 pm 06:54 PM

Cet article explique comment utiliser la belle soupe, une bibliothèque Python, pour analyser HTML. Il détaille des méthodes courantes comme find (), find_all (), select () et get_text () pour l'extraction des données, la gestion de diverses structures et erreurs HTML et alternatives (Sel

Introduction à la programmation parallèle et simultanée dans PythonMar 03, 2025 am 10:32 AM

Python, un favori pour la science et le traitement des données, propose un écosystème riche pour l'informatique haute performance. Cependant, la programmation parallèle dans Python présente des défis uniques. Ce tutoriel explore ces défis, en se concentrant sur l'interprète mondial

Comment effectuer l'apprentissage en profondeur avec TensorFlow ou Pytorch?Mar 10, 2025 pm 06:52 PM

Cet article compare TensorFlow et Pytorch pour l'apprentissage en profondeur. Il détaille les étapes impliquées: préparation des données, construction de modèles, formation, évaluation et déploiement. Différences clés entre les cadres, en particulier en ce qui concerne le raisin informatique

Comment implémenter votre propre structure de données dans PythonMar 03, 2025 am 09:28 AM

Ce didacticiel montre la création d'une structure de données de pipeline personnalisée dans Python 3, en tirant parti des classes et de la surcharge de l'opérateur pour une fonctionnalité améliorée. La flexibilité du pipeline réside dans sa capacité à appliquer une série de fonctions à un ensemble de données, GE

Sérialisation et désérialisation des objets Python: partie 1Mar 08, 2025 am 09:39 AM

La sérialisation et la désérialisation des objets Python sont des aspects clés de tout programme non trivial. Si vous enregistrez quelque chose dans un fichier Python, vous effectuez une sérialisation d'objets et une désérialisation si vous lisez le fichier de configuration, ou si vous répondez à une demande HTTP. Dans un sens, la sérialisation et la désérialisation sont les choses les plus ennuyeuses du monde. Qui se soucie de tous ces formats et protocoles? Vous voulez persister ou diffuser des objets Python et les récupérer dans son intégralité plus tard. C'est un excellent moyen de voir le monde à un niveau conceptuel. Cependant, à un niveau pratique, le schéma de sérialisation, le format ou le protocole que vous choisissez peut déterminer la vitesse, la sécurité, le statut de liberté de maintenance et d'autres aspects du programme

Modules mathématiques en python: statistiquesMar 09, 2025 am 11:40 AM

Le module statistique de Python fournit de puissantes capacités d'analyse statistique de données pour nous aider à comprendre rapidement les caractéristiques globales des données, telles que la biostatistique et l'analyse commerciale. Au lieu de regarder les points de données un par un, regardez simplement des statistiques telles que la moyenne ou la variance pour découvrir les tendances et les fonctionnalités des données d'origine qui peuvent être ignorées et comparer les grands ensembles de données plus facilement et efficacement. Ce tutoriel expliquera comment calculer la moyenne et mesurer le degré de dispersion de l'ensemble de données. Sauf indication contraire, toutes les fonctions de ce module prennent en charge le calcul de la fonction moyenne () au lieu de simplement additionner la moyenne. Les nombres de points flottants peuvent également être utilisés. Importer au hasard Statistiques d'importation de fracTI

See all articles