Explication détaillée de la différence et de l'analyse de l'utilisation entre str et Unicode dans le traitement de l'encodage Python-Tutoriel Python-php.cn

Explication détaillée de la différence et de l'analyse de l'utilisation entre str et Unicode dans le traitement de l'encodage Python

高洛峰

Mar 16, 2017 pm 04:23 PM

Utilisez python pour traiter le chinois, lors de la lecture de fichiers ou de messages, si des caractères tronqués (chaîne sont trouvés), lisez et écrivez des fichiers, print), ce que font la plupart des gens est d'appeler encode/decode pour le débogage sans réfléchir clairement à la raison pour laquelle les caractères tronqués apparaissent. Aujourd'hui, nous allons discuter de la façon de gérer les problèmes d'encodage.

Remarque : la discussion suivante concerne Python2. Erreur 2

Tout d'abord

doit avoir un concept général, comprendre le

Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe6 in position 0: ordinal not in range(128)</module></stdin>

jeu de caractères<.>, codage des caractères

ASCII | Unicode | UTF-8 etc.

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)</module></stdin>

Notes sur le codage des caractères : ASCII, Unicode et UTF-8

str et unicode str et unicode sont tous deux des sous-classes de base

string

Il existe donc un moyen de déterminer s'il s'agit d'une chaîne

def is_str(s) : return isinstance (s, chaîne de base)

conversion str et unicode str -> decode('the_coding_of_str') -> unicode encode('the_coding_you_want') -> 🎜>

Différence

str est une chaîne d'octets, passée par unicode

Méthode de déclaration composée d'octets codés

Trouver la longueur (renvoie le nombre de octets)

unicode est le vrai sens Une chaîne composée de caractères

Méthode de déclaration

>>> s = ‘中文‘ s = u‘中文‘.encode(‘utf-8‘)  
>>> type(‘中文‘) <type></type>

Trouver la longueur (retourner le nombre de caractères), quoi que vous voulez vraiment utiliser en logique

>>> u‘中文‘.encode(‘utf-8‘) ‘\xe4\xb8\xad\xe6\x96\x87‘ 
>>> len(u‘中文‘.encode(‘utf-8‘)) 
6

Conclusion

Découvrez si vous souhaitez traiter str ou unicode, et utilisez la bonne méthode de traitement (str.decode/unicode.encode)

Voici la méthode pour déterminer si c'est unicode/str

>>> s = u‘中文‘ 
>>> s = ‘中文‘.decode(‘utf-8‘) 
>>> s = unicode(‘中文‘, ‘utf-8‘)  
>>> type(u‘中文‘) <type></type>

Principe simple : n'utilisez pas encode pour str et n'utilisez pas decode pour unicode (en fait, str peut être encodé, voir la fin pour plus de détails. Pour garantir la simplicité, ce n'est pas recommandé)

>>> u‘中文‘ u‘\u4e2d\u6587‘ 
>>> len(u‘中文‘) 
2

Conversion d'encodage différent, en utilisant Unicode comme encodage intermédiaire

le traitement de fichiers

>>> isinstance(u‘中文‘, unicode) True 
>>> isinstance(‘中文‘, unicode) False  
>>> isinstance(‘中文‘, str) True 
>>> isinstance(u‘中文‘, str) False

, l'IDE et la console

flux de traitement, peuvent être utilisés comme ça, pensez à python comme un pool, Une entrée, une sortie

>>> ‘中文‘.encode(‘utf-8‘) 
Traceback (most recent call last): File "", line 1, in  UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe4 in position 0: ordinal not in range(128)  
>>> u‘中文‘.decode(‘utf-8‘) 
Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)</module></stdin>

A l'entrée, tout est converti en Unicode, au pool tout est traité en Unicode, à la sortie, il est converti en encodage cible (bien sûr, il y a des exceptions, et des encodages spécifiques doivent être utilisés dans la logique de traitement) )

#s是code_A的str s.decode(‘code_A‘).encode(‘code_B‘)

Lire fichier Encodage d'entrée externe, décodage en Unicode Traitement (encodage interne, Unicode unifié) Encodage dans l'encodage cible requis Écrire dans la sortie cible (fichier ou console)

IDE et La console signale une erreur La raison est que lorsque. lors de l'impression, l'encodage est incompatible avec le propre encodage de l'EDI

Convertissez l'encodage en un encodage cohérent lors de la sortie et la sortie peut être normale. Encodage standard

Encodage uniforme pour éviter les caractères tronqués causés par un certain lien

Encodage d'environnement, IDE/texte

Éditeur

, encodage de fichiers, encodage de table de données de base de données

Assurer l'encodage du fichier source du code

Ceci est très important

>>> print u‘中文‘.encode(‘gbk‘) ???? 
>>> print u‘中文‘.encode(‘utf-8‘) 中文

L'encodage par défaut du fichier py est ASCII Dans le fichier de code source, si des caractères non-ASCII sont utilisés, ils doivent l'être. encodé dans l'en-tête du fichier Document de déclaration

S'il n'est pas déclaré, des erreurs seront rencontrées lors de la saisie non-ASCII, qui doit être placé sur la première ou la deuxième ligne du fichier

Déclaration méthode

Si l'en-tête déclare coding=utf-8, a = 'Chinese', son encodage est utf-8

Si l'en-tête déclare coding=gb2312, a = 'Chinese ', son encodage est gbk

ainsi, tous les en-têtes de fichiers sources d'un même projet ont un encodage unifié, et l'encodage déclaré doit être cohérent avec l'encodage enregistré dans le fichier source (lié à l'éditeur)

est utilisé comme chaîne codée en dur pour le traitement dans le code source, utilisez uniformément Unicode

将其类型和源文件本身的编码隔离开, 独立无依赖方便流程中各个位置处理

if s == u‘中文‘:  #而不是 s == ‘中文‘     pass #注意这里 s到这里时，确保转为unicode

以上几步搞定后，你只需要关注两个 unicode和你设定的编码(一般使用utf-8)

处理顺序

1. Decode early 2. Unicode everywhere 3. Encode later

Article connexe

Comment le choix entre les listes et les tableaux a-t-il un impact sur les performances globales d'une application Python traitant de grands ensembles de données?May 03, 2025 am 12:11 AM

ForhandlingLargedatasetSInpython, UsenumpyArraysforbetterperformance.1) NumpyArraysAremeMory-EfficientAndFasterFornumericalOperations.2) EvitUnneceSsaryTypeConversions.3) Le effet de levier

Expliquez comment la mémoire est allouée aux listes par rapport aux tableaux dans Python.May 03, 2025 am 12:10 AM

Inpython, listSusedynamicMemoryallocation withover-allocation, whileLumpyArraySallocateFixedMemory.1) listsallocatemoreMoryThreededEdededInitialement, redimensipwenessary.2) NumpyArraySallocateExactMemoryForElements, offrantwectable usinessflexibilité.

Comment spécifiez-vous le type d'éléments de données dans un tableau Python?May 03, 2025 am 12:06 AM

Inpython, YouCanscthedatatatypeyfelemememedenernSspant.1) usenpynernrump.1) usenpynerp.dloatp.ploatm64, formateur préséconstrolatatype.

Qu'est-ce que Numpy et pourquoi est-il important pour l'informatique numérique dans Python?May 03, 2025 am 12:03 AM

NumpyissentialFornumericalComputingInpythondutOtsSpeed, MemoryEfficiency et ComprehenSiveMathematicalFunctions.1) It'sfastBecauseitPerformSoperations INC.2) NumpyArraySareMoremory-EfficientThanpythonlists.3)

Discutez du concept de «l'allocation de la mémoire contigu» et de son importance pour les tableaux.May 03, 2025 am 12:01 AM

ContigusMymoryallocationiscrucialforAraySBauseitallowsforefficient andfastelementAccess.1) iTenablesConstanttimeAccess, o (1), duetoDirectAddressCalculation.2) itimproveScacheefficiendyAllowingMultipleElementFetchesperCacheline.3) itsimplieniesMemorymorymorymorymorymory

Comment coupez-vous une liste de python?May 02, 2025 am 12:14 AM

SlitingyPapyThonListIsDoneUsingTheSyntaxList [Démarrage: arrêt: étape] .He'showitworks: 1) startisheindexofthefirStelementoinclude.2) stopisTheIndexoftheFirstelementsoexclude.3) StepistheincrementBetweenselans.it'susefulfactingPortationSoListShsandCanusegeg

Quelles sont les opérations communes qui peuvent être effectuées sur des tableaux Numpy?May 02, 2025 am 12:09 AM

NumpyAllowsForvariousOperations ONARRAYS: 1) BasicarithmeticLikeaddition, Soustraction, Multiplication, anddivision; 2) AdvancedOperationSuchasmatrixMultiplication; 3) Element-Wiseoperations withoutExplicitloop

Comment les tableaux sont-ils utilisés dans l'analyse des données avec Python?May 02, 2025 am 12:09 AM

ArraySinpython, en particulier ThroughNumpyandPandas, aressentialfordataanalysis, offingspeeedAfficiency.1) numpyarrayablefficienthandlingoflargedatasetsandComplexOperationsLikEMoVingAverages.2)

See all articles