


Dans cet article, 'Ha' est utilisé comme exemple pour expliquer tous les problèmes. Les différents encodages de "Ha" sont les suivants :
1 UNICODE (UTF8-16), C854 ; . UTF-8, E59388 ;
3. GBK,B9FE.
1. str et unicode en python
L'encodage chinois en python a toujours été un très gros problème, et des exceptions de conversion d'encodage sont souvent levées. Que sont exactement str et unicode en python ?
Lorsque Unicode est mentionné en python, il fait généralement référence à des objets Unicode. Par exemple, l'objet Unicode de 'haha' est
u'u54c8u54c8'
Et str est un tableau d'octets. est le format de stockage après encodage des objets Unicode (peut être utf-8, gbk, cp936, GB2312). Ici, il s'agit simplement d'un flux d'octets, sans autre signification. Si vous souhaitez rendre significatif le contenu affiché par ce flux d'octets, vous devez utiliser le format de codage, le décodage et l'affichage corrects.
Par exemple :
sys.setdefaultencoding('gbk') et la conversion peut alors réussir. Pourquoi ? Dans le processus d'encodage et de décodage de str et unicode en Python, si une str est directement codée dans un autre encodage, str sera d'abord décodée en unicode, et l'encodage utilisé est l'encodage par défaut. Généralement, l'encodage par défaut est ancii, donc in. l'exemple ci-dessus Une erreur se produira lors de la première conversion dans le code. Après avoir défini le codage par défaut actuel sur 'gbk', il n'y aura aucune erreur. Quant à reload(sys), comme Python2.5 supprimera la méthode sys.setdefaultencoding après l'initialisation, nous devons la recharger. 4. Manipuler des fichiers avec différents formats d'encodage Créer un fichier test.txt Le format de fichier est ANSI et le contenu est :
Utilisez python pour lire
# coding=gbk
print open("Test.txt").read()
Résultat : abc chinois
Changez le format de fichier en UTF-8 :
Résultat : abc涓枃
Évidemment, le décodage est requis ici :
# coding=gbk
importer des codecs
print open("Test.txt").read().decode("utf-8")
Résultat : abc chinois
ci-dessus J'ai modifié le test.txt à l'aide d'Editplus, mais lorsque je l'ai modifié à l'aide du Bloc-notes intégré de Windows et que je l'ai enregistré au format UTF-8,
a signalé une erreur lors de l'exécution :
Traceback ( dernier appel le plus récent) :
Fichier "ChineseTest.py", ligne 3, dans
print open("Test.txt").read().decode("utf-8" )
UnicodeEncodeError : le codec 'gbk' ne peut pas encoder le caractère u'ufeff' en position 0 : séquence multi-octets illégale
Il s'avère que certains logiciels, tels que le bloc-notes, enregistrent un fichier encodé en UTF- 8 , trois caractères invisibles (0xEF 0xBB 0xBF, ou BOM) seront insérés au début du fichier.
Nous devons donc supprimer nous-mêmes ces caractères lors de la lecture. Le module codecs en python définit cette constante :
# coding=gbk
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")
Résultat : abc chinois
5 Le format d'encodage du fichier et le rôle de l'instruction d'encodage
Le fichier source Quel effet le format d'encodage a-t-il sur la déclaration des chaînes ? Ce problème me tracasse depuis longtemps, et maintenant j'ai enfin quelques indices. Le format d'encodage du fichier détermine le format d'encodage de la chaîne déclarée dans le fichier source, par exemple :
str = ' Haha'
print repr(str)
a. Si le format de fichier est utf-8, alors la valeur de str est : 'xe5x93x88xe5x93x88' (encodage utf-8 de haha)
b. Si le format de fichier est gbk, alors la valeur de str est : 'xb9xfexb9xfe' (haha gbk encodage)
Comme mentionné dans la première section, une chaîne en python n'est qu'un tableau d'octets, ainsi, lorsque a Lorsque la chaîne du cas b est sortie sur la console codée en gbk, elle sera affichée sous forme de caractères tronqués : 鍝矚搱; et lorsque la chaîne du cas b est sortie sur la console codée en utf-8, des caractères tronqués sera également affiché. Quel est le problème ? Non, peut-être que « xb9xfexb9xfe » est décodé et affiché en utilisant utf-8, donc il est vide. >_
Après avoir parlé du format de fichier, parlons du rôle de l'instruction d'encodage. En haut de chaque fichier, une instruction comme #coding=gbk sera utilisée pour déclarer l'encodage, mais. cette déclaration à quoi ça sert ? Jusqu'à présent, je pense qu'il a trois fonctions :
déclare que l'encodage non-ascii apparaîtra dans le fichier source, généralement en chinois
en mode avancé dans l'IDE, l'EDI enregistrera votre format de fichier dans le format d'encodage que vous spécifiez.
Déterminer le format d'encodage utilisé pour décoder 'ha' en Unicode pour des déclarations comme u'ha' dans le code source est également un endroit déroutant :
#coding:gbk

Ce tutoriel montre comment utiliser Python pour traiter le concept statistique de la loi de Zipf et démontre l'efficacité de la lecture et du tri de Python de gros fichiers texte lors du traitement de la loi. Vous vous demandez peut-être ce que signifie le terme distribution ZIPF. Pour comprendre ce terme, nous devons d'abord définir la loi de Zipf. Ne vous inquiétez pas, je vais essayer de simplifier les instructions. La loi de Zipf La loi de Zipf signifie simplement: dans un grand corpus en langage naturel, les mots les plus fréquents apparaissent environ deux fois plus fréquemment que les deuxième mots fréquents, trois fois comme les troisième mots fréquents, quatre fois comme quatrième mots fréquents, etc. Regardons un exemple. Si vous regardez le corpus brun en anglais américain, vous remarquerez que le mot le plus fréquent est "th

Traiter avec des images bruyantes est un problème courant, en particulier avec des photos de téléphones portables ou de caméras basse résolution. Ce tutoriel explore les techniques de filtrage d'images dans Python à l'aide d'OpenCV pour résoudre ce problème. Filtrage d'image: un outil puissant Filtre d'image

Cet article explique comment utiliser la belle soupe, une bibliothèque Python, pour analyser HTML. Il détaille des méthodes courantes comme find (), find_all (), select () et get_text () pour l'extraction des données, la gestion de diverses structures et erreurs HTML et alternatives (Sel

Python, un favori pour la science et le traitement des données, propose un écosystème riche pour l'informatique haute performance. Cependant, la programmation parallèle dans Python présente des défis uniques. Ce tutoriel explore ces défis, en se concentrant sur l'interprète mondial

Cet article compare TensorFlow et Pytorch pour l'apprentissage en profondeur. Il détaille les étapes impliquées: préparation des données, construction de modèles, formation, évaluation et déploiement. Différences clés entre les cadres, en particulier en ce qui concerne le raisin informatique

Ce didacticiel montre la création d'une structure de données de pipeline personnalisée dans Python 3, en tirant parti des classes et de la surcharge de l'opérateur pour une fonctionnalité améliorée. La flexibilité du pipeline réside dans sa capacité à appliquer une série de fonctions à un ensemble de données, GE

La sérialisation et la désérialisation des objets Python sont des aspects clés de tout programme non trivial. Si vous enregistrez quelque chose dans un fichier Python, vous effectuez une sérialisation d'objets et une désérialisation si vous lisez le fichier de configuration, ou si vous répondez à une demande HTTP. Dans un sens, la sérialisation et la désérialisation sont les choses les plus ennuyeuses du monde. Qui se soucie de tous ces formats et protocoles? Vous voulez persister ou diffuser des objets Python et les récupérer dans son intégralité plus tard. C'est un excellent moyen de voir le monde à un niveau conceptuel. Cependant, à un niveau pratique, le schéma de sérialisation, le format ou le protocole que vous choisissez peut déterminer la vitesse, la sécurité, le statut de liberté de maintenance et d'autres aspects du programme

Le module statistique de Python fournit de puissantes capacités d'analyse statistique de données pour nous aider à comprendre rapidement les caractéristiques globales des données, telles que la biostatistique et l'analyse commerciale. Au lieu de regarder les points de données un par un, regardez simplement des statistiques telles que la moyenne ou la variance pour découvrir les tendances et les fonctionnalités des données d'origine qui peuvent être ignorées et comparer les grands ensembles de données plus facilement et efficacement. Ce tutoriel expliquera comment calculer la moyenne et mesurer le degré de dispersion de l'ensemble de données. Sauf indication contraire, toutes les fonctions de ce module prennent en charge le calcul de la fonction moyenne () au lieu de simplement additionner la moyenne. Les nombres de points flottants peuvent également être utilisés. Importer au hasard Statistiques d'importation de fracTI


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Dreamweaver CS6
Outils de développement Web visuel

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Version crackée d'EditPlus en chinois
Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code

SublimeText3 version anglaise
Recommandé : version Win, prend en charge les invites de code !

ZendStudio 13.5.1 Mac
Puissant environnement de développement intégré PHP
