Heim  >  Artikel  >  Backend-Entwicklung  >  Methode zur Beurteilung der Python-Zeichenkodierung

Methode zur Beurteilung der Python-Zeichenkodierung

高洛峰
高洛峰Original
2017-03-01 13:21:161735Durchsuche

Das Beispiel in diesem Artikel beschreibt die Beurteilungsmethode für die Python-Zeichenkodierung. Teilen Sie es als Referenz mit allen. Die Details lauten wie folgt:

Methode 1:

isinstance(s, str) wird verwendet, um zu bestimmen, ob dies der Fall ist ist eine allgemeine Zeichenfolge
isinstance(s, unicode) wird verwendet, um zu bestimmen, ob es Unicode ist

oder


if type(str).__name__!="unicode":
str=unicode(str,"utf-8")
else:
pass


Methode 2:

Beurteilung der Python-Chardet-Zeichenkodierung

Mit chardet kann die Erkennung der Zeichenfolgen-/Dateikodierung problemlos implementiert werden. Insbesondere bei chinesischen Webseiten verwenden einige Seiten GBK/GB2312 und andere UTF8. Wenn Sie einige Seiten crawlen müssen, ist es wichtig, die Webseitenkodierung zu kennen. Obwohl HTML-Seiten manchmal falsche Zeichensatz-Tags haben. Dann kann Chardet uns sehr helfen.

Chardet-Instanz


>>> import urllib
>>> rawdata = urllib.urlopen('http://www.google.cn/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
>>>chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典,有2个元数,一个是检测的可信度,另外一个就是检测到的编码。


Chardet-Installation

Entpacken Sie nach dem Herunterladen von Chardet das komprimierte Chardet-Paket, legen Sie den Chardet-Ordner direkt im Anwendungsverzeichnis ab und verwenden Sie dann „Chardet importieren“, um mit der Verwendung von Chardet zu beginnen.

Oder verwenden Sie die Installationsdatei setup.py, um chardet in das Python-Systemverzeichnis zu kopieren, sodass alle Ihre Python-Programme nur chardet importieren müssen.

python setup.py-Installationsreferenz

Offizielle Chardet-Website: http://chardet.feedparser.org/
Chardet-Downloadseite: http://chardet.feedparser.org/download /

Weitere Artikel zu Beurteilungsmethoden für die Python-Zeichencodierung finden Sie auf der chinesischen PHP-Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn