Heim  >  Artikel  >  Backend-Entwicklung  >  Problem mit der Änderung des Python-Codierungsformats

Problem mit der Änderung des Python-Codierungsformats

anonymity
anonymityOriginal
2019-04-20 14:27:446584Durchsuche

Ich habe heute einen Python-Crawler geschrieben, und plötzlich war die gecrawlte Webseite abnormal und es wurde ein Fehler gemeldet: UnicodeEncodeError: 'latin-1' codec can't encode columns in position 41-50: ordinal not in range(256);UnicodeEncodeError: Der Codec „ascii“ kann Zeichen nicht in Ordnungszahlen kodieren. Dies ist ein offensichtliches Problem mit dem Kodierungsformat. Tatsächlich stoßen nicht nur Python2 oder 3, sondern auch andere Programmiersprachen wie Java und C häufig auf Probleme mit Codierungsformaten, die äußerst problematisch sind, insbesondere bei der Konvertierung zwischen ASCII, GBK, UTF-8 und anderen Codierungen . Also suchte ich nach Informationen, übte praktisch und fand mehrere Methoden wie diese.

Wie überprüfen wir zunächst das Systemkodierungsformat sowie das Eingabe- und Ausgabeformat von Python?

Problem mit der Änderung des Python-Codierungsformats

>>> import sys
>>> sys.getdefaultencoding()# 系统默认编码格式
'UTF-8'
>>> sys.stdout.encoding# 输入输出格式
'US-ASCII'

In diesem Fall bedeutet dies, dass die Eingabe- und Ausgabekodierung der aktuellen Befehlszeile ASCII ist, sodass Sie die Umgebungsvariable LANG manuell in ändern müssen utf-8:

export LANG="en_US.UTF-8"

Wenn Sie sich in einer Ubuntu-Umgebung befinden, können Sie die obige Befehlszeile zu ~/.bashrc hinzufügen, um das Problem ein für alle Mal zu lösen. Führen Sie nach dem Hinzufügen den folgenden Befehl aus wirksam werden oder neu starten.

source ~/.bashrc

Oder eine andere Methode besteht darin, die entsprechende Codierung nur für Python festzulegen (wie oben, führen Sie die Befehlszeile aus oder fügen Sie die bashrc-Datei hinzu):

PYTHONIOENCODING='utf_8'
export PYTHONIOENCODING

Beispielbild für GBK-Codierung:

Problem mit der Änderung des Python-Codierungsformats

Diagrammteil der ASCII-Kodierungstabelle:

Problem mit der Änderung des Python-Codierungsformats

Vergessen Sie nicht, beim Programmieren die oberste Zeile hinzuzufügen:

# -*- coding: utf-8 -*-

Sie können die Python-Kodierung über die Befehlszeile festlegen, diese wird jedoch nur in dieser Sitzung wirksam.

>>>sys.getdefaultencoding()查看当前编码(若报错,先执行>>>import sys >>>reload(sys));
>>>sys.setdefaultencoding('utf8')设置编码

Es ist auch möglich, das SYS-Modul neu zu laden und uft-8 im Programmcode festzulegen, aber ein Fehler wird in Pycharm dazu aufgefordert

import sys
reload(sys) 
sys.setdefaultencoding('utf8')
重启Python解释器,发现编码已被设置为utf8;
这是因为系统在Python启动的时候,自行调用该文件,设置系统的默认编码,而不需要每次都手动加上解决代码,属于一劳永逸的解决方法。

Während der täglichen Entwicklung wissen wir alle, dass wir Decode und Encode für Transcodierungsvorgänge verwenden müssen.

Decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。
Encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('gb2312'),表示将unicode编码的字符串str2转换成gb2312编码。

In der neuesten Python 3-Version ist der String-Typ str, der durch Unicode im Speicher dargestellt wird.

Wenn Sie es verwenden möchten Netzwerk Zum Übertragen oder Speichern auf der Festplatte muss str in Bytes in Bytes konvertiert werden.

In Unicode ausgedrückter Str kann über die Methode encode() in bestimmte Bytes codiert werden, zum Beispiel:

>>> 'ABC'.encode('ascii')
b'ABC'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
>>> '中文'.encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: &#39;ascii&#39; codec can&#39;t encode characters in position 0-1: ordinal not in range(128)

Bei der Verarbeitung von Zeichenfolgen stoßen wir häufig auf die Konvertierung von str und Bytes. Um verstümmelte Zeichen zu vermeiden, sollten Sie zur Konvertierung von str und Bytes immer die UTF-8-Kodierung verwenden.

Freundliche Links [UTF-8-Kodierungskonvertierungstool]

[Python3-Video-Tutorial]

Anfangs gab es nur eine Wenige Kodierungsformate Aufgrund der Beliebtheit von Computern und der Verwendung durch viele Länder oder Organisationen sind immer mehr Kodierungsformate verfügbar. Das international akzeptierte ist jedoch immer noch UTF-8, daher sollten Sie über gute Programmiergewohnheiten verfügen und UTF-8 verwenden. 8 Codierungsformat häufiger. Versuchen Sie bei Codierungsproblemen, das Codierungsformat konsistent zu halten.

Das obige ist der detaillierte Inhalt vonProblem mit der Änderung des Python-Codierungsformats. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn