Heim >Backend-Entwicklung >Python-Tutorial >Python-Lösen Sie das Problem von UnicodeDecodeError beim Abfragen von Cx_Oracle

Python-Lösen Sie das Problem von UnicodeDecodeError beim Abfragen von Cx_Oracle

高洛峰
高洛峰Original
2017-02-16 11:13:591751Durchsuche

In einem aktuellen Projekt musste ich eine Tabelle mit mehr als 1 Million Datensätzen abfragen und dann einige Datenstatistiken durchführen. Während dieses Vorgangs stellte ich jedoch fest, dass ein UnicodeDecodeError auftrat, nachdem nur wenige Daten abgefragt wurden.
Hier verwenden wir die sqlalchemy-Bibliothek für Abfragen und Cx_Oracle wird intern verwendet, um entsprechende Vorgänge auszuführen. Die verwendete Python-Version ist 3.5.0, das Hostsystem ist Windows 2008 Server, und dann werden Vorgänge ähnlich den folgenden ausgeführt:

from sqlalchemy import create_engine

engine = create_engine('oracle://demo:123456@192.168.1.202/TEST')
conn = engine.connect()
sql = 'select t.type from TS t'
result = conn.execute(sql)
for row in result:
    print(row['type'])

Hier stellen wir zunächst eine Verbindung zur Datenbank her und führen dann den entsprechenden Abfragevorgang durch. Leider ist nach der Abfrage von weniger als 10 Datensätzen ein UnicodeDecodeError aufgetreten.
Ursprünglich dachte ich, es handele sich um ein Server-Kodierungsproblem in der Datenbank, also habe ich den Kodierungsparameter zur Funktion „create_engine“ hinzugefügt und ihn geändert in:

engine = create_engine('oracle://demo:123456@192.168.1.202/TEST',encoding="UTF-8")

Die andere verfügbare Methode besteht darin, die Kodierung direkt anzugeben im Verbindungspfad, ähnlich wie folgt:

engine = create_engine('oracle://demo:123456@192.168.1.202/TEST?charset=utf-8')

Aber das Problem ist immer noch nicht gelöst. Ich habe im Internet gesucht, aber keine passende Lösung gefunden. Mir fiel plötzlich ein, dass wir bei der Verwendung einer MySQL-Datenbank (ich persönlich mag Postgresql mehr) oft die folgenden Vorgänge ausgeführt haben, wenn verstümmelte Zeichen auftraten:

set names gbk;

Wir haben die clientseitige Codierung auf diese Weise anstelle der serverseitigen Codierung festgelegt, um das Problem verstümmelter Zeichen auf dem Terminal zu lösen (da die Standarddatenbank von Postgresql UTF-8 ist, ist die Wahrscheinlichkeit verstümmelter Zeichen gering). Darüber hinaus wird bei der Installation des Oracle-Clients unter Linux eine Umgebungsvariable von NLS_LANG festgelegt. Weitere Informationen finden Sie im Artikel „Oracle Instant Client in Ubuntu 14.04 installieren“. Natürlich werden in diesem Artikel einige Details nicht vorgestellt.
Im Allgemeinen nehmen wir die folgenden Einstellungen in cmd vor:

setenv NLS_LANG=SIMPLIFIED CHINESE_CHINA.ZHS16GBK

Wir geben an, dass die von Oracle-Nachrichten verwendete Sprache vereinfachtes Chinesisch ist und der Zeichensatz des Clients GBK ist.
Darüber hinaus können wir auch die folgende Anweisung ausführen, um sicherzustellen, dass der obige Vorgang korrekt ist:

SELECT * FROM v$nls_parameters;

Da der obige Datenbankserver unter Windows bereitgestellt wird, ist das Ergebnis natürlich GBK, also wenn Our Der Client verwendet zum Dekodieren den UTF8-Zeichensatz, daher treten natürlicherweise Dekodierungsfehler auf.
Was wir beachten müssen, ist, dass wir die Nicht-ASCII-Codierung nur dann normal anzeigen können, wenn die Codierung des Datenbankservers und des Clients konsistent ist, und in sqlalchemy wird die Abfragezeichenfolge standardmäßig gezwungen, sie in Unicode zu konvertieren. Daher ähnelt es dem folgenden Prozess in Python3:

>>> a='中国'.encode('gbk')
>>> a
b'\xd6\xd0\xb9\xfa'

In sqlalchemy ähnelt es aufgrund der erzwungenen Kodierungskonvertierung dem folgenden Prozess:

>>> a.decode('utf-8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd6 in position 0: invalid continuation byte

Daher das obige Problem tritt auf. Unter normalen Umständen sollte die Kodierung als GBK angegeben werden:

>>> a.decode('gbk')
'中国'

und die Einstellung NLS_LANG entspricht der Änderung der oben genannten Kodierung in GBK.

Weitere Informationen zur Python-Lösung des UnicodeDecodeError-Problems beim Abfragen von Cx_Oracle finden Sie auf der chinesischen PHP-Website für verwandte Artikel!


Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn