首頁  >  文章  >  後端開發  >  python解決漢字編碼問題:Unicode Decode Error_python

python解決漢字編碼問題:Unicode Decode Error_python

高洛峰
高洛峰原創
2017-02-23 15:53:003459瀏覽

前言

最近由於專案需要,需要讀取一個含有中文的txt文檔,完了也要儲存文件。文件之前是由base64編碼,導致所有漢字讀取顯示亂碼。專案群組把base64廢棄之後,先後出現兩個錯誤:

ascii codec can't encode characters in position ordinal not in range 128
UnicodeDecodeError: ‘utf8' codec can't decode byte 0x。

如果對於ascii、unicode和utf-8還不了解的小夥伴,可以看之前的這篇文章關於字串和編碼

那麼必須對這三個概念有所了解:

  1. ascii只能表示數字、英文字母和一些特殊符號,不能表示漢字

  2. unicode和utf-8都可以表示漢字,unicode是固定長度,utf-8是可變長度

  3. 記憶體中儲存方式一般為unicode,而磁碟檔案儲存方式一般為utf-8,因為utf-8可以節省儲存空間

那麼python的預設編碼是什麼?

>>> import sys
>>> sys.getdefaultencoding()
'ascii'
>>> reload(sys)
<module &#39;sys&#39; (built-in)>
>>> sys.setdefaultencoding(&#39;utf-8&#39;)
>>> sys.getdefaultencoding()
&#39;utf-8&#39;

python的預設編碼是ascii,可以透過sys.setdefaultencoding('utf-8')函數來設定python的預設編碼。

python中可以透過encode和decode的方式改變資料的編碼,例如:

#
>>> u&#39;汉字&#39;
u&#39;\u6c49\u5b57&#39;
>>> u&#39;汉字&#39;.encode(&#39;utf-8&#39;)
&#39;\xe6\xb1\x89\xe5\xad\x97&#39;
>>> u&#39;汉字&#39;.encode(&#39;utf-8&#39;).decode(&#39;utf-8&#39;)
u&#39;\u6c49\u5b57&#39;

##我們可以透過這兩個函數來設定編碼。

那麼,python中的str是什麼型別?

>>> import binascii
>>> &#39;汉字&#39;
&#39;\xba\xba\xd7\xd6&#39;
>>> type(&#39;汉字&#39;)
<type &#39;str&#39;>
>>> print binascii.b2a_hex(&#39;汉字&#39;)
babad7d6
>>> print binascii.b2a_hex(u&#39;汉字&#39;)
Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
UnicodeEncodeError: &#39;ascii&#39; codec can&#39;t encode characters in
position 0-1: ordinal not in range(128)
>>> print binascii.b2a_hex(u&#39;汉字&#39;.encode(&#39;utf-8&#39;))
e6b189e5ad97
>>> print binascii.b2a_hex(u&#39;汉字&#39;.encode(&#39;gbk&#39;))
babad7d6

binascii是將資料的二進位轉換成ascii,上面的解釋是:'漢字'的類型是str,二進位是babad7d6,u '漢字'是無法轉換成ascii,這樣就報出了開頭的第一個錯誤。解決方法就是把它.encode(‘utf-8')成str類型。因為我命令列是windows預設的GBK編碼,所有u'漢字'

.encode(‘gbk')的時候,輸出結果和『漢字'結果一樣。

總結一下,python的str其實是unicode的一種,python的預設編碼是ascii,對於非ascii轉成ascii的時候都會報錯,牢記下面的規則:

  1. #unicode => encode('合適的編碼') => str

  2. #str => decode('合適的編碼') => unicode


還有一個簡單的方式,就是在檔案頭設定編碼,可以省去很多麻煩:

import sys
reloads(sys)
sys.setdefaultencoding(&#39;utf-8&#39;)

對於第二個問題,是檔案讀取的時候發生的錯。 utf-8的文件有bom和無bom兩種方式,兩者的差別好像在bom文件比無bom文件多了一個頭,導致以utf-8方式讀文件時報錯,我先前曾嘗試讀文件的時候先對有無bom進行判斷,跳過bom文件的頭,後來失敗了,真尷尬~~。

還得上google求助大神,具體的操作方法就是使用codecs庫來讀文件(我猜這個庫就是對文件的頭進行檢測)。

import codecs
codecs.open(file_name, "r",encoding=&#39;utf-8&#39;, errors=&#39;ignore&#39;)

對於程式設計問題,一定要懂得ascii、unicode和utf-8運作原理。

更多python解決漢字編碼問題:Unicode Decode Error_python相關文章請關注PHP中文網!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn