Python編碼型別轉換

高洛峰原創: 2017-03-01 13:32:001209瀏覽

本文實例敘述了Python編碼類型轉換方法。分享給大家供大家參考，具體如下：

1：Python和unicode

為了正確處理多語言文本，Python在2.0版後引入了Unicode字串。

2：python中的print

雖然python內部需要將文字編碼轉換為unicode編碼來處理，而終端顯示工作則由傳統的Python字串完成（實際上，Python的print語句根本無法列印出雙位元組的Unicode編碼字元）。

python的print會對輸出的unicode編碼（對其它非unicode編碼，print會原樣輸出）做自動的編碼轉換(輸出到控制台時)，而文件物件的write方法就不會做，因此，當一些字串用print輸出正常時，write到檔案確不一定和print的一樣。

在linux下是依照環境變數來轉換的，在linux下使用locale指令就可以看到。 print語句它的實作是將要輸出的內容傳送了作業系統，作業系統會根據系統的編碼對輸入的位元組流進行編碼。

>>>str=&#39;学习python&#39;
>>> str
&#39;\xe5\xad\xa6\xe4\xb9\xa0python&#39; #asII编码
>>> print str
学习python
>>> str=u&#39;学习python&#39;
>>> str       ####unicode编码
&#39;\xe5u\xad\xa6\xe4\xb9\xa0python&#39;

3: python中的decode

將其他字元集轉換為unicode編碼（只有中文字元才需要轉換）

>>> str=&#39;学习&#39;
>>> ustr=str.decode(&#39;utf-8&#39;)
>>> ustr
u&#39;\u5b66\u4e60&#39;

這樣就對中文字元進行了編碼轉換，可用python進行後續的處理；（如果不轉換的話，python會根據機器的環境變數進行預設的編碼轉換，這樣就可能出現亂碼）

4：python中的encode

將unicode轉換為其它字元集

>>> str=&#39;学习&#39;
>>> ustr=str.decode(&#39;utf-8&#39;)
>>> ustr
u&#39;\u5b66\u4e60&#39;
>>> ustr.encode('utf-8')
'\xe5\xad\xa6\xe4\xb9\xa0'
>>> print ustr.encode('utf-8')
学习

更多Python編碼類型轉換相關文章請關注PHP中文網！

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：python編碼總結(編碼類型、格式、轉碼)下一篇：python編碼總結(編碼類型、格式、轉碼)

看更多