本文實例敘述了Python編碼類型轉換方法。分享給大家供大家參考,具體如下:
1:Python和unicode
為了正確處理多語言文本,Python在2.0版後引入了Unicode字串。
2:python中的print
雖然python內部需要將文字編碼轉換為unicode編碼來處理,而終端顯示工作則由傳統的Python字串完成(實際上,Python的print語句根本無法列印出雙位元組的Unicode編碼字元)。
python的print會對輸出的unicode編碼(對其它非unicode編碼,print會原樣輸出)做自動的編碼轉換(輸出到控制台時),而文件物件的write方法就不會做,因此,當一些字串用print輸出正常時,write到檔案確不一定和print的一樣。
在linux下是依照環境變數來轉換的,在linux下使用locale指令就可以看到。 print語句它的實作是將要輸出的內容傳送了作業系統,作業系統會根據系統的編碼對輸入的位元組流進行編碼。
>>>str='学习python' >>> str '\xe5\xad\xa6\xe4\xb9\xa0python' #asII编码 >>> print str 学习python >>> str=u'学习python' >>> str ####unicode编码 '\xe5u\xad\xa6\xe4\xb9\xa0python'
3: python中的decode
將其他字元集轉換為unicode編碼(只有中文字元才需要轉換)
>>> str='学习' >>> ustr=str.decode('utf-8') >>> ustr u'\u5b66\u4e60'
這樣就對中文字元進行了編碼轉換,可用python進行後續的處理;(如果不轉換的話,python會根據機器的環境變數進行預設的編碼轉換,這樣就可能出現亂碼)
4:python中的encode
將unicode轉換為其它字元集
#
>>> str='学习' >>> ustr=str.decode('utf-8') >>> ustr u'\u5b66\u4e60' >>> ustr.encode('utf-8') '\xe5\xad\xa6\xe4\xb9\xa0' >>> print ustr.encode('utf-8') 学习
更多Python編碼類型轉換相關文章請關注PHP中文網!
#