首頁 >後端開發 >Python教學 >Python 程式設計處理-str與Unicode

Python 程式設計處理-str與Unicode

高洛峰
高洛峰原創
2017-02-27 10:02:341303瀏覽

一篇關於STR和UNICODE的好文章

整理下python編碼相關的內容

##注意: 以下討論為Python2.x版本, Py3k的待嘗試

開始

用python處理中文時,讀取檔案或訊息,http參數等等

一運行,發現亂碼(字串處理,讀寫文件,print)

然後,大多數人的做法是,調用encode/decode進行調試,並沒有明確思考為何出現亂碼

所以調試時最常出現的錯誤

錯誤1

Traceback (most recent call last): File "", line 1, in UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 0: ordinal not in range(128)

##錯誤2

recent call last): File "", line 1, in File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py" , line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(#128)


#首先

必須有大致概念,了解下字元集,字元編碼

ASCII | Unicode | UTF-8 | 等等

字元編碼筆記:ASCII,Unicode和UTF-8

淘寶搜尋技術部落格-中文編碼雜談

str 和unicode

str和unicode都是basestring的子類別

所以有判斷是否為字串的方法

def is_str(s):     return isinstance(s, basestring)


#str和unicode 轉換

decode 文件

encode 文件

##str  -> decode('the_coding_of_str') -> unicode unicode -> ; encode('the_coding_you_want') -> str

##區別

str是位元組串,由unicode經過編碼(encode)後的位元組組成的宣告方式

s = '中文' s = u'中文'.encode('utf-8')  >>> type( '中文')

求長度(回傳位元組數)

>>> u'中文'.encode('utf-8') '\xe4\xb8\xad\xe6\x96\x87' >>> len(u'中文'.encode('utf-8')) 6

unicode才是真正意義上的字串,由字元組成

宣告方式

##s = u'中文' s = '中文'.decode('utf-8') s = unicode('中文', 'utf-8')  >>> type(u'中文')

求長度(回傳字元數),邏輯中真正想要用的
#>>> u'中文' u'\ u4e2d\u6587' >>> len(u'中文') 2

結論
##弄清楚要處理的是str還是unicode, 使用對的處理方法(str.decode/unicode.encode)

下面是判斷是否為unicode/str的方法>>> isinstance(u'中文', unicode) 真 >>> isinstance('中文', unicode) False  >>> isinstance('中文', str) True >>> isinstance(u'中文', str) False

簡單原則:不要對str使用encode,不要對unicode使用decode (事實上可以對str進行encode的,具體見最後,為了保證簡單,不建議)

>>> '中文'.encode('utf-8') Traceback (most recent call last): File "", line 1, in UnicodeDecodeError: 'ascii' codec can; UnicodeDecodeError: 'ascii' codec can; UnicodeDecodeError: 'ascii' codec can; UnicodeDecodeError: 'ascii' codec can; UnicodeDecodeError: 'ascii' codec can; UnicodeDecodeError: 'ascii' codec can; UnicodeDecodeError: 'ascii' codec can; 't decode byte 0xe4 in position 0: ordinal not in range(128)  >>> u'中文'.decode('utf-8') Traceback (most recent call last): File "" , line 1, in File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode   , errors, True) UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)


不同編碼轉換,使用unicode作為中間編碼


#s是code_A的str s.decode('code_A').encode('code_B')

檔案處理,IDE和控制台

處理流程,可以這麼使用,把python看做一個水池,一個入口,一個出口

入口處,全部轉成unicode, 池裡全部使用unicode處理,出口處,再轉成目標編碼(當然,有例外,處理邏輯中要用到具體編碼的情況)

讀取檔案  外部輸入編碼,decode轉換為unicode  處理(內部編碼,統一unicode)  encode轉成所需的目標編碼  寫到目標輸出(檔案或控制台)

#IDE與控制台報錯,原因是print時,編碼和IDE自身編碼不一致導致

輸出時將編碼轉換成一致的就可以正常輸出

>>> print u '中文'.encode('gbk') ???? >>> print u'中文'.encode('utf-8') 中文

建議

規範編碼

統一編碼,防止因為某個環節產生的亂碼

環境編碼,IDE/文字編輯器, 檔案編碼,資料庫資料表編碼

保證程式碼原始檔編碼

這個很重要

py檔案預設編碼是ASCII, 在原始碼檔案中,如果使用到非ASCII字符,則需要在檔案頭部進行編碼聲明文檔

不聲明的話,輸入非ASCII會遇到的錯誤,必須放在文件第一行或第二行

File "XXX.py", line 3 SyntaxError: Non-ASCII character '\xd6' in file c.py on line 3, but no encoding declared; see http://www.php.cn/ for details
宣告方法

# -*- coding: utf-8 -*- 或#coding=utf- 8

若頭部宣告coding=utf-8, a = '中文' 其編碼為utf-8

若頭部宣告coding=gb2312, a = '中文' 其編碼為gbk

so, 同一項目中所有源文件頭統一一個編碼,並且聲明的編碼要和源文件保存的編碼一致(編輯器相關)

在原始碼用作處理的硬編碼字串,統一用unicode

將其類型和原始檔本身的編碼隔離開, 獨立無依賴方便流程中各個位置處理

if s == u'中文':  #而不是s == '中文'     pass #注意這裡s到這裡時,確保轉為unicode

以上幾步搞定後,你只需要關注兩個unicode和你設定的編碼(一般使用utf-8)

處理順序

1. Decode early 2. Unicode everywhere 3. Encode later

相關模組及一些方法

取得與設定係統預設編碼

>>> import sys >>> sys.getdefaultencoding() 'ascii'  >>> reload(sys) >>> sys.setdefaultencoding('utf-8') >>> sys. getdefaultencoding() 'utf-8'
str.encode('other_coding')

在python中,直接將某種編碼的str進行encode成另一種編碼str

#str_A為utf-8 str_A.encode('gbk')  執行的操作是str_A.decode('sys_codec').encode('gbk') 這裡sys_codec即為上一步sys.getdefaultencoding() 的編碼

'獲得和設定係統預設編碼'和這裡的str.encode是相關的,但我一般很少這麼用,主要是覺得複雜不可控,還是輸入明確decode,輸出明確encode來得簡單(個人觀點)

chardet

檔案編碼偵測,下載

>>> import chardet >>> f = open ('test.txt','r') >>> result = chardet.detect(f.read()) >>> result {'confidence': 0.99, 'encoding': 'utf- 8'}

\u字串轉對應unicode字串

#>>> u'中' u'\u4e2d'  > >> s = '\u4e2d' >>> print s.decode('unicode_escape') 中  >>> a = '\\u4fee\\u6539\\u8282\\u70b9\u72b66 \\u6001\\u6210\\u529f' >>> a.decode('unicode_escape') u'\u4fee\u6539\u8282\u70b9\u72b6\u6001\u6210#u529f以上就是Python 編碼處理的資料整理,後續繼續補充相關資料,謝謝大家對本站的支持!

更多Python 編碼處理-str與Unicode相關文章請關注PHP中文網!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn