詳解Python編碼處理之str與Unicode的區別與使用分析-Python教學-PHP中文網

首頁

後端開發

Python教學

詳解Python編碼處理之str與Unicode的區別與使用分析

高洛峰

Mar 16, 2017 pm 04:23 PM

用python處理中文，讀取文件或訊息時，如果發現亂碼(字串處理，讀寫文件，print)，大多數人的做法是，呼叫encode/decode進行調試，並沒有明確思考為何出現亂碼，今天我們來討論如何處理編碼問題。

注意: 以下討論為Python2.x版本, Py3k下未測試

#調試時最常出現的錯誤

錯誤1

Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe6 in position 0: ordinal not in range(128)</module></stdin>

錯誤2

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)</module></stdin>

首先

必須有大體概念，了解下字元集，字元編碼

ASCII | Unicode | UTF-8 | 等等

字元編碼筆記：ASCII，Unicode和UTF-8

str 和unicode

str和unicode都是basestring的子類別

所以有判斷是否為字串的方法

def is_str(s): return isinstance(s, basestring)

str和unicode 轉換

str -> decode('the_coding_of_str') -> unicode unicode -> encode('the_coding_you_want') -> str

#區別

#str是位元組串，由unicode經過(encode)後的位元組組成的

宣告方式

>>> s = ‘中文‘ s = u‘中文‘.encode(‘utf-8‘)  
>>> type(‘中文‘) <type></type>

求長度(返回位元組數)

>>> u‘中文‘.encode(‘utf-8‘) ‘\xe4\xb8\xad\xe6\x96\x87‘ 
>>> len(u‘中文‘.encode(‘utf-8‘)) 
6

unicode才是真正意義上的字串，由字元組成

宣告方式

>>> s = u‘中文‘ 
>>> s = ‘中文‘.decode(‘utf-8‘) 
>>> s = unicode(‘中文‘, ‘utf-8‘)  
>>> type(u‘中文‘) <type></type>

求長度(傳回字元數),在邏輯中真正想要用的

>>> u‘中文‘ u‘\u4e2d\u6587‘ 
>>> len(u‘中文‘) 
2

結論

搞懂要處理的是str還是unicode, 使用對的處理方法(str.decode/unicode.encode)

下面是判斷是否為unicode/str的方法

>>> isinstance(u‘中文‘, unicode) True 
>>> isinstance(‘中文‘, unicode) False  
>>> isinstance(‘中文‘, str) True 
>>> isinstance(u‘中文‘, str) False

簡單原則：不要對str使用encode，不要對unicode使用decode (事實上可以對str進行encode的，具體見最後，為了保證簡單，不建議)

>>> ‘中文‘.encode(‘utf-8‘) 
Traceback (most recent call last): File "", line 1, in  UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe4 in position 0: ordinal not in range(128)  
>>> u‘中文‘.decode(‘utf-8‘) 
Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)</module></stdin>

不同編碼轉換,使用unicode作為中間編碼

#s是code_A的str s.decode(‘code_A‘).encode(‘code_B‘)

#檔案處理,IDE和控制台

處理流程，可以這麼使用，把python看做一個水池，一個入口，一個出口

入口處，全部轉成unicode , 池裡全部使用unicode處理，出口處，再轉成目標編碼(當然，有例外，處理邏輯中要用到具體編碼的情況)

讀文件外部輸入編碼，decode轉成unicode 處理(內部編碼，統一unicode) encode轉成所需的目標編碼寫到目標輸出(檔案或控制台)

IDE和控制台報錯，原因是print時，編碼和IDE自身編碼不一致導致

輸出時將編碼轉換成一致的就可以正常輸出

>>> print u‘中文‘.encode(‘gbk‘) ???? 
>>> print u‘中文‘.encode(‘utf-8‘) 中文

建議

規範編碼

統一編碼，防止因為某個環節產生的亂碼

環境編碼，IDE/文字編輯器, 檔案編碼，資料庫資料表編碼

保證程式碼原始檔編碼

這很重要

py檔案預設編碼是ASCII, 在原始碼檔案中，如果用到非ASCII字符，需要在檔案頭進行編碼聲明文件

#不聲明的話，輸入非ASCII會遇到的錯誤,必須放在檔案第一行或第二行

File "XXX.py", line 3 SyntaxError: Non-ASCII character ‘\xd6‘ in file c.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

宣告方法

# -*- coding: utf-8 -*- 或者 #coding=utf-8

若頭部宣告coding=utf-8, a = '中文' 其編碼為utf-8

若頭部聲明coding=gb2312, a = '中文' 其編碼為gbk

so, 同一項目中所有來源文件頭統一一個編碼,並且聲明的編碼要和源文件保存的編碼一致(編輯器相關)

在原始碼用作處理的硬編碼字串，統一用unicode

将其类型和源文件本身的编码隔离开, 独立无依赖方便流程中各个位置处理

if s == u‘中文‘:  #而不是 s == ‘中文‘     pass #注意这里 s到这里时，确保转为unicode

以上几步搞定后，你只需要关注两个 unicode和你设定的编码(一般使用utf-8)

处理顺序

1. Decode early 2. Unicode everywhere 3. Encode later

相关模块及一些方法

获得和设置系统默认编码

>>> import sys 
>>> sys.getdefaultencoding() ‘ascii‘  
>>> reload(sys) <module> 
>>> sys.setdefaultencoding(‘utf-8‘) 
>>> sys.getdefaultencoding() ‘utf-8‘ 
>>> str.encode(‘other_coding‘)</module>

在python中，直接将某种编码的str进行encode成另一种编码str

#str_A为utf-8 str_A.encode(‘gbk‘) 执行的操作是 str_A.decode(‘sys_codec‘).encode(‘gbk‘) 这里sys_codec即为上一步 sys.getdefaultencoding() 的编码

‘获得和设置系统默认编码‘和这里的str.encode是相关的，但我一般很少这么用，主要是觉得复杂不可控,还是输入明确decode，输出明确encode来得简单些

chardet

文件编码检测，下载

>>> import chardet 
>>> f = open(‘test.txt‘,‘r‘) 
>>> result = chardet.detect(f.read()) 
>>> result {‘confidence‘: 0.99, ‘encoding‘: ‘utf-8‘}

\u字符串转对应unicode字符串

>>> u‘中‘ u‘\u4e2d‘  
>>> s = ‘\u4e2d‘ 
>>> print s.decode(‘unicode_escape‘) 中  
>>> a = ‘\\u4fee\\u6539\\u8282\\u70b9\\u72b6\\u6001\\u6210\\u529f‘ 
>>> a.decode(‘unicode_escape‘) u‘\u4fee\u6539\u8282\u70b9\u72b6\u6001\u6210\u529f‘

以上是詳解Python編碼處理之str與Unicode的區別與使用分析的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

python中兩個列表的串聯替代方案是什麼？May 09, 2025 am 12:16 AM

可以使用多種方法在Python中連接兩個列表：1.使用操作符，簡單但在大列表中效率低；2.使用extend方法，效率高但會修改原列表；3.使用 =操作符，兼具效率和可讀性；4.使用itertools.chain函數，內存效率高但需額外導入；5.使用列表解析，優雅但可能過於復雜。選擇方法應根據代碼上下文和需求。

Python：合併兩個列表的有效方法May 09, 2025 am 12:15 AM

有多種方法可以合併Python列表：1.使用操作符，簡單但對大列表不內存高效；2.使用extend方法，內存高效但會修改原列表；3.使用itertools.chain，適用於大數據集；4.使用*操作符，一行代碼合併小到中型列表；5.使用numpy.concatenate，適用於大數據集和性能要求高的場景；6.使用append方法，適用於小列表但效率低。選擇方法時需考慮列表大小和應用場景。

編譯的與解釋的語言：優點和缺點May 09, 2025 am 12:06 AM

CompiledLanguagesOffersPeedAndSecurity，而interneterpretledlanguages provideeaseafuseanDoctability.1）commiledlanguageslikec arefasterandSecureButhOnderDevevelmendeclementCyclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesandentency.2）cransportedeplatectentysenty

Python：對於循環，最完整的指南May 09, 2025 am 12:05 AM

Python中，for循環用於遍歷可迭代對象，while循環用於條件滿足時重複執行操作。 1）for循環示例：遍歷列表並打印元素。 2）while循環示例：猜數字遊戲，直到猜對為止。掌握循環原理和優化技巧可提高代碼效率和可靠性。

python concatenate列表到一個字符串中May 09, 2025 am 12:02 AM

要將列表連接成字符串，Python中使用join()方法是最佳選擇。 1)使用join()方法將列表元素連接成字符串，如''.join(my_list)。 2)對於包含數字的列表，先用map(str,numbers)轉換為字符串再連接。 3)可以使用生成器表達式進行複雜格式化，如','.join(f'({fruit})'forfruitinfruits)。 4)處理混合數據類型時，使用map(str,mixed_list)確保所有元素可轉換為字符串。 5)對於大型列表，使用''.join(large_li

Python的混合方法：編譯和解釋合併May 08, 2025 am 12:16 AM

pythonuseshybridapprace，ComminingCompilationTobyTecoDeAndInterpretation.1）codeiscompiledtoplatform-Indepententbybytecode.2）bytecodeisisterpretedbybythepbybythepythonvirtualmachine，增強效率和通用性。

了解python的' for”和' then”循環之間的差異May 08, 2025 am 12:11 AM

theKeyDifferencesBetnewpython's“ for”和“ for”和“ loopsare：1）” for“ loopsareIdealForiteringSequenceSquencesSorkNowniterations，而2）”，而“ loopsareBetterforConterContinuingUntilacTientInditionIntionismetismetistismetistwithOutpredefinedInedIterations.un