搜尋
首頁後端開發Python教學python編碼總結(編碼類型、格式、轉碼)

本文詳細總結了python編碼。分享給大家供大家參考,如下:

【所謂unicode】

unicode是一種類似符號集的抽象編碼,它只規定了符號的二進位代碼,卻沒有規定這個二進位代碼應該如何儲存。也就是它只是一種內部表示,不能直接保存。所以儲存時需要規定一種儲存形式,例如utf-8和utf-16等。理論上unicode是一種能夠容納全世界所有語言文字的程式設計方案。 (其他編碼格式不再多說)

【所謂GB碼】

GB就是「國標」的意思,即:中華人民共和國國家標準。 GB碼是針對漢字的編碼,包括GB2312(GB2312-80),GBK,GB18030,表示範圍從小到大遞增,而且基本上是向下兼容的。另外常常遇到一種叫做CP936的編碼,實際上可以大概看做是GBK。

【判斷編碼】

1、使用isinstance(s, str)來判斷字串是否為一般字串(str為ascii類型的字串, utf-8、utf-16、GB2312、GBK等都是ascii型別的字串);

使用isinstance(s, unicode)來判斷一個字串是否為unicode編碼形式的字串(unicode編碼的字串才是unicode類型的字串)。

2、使用type()或.__class__

在編碼正確的情況下:

例如:stra = "中", 則使用type(stra)的結果是,表示ascii型別字串;

例如:strb = u"中", 則使用type(strb)的結果是,表示為unicode類型字串。


tmp_str = 'tmp_str'
print tmp_str.__class__   #<type &#39;str&#39;>
print type(tmp_str)    #<type &#39;str&#39;>
print type(tmp_str).__name__ #str
tmp_str = u&#39;tmp_str&#39;
print tmp_str.__class__   #<type &#39;unicode&#39;>
print type(tmp_str)    #<type &#39;unicode&#39;>
print type(tmp_str).__name__ #unicode


3、最好的方法是使用chardet判斷,特別是在web相關的操作中,例如抓取html頁面內容時,頁面的charset標籤只是標示編碼,有時候不對,而且頁面內容中一些中文可能超出了標示編碼的範圍,此時用charset檢測最為方便準確。

(1)安裝辦法:下載chardet後,將解壓縮得到的chardet資料夾放在Python安裝目錄的\Lib\site-packages目錄下,在程式中使用import chardet即可。

(2)使用辦法1:偵測全部內容判斷編碼


import urllib2
import chardet
res = urllib2.urlopen(&#39;http://www.php.cn&#39;)
res_cont = res.read()
res.close()
print chardet.detect(res_cont) #{&#39;confidence&#39;: 0.99, &#39;encoding&#39;: &#39;utf-8&#39;}


detect函數傳回值為一個包含2個鍵值對的字典,第一個是偵測置信度,第二個就是偵測到的編碼形式。

(3)使用方法2:偵測部分內容判斷編碼,提高速度


import urllib2
from chardet.universaldetector import UniversalDetector
res = urllib2.urlopen(&#39;http://www.php.cn&#39;)
detector = UniversalDetector()
for line in res.readlines():
 #detect untill reach threshold
 detector.feed(line)
 if detector.done:
  break
detector.close()
res.close()
print detector.result
#{&#39;confidence&#39;: 0.99, &#39;encoding&#39;: &#39;utf-8&#39;}


【轉換編碼】

1、從具體的編碼(ISO-8859-1[ASCII碼],utf-8,utf-16,GBK,GB2312等)轉換為unicode,直接使用unicode( s, charset)或s.decode(charset),其中charset為s的編碼(注意unicode在使用decode()時會出錯);


#将任意字符串转换为unicode
def to_unicode(s, encoding):
 if isinstance(s, unicode):
  return s
 else:
  return unicode(s, encoding)


注意:這裡在decode()的時候,如果遇到非法字元(例如不標準的全角空格\xa3\xa0,或\xa4\x57,真正的全角空格是\xa1\xa1),就會報錯。

解決方法:採用'ignore'模式,即:stra.decode('...', 'ignore').encode('utf-8')。

解釋:decode的函式原型是decode([encoding],[errors='strict']),可以用第二個參數控制錯誤處理的策略。

預設的參數是strict,代表遇到非法字元時拋出異常;如果設定為ignore,則會忽略非法字元;如果設定為replace,則會用?取代非法字元;如果設定為xmlcharrefreplace ,則使用XML的字元引用。

2、從unicode轉換為具體的編碼,也是直接用s.encode(charset),其中s為unicode編碼,charset為具體的編碼(注意非unicode在使用encode()時會出錯) ;

3、自然地,從一種具體編碼轉換為另一種具體編碼,就可以先decode成unicode再encode成最終編碼了。

【python命令列編碼(系統編碼)】

用python自帶的locale模組來偵測命令列的預設編碼(也就是係統的編碼)和設定命令列編碼:


import locale
#get coding type
print locale.getdefaultlocale() #(&#39;zh_CN&#39;, &#39;cp936&#39;)
#set coding type
locale.setlocale(locale.LC_ALL, locale=&#39;zh_CN.GB2312&#39;)
print locale.getlocale() #(&#39;zh_CN&#39;, &#39;gb2312&#39;)


#表示目前系統的內部編碼是cp936,近似於GBK。其實中文XP和WIN7的系統內部編碼都是cp936(GBK)。

【python程式碼中的編碼】

1、python程式碼中的字串在未被指定編碼的情況下,預設編碼與程式碼檔案本身的編碼一致。舉個例子:str = '中文'這個字串,如果是在utf8編碼的代碼檔案中,該字串就是utf8編碼;如果是在gb2312的檔案中,該字串就是gb2312編碼。那麼程式碼檔案本身的編碼怎麼知道呢?

(1)自己指定程式碼檔案的編碼:在程式碼檔案的頭部加上「#-*- coding:utf-8 -*-」來宣告該程式碼檔案為utf-8編碼。此時未被指定編碼的字串的編碼都變成了utf-8。

(2)在没有指定代码文件的编码时,创建代码文件时使用的是python默认采用的编码(一般来说是ascii码,在windows中实际保存为cp936(GBK)编码)。通过sys.getdefaultencoding()和sys.setdefaultencoding('...')来获取和设置该默认编码。


import sys
reload(sys)
print sys.getdefaultencoding() #ascii
sys.setdefaultencoding(&#39;utf-8&#39;)
print sys.getdefaultencoding() #utf-8


结合(1)和(2)做个试验:指定代码文件编码为utf-8时,用notepad++打开显示的是utf-8无DOM编码;未指定代码文件编码时,用notepad++打开显示的是ANSI编码(压缩编码,默认的保存编码形式)。

python編碼總結(編碼類型、格式、轉碼)

(3)如何永久地将python默认采用的编码设置为utf-8呢?有2种方法:

第一个方法:编辑site.py,修改setencoding()函数,强制设置为 utf-8;

第二个方法:增加一个名为 sitecustomize.py的文件,存放在安装目录下的\Lib\site-packages目录下

sitecustomize.py是在site.py被import执行的,因为 sys.setdefaultencoding()是在site.py的结尾处被删除的,所以可以在 sitecustomize.py使用 sys.setdefaultencoding()。

2、python代码中的字符串如果被指定了编码,举个例子:str = u'中文',该字符串的编码被指定为unicode(即python的内部编码)。

(1)这里有个误区需要注意!假如在py文件中有如下代码:


stra = u"中"
print stra.encode("gbk")


按上面说的stra是unicode形式,直接encode称gbk编码应该没问题啊?但是实际执行时会报错“UnicodeEncodeError: 'gbk' codec can't encode character u'\xd6' in position 0: illegal multibyte sequence”。

原因在于:python解释器在导入python代码文件并执行时,会先查看文件头有没有编码声明(例如#coding:gbk等)。如果发现声明,会将文件中的字符串都先解释成unicode的形式(这里先用默认编码gbk(cp936)将stra解码成unicode编码'd6d0'后保存),之后执行stra.encode('gbk')时,由于stra已经是unicode编码且'd6d0'在gbk的编码范围内,所以编码不会出现错误;如果文件头没有编码声明,则不会进行上述过程中的解码操作(这里就直接使用stra的unicode编码'd6'),之后执行stra.encode('gbk')时,由于'd6'不在gbk的编码范围所以报错。

(2)为避免这种类型的错误,最好在代码文件头上声明编码,或者麻烦点每次使用setdefaultencoding()。

(3)总的来说就是unicode是python解释器的内码,所有代码文件在导入并执行时,python解释器会先将字符串使用你指定的编码形式解码成unicode,然后再进行各种操作。所以不管是对字符串的操作,还是正则表达式,还是读写文件等等最好都通过unicode来进行。

【python中其他编码】

文件系统的编码:sys.getfilesystemencoding()
终端的输入编码:sys.stdin.encoding
终端的输出编码:sys.stdout.encoding

更多python編碼總結(編碼類型、格式、轉碼)相关文章请关注PHP中文网!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
學習Python:2小時的每日學習是否足夠?學習Python:2小時的每日學習是否足夠?Apr 18, 2025 am 12:22 AM

每天學習Python兩個小時是否足夠?這取決於你的目標和學習方法。 1)制定清晰的學習計劃,2)選擇合適的學習資源和方法,3)動手實踐和復習鞏固,可以在這段時間內逐步掌握Python的基本知識和高級功能。

Web開發的Python:關鍵應用程序Web開發的Python:關鍵應用程序Apr 18, 2025 am 12:20 AM

Python在Web開發中的關鍵應用包括使用Django和Flask框架、API開發、數據分析與可視化、機器學習與AI、以及性能優化。 1.Django和Flask框架:Django適合快速開發複雜應用,Flask適用於小型或高度自定義項目。 2.API開發:使用Flask或DjangoRESTFramework構建RESTfulAPI。 3.數據分析與可視化:利用Python處理數據並通過Web界面展示。 4.機器學習與AI:Python用於構建智能Web應用。 5.性能優化:通過異步編程、緩存和代碼優

Python vs.C:探索性能和效率Python vs.C:探索性能和效率Apr 18, 2025 am 12:20 AM

Python在開發效率上優於C ,但C 在執行性能上更高。 1.Python的簡潔語法和豐富庫提高開發效率。 2.C 的編譯型特性和硬件控制提升執行性能。選擇時需根據項目需求權衡開發速度與執行效率。

python在行動中:現實世界中的例子python在行動中:現實世界中的例子Apr 18, 2025 am 12:18 AM

Python在現實世界中的應用包括數據分析、Web開發、人工智能和自動化。 1)在數據分析中,Python使用Pandas和Matplotlib處理和可視化數據。 2)Web開發中,Django和Flask框架簡化了Web應用的創建。 3)人工智能領域,TensorFlow和PyTorch用於構建和訓練模型。 4)自動化方面,Python腳本可用於復製文件等任務。

Python的主要用途:綜合概述Python的主要用途:綜合概述Apr 18, 2025 am 12:18 AM

Python在數據科學、Web開發和自動化腳本領域廣泛應用。 1)在數據科學中,Python通過NumPy、Pandas等庫簡化數據處理和分析。 2)在Web開發中,Django和Flask框架使開發者能快速構建應用。 3)在自動化腳本中,Python的簡潔性和標準庫使其成為理想選擇。

Python的主要目的:靈活性和易用性Python的主要目的:靈活性和易用性Apr 17, 2025 am 12:14 AM

Python的靈活性體現在多範式支持和動態類型系統,易用性則源於語法簡潔和豐富的標準庫。 1.靈活性:支持面向對象、函數式和過程式編程,動態類型系統提高開發效率。 2.易用性:語法接近自然語言,標準庫涵蓋廣泛功能,簡化開發過程。

Python:多功能編程的力量Python:多功能編程的力量Apr 17, 2025 am 12:09 AM

Python因其簡潔與強大而備受青睞,適用於從初學者到高級開發者的各種需求。其多功能性體現在:1)易學易用,語法簡單;2)豐富的庫和框架,如NumPy、Pandas等;3)跨平台支持,可在多種操作系統上運行;4)適合腳本和自動化任務,提升工作效率。

每天2小時學習Python:實用指南每天2小時學習Python:實用指南Apr 17, 2025 am 12:05 AM

可以,在每天花費兩個小時的時間內學會Python。 1.制定合理的學習計劃,2.選擇合適的學習資源,3.通過實踐鞏固所學知識,這些步驟能幫助你在短時間內掌握Python。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前By尊渡假赌尊渡假赌尊渡假赌
威爾R.E.P.O.有交叉遊戲嗎?
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具