首頁 >後端開發 >Python教學 >Python中的字串操作與編碼Unicode詳解

Python中的字串操作與編碼Unicode詳解

高洛峰
高洛峰原創
2017-02-23 16:22:121287瀏覽

本文主要給大家介紹了關於 Python中的字串操作和編碼Unicode的一些知識,下面話不多說,需要的朋友們下面來一起學習吧。 <br>

字串類型<br>

str:Unicode字串。採用''或r''建構的字串皆為str,單引號可以用雙引號或三引號來取代。無論用哪種方式進行製定,在Python內部儲存時沒有區別。 <br>

bytes:二進位字串。由於jpg等其他格式的檔案不能用str來顯示,所以才用bytes來表示,bytes的每個位元組為一個0-255的數字。如果列印的時候,Python會把能夠用ASCII表示的部分顯示為ASCII,這樣方便閱讀。 bytes幾乎支援除了格式化以外的所有str的方法,甚至包含了re模組<br>

bytearray() :二進位可原地變動的字串。

utf-8編碼範圍<br>

#範圍 位元組數 儲存格式
0x0000~0x007F (0 ~ 127) 1位元組 0xxxxxxx
#0x0080~0x07FF(128 ~ 2047) 2位元組 110xxxxx 10xxxxxx
0x0800~FFFF(2048 ~ 65535)

<br>

<br>

<br>

  • ##' ##3位元組
1110xxxx 10xxxxxx 10xxxxxx

0x10000~1FFFFFF(65536 ~ 2097152)
  • 4位元組

    11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

<br>#0x2000000~0x3FFFFFF

#5位元組<br>

#11110xx 10xxxxxx 10xxxxxx 100xxx 10

11110xx 10xxxxxx 10xxxxxx 100xxx 10<br>11110xx 10xxxxxx 10xxxxxx 100xxx 10

1110xxx 0x4000000~0x7FFFFFFF) 

6位元組

1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

<br>

##1

<br>#BOM是byte order marker的縮寫,

#指定編碼寫入時的規則<br>Python在使用'utf-8 '編碼寫入檔案時不會寫入BOM頭,但如果指定編碼'utf-8-sig'則會迫使Python寫入一個BOM頭。

使用'utf-16-be'不會寫入一個BOM頭,但是採用'utf-16'則會寫入一個BOM頭。 <br>

>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-8-sig&#39;).write(&#39;aaa&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;\xef\xbb\xbfaaa&#39;
>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-16&#39;).write(&#39;bbb&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;\xff\xfeb\x00b\x00b\x00&#39;
>>> open(&#39;hh.txt&#39;,&#39;w&#39;,encoding=&#39;utf-16-be&#39;).write(&#39;ccc&#39;)
3
>>> open(&#39;hh.txt&#39;,&#39;rb&#39;).read()
b&#39;\x00c\x00c\x00c&#39;
>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-8&#39;).write(&#39;ddd&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;ddd&#39;

<br>讀取時的規則

如果指定了正確的編碼,那麼BOM會忽略,否則BOM會顯示為亂碼或回傳異常。 <br>

>>> open(&#39;h.txt&#39;,&#39;r&#39;).read()
&#39;锘縟dd&#39;
>>> open(&#39;h.txt&#39;,&#39;r&#39;,encoding=&#39;utf-8-sig&#39;).read()
&#39;ddd&#39;

#編碼與解碼

<br>

chr和ord<br>

>>> ord(&#39;中&#39;) #20013
>>> chr(20013) #&#39;中&#39;

<br>把Unicode硬編碼進字串中。

       '\xhh':以2位元十六進位表示一個字元

<br>       '\uhhhh':以4位元十六進位來表示一個字元:

       '\Uhhhhhhhh':以8位元十六進位表示一個字元

<br>

       ###>>> s = '> s = ' py\x74h\u4e2don' #'pyth中on'#############str和bytes,bytearray進行轉換################str.encode( encoding='utf-8')###############bytes(s,encoding='utf-8')################ bytes.decode(encoding='utf-8')###############str(B, encoding='utf-8')############ ####bytearray(string, encoding='utf-8')################bytearray(bytes)############文件編碼聲明############Python預設使用utf-8編碼。 ############# -*- coding: latin-1 -*- ###:表示宣告文件為latin-1編碼。 #########幫助函數###############
sys.platform  #&#39;win32&#39;
sys.getdefaultencoding() # &#39;utf-8&#39;
sys.byteorder  #&#39;little&#39;
s.isalnum()  #s表示字符串
s.isalpha()
s.isdecimal
s.isdigit()
s.isnumeric()
s.isprintable()
s.isspace()
s.isidentifier() #如果字符串可以用作变量名,那么返回True
s.islower()
s.isupper()
s.istitle()
###################更多Python中的字串操作和編碼Unicode詳解相關文章請關注PHP中文網! ############
陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn