首頁  >  文章  >  後端開發  >  python 正規表示式學習小結

python 正規表示式學習小結

高洛峰
高洛峰原創
2017-01-12 16:28:101145瀏覽

  在Python中實現正則的方式是透過re(regular expression的縮寫)模組來實現的,你可以調用re模組的各種方法來實現不同的功能,下面我們就來說下,在Python中通過re模組可以呼叫那些方法,以及這些方法的作用都是什麼;還有就是正規的實例以及各種特殊符號的意思:

  1、re.sub和replace:

    sub的全拼是substitute,也都是substitute,也都是substit就是替換的意思;既然知道是替換了,那就很容易用到實例中了,其實replace也是替換的意思,只不過它們的用法不太相同,下面用一個例子來詳細說明下它們的異同之處:

>>> import re
>>> str1 = 'Hello 111 is 222'
>>> str2 = str1.replace('111','222')
>>> print(str2)
Hello 222 is 222
>>>

   這是一個簡單的例子,如果是下面這種情形,把所有的數字都換成222,那麼用replace實現起來就比較麻煩,而用re模組的sub方法實現起來就比較的簡單: (如果是更複雜的操作,使用replace可能就無法實現了。)

>>> import re
>>> str1 = 'Hello 123 is 456'
>>> str2 = re.sub('\d+','222',str1)
>>> print(str2)
Hello 222 is 222
>>>

  2、re.search()和re.match():

    match: 只從字串的開始與正則從字串的開始與正則表達式的開始與正則表達式,匹配成功返回matchobject,否則返回none.

    search:將字符串的所有字符串嘗試與正則表達式匹配,如果所有的字符串都沒有匹配成功則返回none,否則返回matchobject.🀜🀜『『〜『這個例子說明了match和search的異同點,也說明了,在實際的應用中,search用的還是比較多的:

import re
str = 'helloword,i am alex'
if not re.match('word',str):
print('cannot match')
print(re.match('hello',str1).group())
print(re.search('word',str1).group())
#显示结果
cannot match
hello
word

  3、re.split:

   、中對一個字串進行分割的話,只需要呼叫str的split方法就可以實現,但是這個split只能根據某個字元來進行分割的操作,如果要同時指定多個字元來分割的話,它就無法實現了。

    好在re模組也提供了split這個方法來對字符串進行分割,而且這個方法更加強大,可以同時根據多個字符進行分割的操作,下面來看分別看一下str的split和re的split有什麼不同的地方:

str1 = 'helloword,i;am\nalex'
str2 = str1.split(',')
print(str2)
import re
str3 = re.split('[,|;|\n]',str1)
print(str3)
#下面是不同的输出结果
['helloword', 'i;am\nalex']
['helloword', 'i', 'am', 'alex']

    從中我們可以看出,上面說的真實性。

  4、findall:

    findall方法基本上都是和compile方法同時出現的,它們的用法是:

🀜tern。 〜 〜)使用patte實例呼叫findall方法產生match物件來取得結果,在將它們結合的實例之前,我們先來看下正規表示式中預設的特殊字元意義:


    d 來匹配任何十進制數;它相當於類別[0-9]。


    D 符合任何非數字字元;它相當於類別 [^0-9]。

    s 匹配任何空白字元;它相當於類別[ "t"n"r"f"v]。

    S 匹配任何非空白字元;它相當於類別[^ "t"n"r"f"v"n"r"f"v ]。

    w 符合任何字母數字字元;它相當於類別 [a-zA-Z0-9_]。

    W 符合任何非字母數字字元;它相當於類別 [^a-zA-Z0-9_]。

   看完這幾個特殊字符的含義,我們再舉一個例子來說明一下上面的論點:

import re
str1 = 'asdf12dvdve4gb4'
pattern1 = re.compile('\d')
pattern2 = re.compile('[0-9]')
mch1 = pattern1.findall(str1)
mch2 = pattern2.findall(str1)
print('mch1:\t%s'% mch1)
print('mch2:\t%s'% mch2)
#输出结果
mch1: ['1', '2', '4', '4']13 mch2: ['1', '2', '4', '4']

   上面的兩個實例都可以很好的闡述了上面的論點很好的闡述上面的論點很好的闡述了上面的論點很好的闡述上面的論點很好的闡述了上面的論點很好的闡述上面的論點很好的闡述了上面的論點很好的闡述上面的論點很好,特殊字元d確實跟[0-9]是一樣的,透過輸出結果就可以看出,那麼如果你不想把每個數字都拆分為一個元素放在列表中,而是想把12整體的輸出出來,那麼你可以這樣做:(就是在d的後面加上個+號來實現的,這裡的+號表示的是把一個或多個相連的十進制數字整體輸出)

import re
str1 = 'asdf12dvdve4gb4'
pattern1 = re.compile('\d+')
pattern2 = re.compile('[0-9]')
mch1 = pattern1.findall(str1)
mch2 = pattern2.findall(str1)
print('mch1:\t%s'% mch1)
print('mch2:\t%s'% mch2)
#输出结果
mch1: ['12', '4', '4']
mch2: ['1', '2', '4', '4']

   我們再舉一個小例子,這個例子是結合特殊字元和re的sub功能實現一下把字串中所有的空格都給去掉:

import re
str1 = 'asd \tf12d vdve4gb4'
new_str = re.sub('\s*','',str)
print(new_str)
#输出结果
asdf12dvdve4gb4

   

『 5、元〜🀜


『 5、元〜二元字元有;2元字元:. ^ $ * + ? { } [ ] | ( )  


    我們首先考察的元字元是"[" 和"]"。它們常用來指定一個字元類別,所謂字元類別就是你想要匹配的一個字元集。字元可以單一列出,也可以用“-”號分隔的兩個給定

字元來表示一個字元區間。例如,[abc] 將符合"a", "b", 或 "c"中的任一個字元;也可以用區間[a-c]來表示同一字元集,和前者效果一致。如果你只想匹配小寫字母,那麼 RE 應寫成 [a-z].元字元在類別裡並不起作用。例如,[akm$]將匹配字符"a", "k", "m", 或"$" 中的任意一個;"$"通常用作元字符,但在字符類別裡,其特性被除去,恢復成普通字
符。

    []:元字符[]表示字符类,在一个字符类中,只有字符^、-、]和\有特殊含义。字符\仍然表示转义,字符-可以定义字符范围,字符^放在前面,表示非.(这个在上面的特殊字符示例中也有提现),

    + 匹配+号前内容1次至无限次
    ? 匹配?号前内容0次到1次
    {m} 匹配前面的内容m次
    {m,n} 匹配前面的内容m到n次

    下面通过一个小例子,来阐述一下上面的字符在元字符[]中的使用:(在下面的这个例子中,要注意的有两点:一是在\d+后面的?号的含义,二是在匹配的前面加上了一个字符r,其实在这个示例中,加与不加都可以显示一样的结果)

>>> import re
>>> print(re.findall(r"a(\d+?)","a123b"))
['1']
>>> print(re.findall(r"a(\d+)","a123b"))
['123']
>>>


以上所述是小编给大家介绍的python 正则表达式学习小结,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对PHP中文网的支持!

更多python 正则表达式学习小结相关文章请关注PHP中文网!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn