首頁 >後端開發 >php教程 >學習正規表示式基礎

學習正規表示式基礎

韦小宝
韦小宝原創
2018-03-14 12:52:291371瀏覽

這篇文章講述了JavaScript正規表示式的基礎,大家對於JavaScript正規表示式不熟悉的正好可以來學習學習,講的都是JavaScript比較基礎的正規表示式,不熟悉的同學我們一起來看看吧!

正規表示式學習(持續更新)

#今天在學javascript的時候學到了RegExp對象,趁機學習正規表達式,以前沒接觸過,趁機學習一波,很舒服。

參考網站:正規表示式30分鐘入門教學點選開啟連結

1.什麼是正規表示式

正規表示式是用來表述字串匹配的規則。

2.正規表示式的相關概念

2.1元字元

    元字元是正規表示式中自己規定的一種特殊符號,在正規表示式中加入用以取代某些規則。

\b 表示單字的開始或結束
. 表示除換行以外的任意字符
*    表示*前面出現的任意個數的該字符,例如a*,表示前面有任意個數的a(重複0次或多次)
+    表示+前面出現的任數的該字符,例如a+,表示前面有任意數的a(重複1次或多次)
##重複大於等於n次{n, m}#重複n到m次
? 重複0或1次                                                                                                                           
{n} 重複n次
{n, }
\d  表示0-9的數字                                                                          中# #\w配字母或數字或底線或漢字                                         
\s符合任意的空格符,包括空格、製表符、換行符、中文全角空格等
^ 配對字串的開始                                                  
& #搭配字串的結束

3.簡單的正規表示式

    直接從範例走起:

    範例1:當我想要配對單字hello時,所寫的正規則表達式(匹配規則)為:hello

    這樣會匹配到所有含有hello的單字,如:helloworld也被配對了進來,但如果只想匹配hello,則需要使用元字元\b,將hello前後斷開,形成單獨的單字hello,則正規表示式應該為:\bhello\b

##    例2 :當要找的hello後面任意字元處跟著一個world,則應當使用元字元.和*,正規表示式為\bhello\b.*\world\b

    例3:當想要配對021-xxxxxxx類似這樣的電話號碼時,應當使用021-\d\d\d\d\d\d\d,這其中「021 -」為簡單的字符,不代表任何特殊意義,而後面使用的\d為元字符。這個正規表示式可簡寫為021-\d{7},代表\d重複了7次。

    例4:配對1個或多個連續數字,\d+

    例5:配對以a開頭的單字,\ba \w*\b

    例6:符合5-12位元的QQ號,^\d{5, 12}&

4 .字符轉義

    如果想要查找的字串裡面有元字符,需要在元字符前面加上\來將元字符轉為普通的字符。

5.字元類別

    這部分解決的問題是如果想要匹配的字元沒有對應的元字元對應怎麼辦,那麼我們需要手動創建一個字元類別。

    例如如果數字0-9沒有\d與之匹配,那麼當我們想要查找0-9的任意數字時,可以創建一個[0-9]的字符類,它的作用與\ d完全相同。

    例如正規表示式\(?0\d{2}[), -]?\d{8}可以用來配對電話號碼,依序解釋一下

\(代表對(進行轉義,表示其重複0或1次,\d表示兩個數字,[), -]表示)和-的字元類,表示其重複0或1次,後接著有8個數字。

6.分枝條件

    上面寫的

 \(?0\d{2}[), -]?\d{ 8}這樣的正規表示式可能會匹配到(01012345678或(010-12345678等不正確的字串,對於這樣的情況可以使用分枝條件,分枝條件與js中的邏輯或||類似,並且都是短路運算子,從左到右邊配對到一個條件能判斷時就結束。 2}\)\d{8}|0\d{2}-\d{8}|\(0\d{2}\)\d{8}

7.分組

    該部分為了解決重複的不是單個字符,而是多個字符的問題。寫法,但當重複字元為多個時,可以在重複字元外加上()。 0-4]\d|25[0-5]|[01]\d\d?\.){3}(2[0-4]\d|25[0-5]|[01]?\ d\d?)

8.反義

當需要尋找不屬於某個能夠簡單定義的字元時,例如除了xxx以外的字元時,需要用到反義

##[^x]符合除了x以外的字元[^aeiou]符合除了aeiou之外的字元
\W

#符合任意不是字母、數字、底線、漢字的字元

\D 符合任意不是數字的字元
#\B 符合任意不是單字開頭或結束位置的字元
\S 匹配任意不是空白的字元

##例如正規表示式^\S+&用來符合一段不含空格符的字元

#9.

後向引用

    這部分的內容跟前面的分組是匹配的,當我們使用()為字符分組後,這個分組我們可以通過編號的方式在後面繼續引用,對於通過()進行的分組,按照( 出現的順序從1開始進行分組,例如正則表達式\b(\w+)\s+\1\b,可以用來匹配重複出現的單詞,例如go go等,這裡就是透過\1引用了先前出現的分組。

##(exp)

配對exp,並捕捉目前內容到自動的群組裡                                                      

(?##匹配exp,並捕獲當前內容並分配群組名為name(?:exp)匹配exp,不為捕獲的內容分配組名#

10.零寬斷言

    用來找出在某部分內容之前或之後但不包含該內容的部分。

    正規表示式(?=exp)的意思是斷言後面出現的部分可以符合表達式exp。例如\b\w+(?=ing\b),符合以ing結尾的單字的前面部分。例如查找I'm dancing and singing時會符合dance和sing(由於有\w+不會符合為s)。

    正規表示式(?<=exp)的意思是斷言前面的部分可以符合表達式exp。例如(?<=\bre)\w+\b會符合以re為開頭的單字的後半部分,例如查找reading時會符合到ading。

    假如你想給一個很長的數字每三位加一個逗號,例如對123456789加逗號,可以使用正規表示式((?<=\d)\d {3})+\b,查找結果為234567890(這部分查找規則沒看懂。。。)

    下面的例子同時使用兩種斷言(?=<\ s)\d+(?=\s),用來匹配兩個空白字元之間的數字,不包括空白字元。

    總的來看,零寬斷言的目的是為了依照一定的規則來決定符合字元的起始點或終止點。

11.負向零寬斷言

# 前面提到了使用反義來尋找不是某個字元或不在某個字符裡。

    例如如果想找出單字出現了字母q而後面接的不是u。可能會寫\bq[^u]\w*\b。但對於這樣的表達式,當q出現在單字結尾時就會出現錯誤,因為[^u]會將單字的間隔符匹配掉,這樣會進而匹配下一個單詞,它會匹配到Iraq fighting這樣的字符串。

    為了解決反義的佔用問題,我們可以使用負向零寬斷言,因為它只符合一個位置,不會消耗任何字元。上面表達式的可以寫成\bq(?!u)\w*\b。

    同理,我們用(?

    一個更複雜的例子:(?<=<(\w+)>).*(?=<\/\1> )

  看到前面的(?<=)和後面的(?=),則知道前後都為零寬斷言,而<( \w+)>則代表html標記,如果前面的為,則後面零寬斷言的意思是(使用了轉義和後向引用)。所以這個正規表示式是為了符合html標記之間的部分。

12.註解

# 透過語法(?#comment)來包含註釋,例如2[0-4]\d(?#200-249)。

13.貪婪與懶惰

#

  在處理字串匹配問題時,通常的行為是匹配盡可能多的字元。以表達式a.*b和字串aabab為例,會匹配aabab,而不是匹配ab,這樣的匹配規則稱為貪婪匹配。

    而有時,我們需要匹配盡可能少字符的懶惰匹配,這時,需要在上面所說的限定符後面加上? ,如a.*?b就將貪婪匹配轉化為懶惰匹配,此時會匹配到aab(1-3的字符)和ab(4-5的字符)(具體原因涉及到正則表達式的匹配規則) 。

14.處理選項

    類似js裡面的flag,有不區別大小寫、多行模式、全域模式等。

15.平衡群組/遞迴配對

    這部分為了處理配對問題,例如想配對數學運算式中(5*3)))中的(5*3),不能簡單的寫為\(.*\),這樣會符合到整個表達式。那麼應採取的匹配策略類似於學到過的括號匹配問題,用棧來解決,遇到(壓棧,遇到)彈棧,如果最後棧為空,這說明表達式裡面的括號完全匹配,如果不為空,正規表示式引擎會回溯來使得括號匹配。

相關推薦:

JS的正規表示式如何使用


以上是學習正規表示式基礎的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn