在php中,正規表示式是描述字符排列模式的一種自訂語法規則,自身俱有一套非常完整的、可以編寫模式的語法體系,提供了一種靈活且直觀的字符串處理方法。正規表示式描述的是一種字串匹配模式,可以用來檢查一個字串中是否含有某種子字串、將匹配的子字串做替換或從某個字串中取出符合某個條件的子字串等等。
本教學操作環境:windows7系統、PHP8版、DELL G3電腦
可能大家之前聽過正規表示式,大概的印像是很難學、很複雜,有種深不可測的感覺。其實正規表示式沒有那麼神秘,它是描述字元排列模式的一種自訂語法規則。
什麼是正規表示式
正規表示式也稱為模式表達式,本身俱有一套非常完整的、可以寫模式的語法體系,提供了一種靈活且直覺的字串處理方法。正規表示式透過建構具有特定規則的模式,與輸入的字串資訊比較,在特定的函數中使用從而實現字串的匹配、查找、替換及分割等操作。
舉個我們在日常生活中的例子,如果想搜尋電腦某個目錄下的所有txt 格式的文件,就可以在該目錄下輸入*.txt,然後按回車鍵,就可以列出目錄下的所有txt 格式的檔案了。這裡使用到的*.txt就可以理解為一個簡單的正規表示式。
下面使用正規表示式的語法建構了兩個例子,如下所示:
/http(s)?:\/\/[\w.]+[\w\/]*[\w.]*\??[\w=&\+\%]*/is // 匹配网址 URL 的正则表达式 /^\w{3,}@([a-z]{2,7}|[0-9]{3})\.(com|cn)$/ // 匹配邮箱地址的正则表达式
不要被上例中看似亂碼的字串給嚇退,它們就是按照正則表達式的語法規則建構的,是一種由普通字元和具有特殊功能的字元組成的字串。而且要將這些字串放在特定的正規表示式函數中使用才有效果。
正規表示式的用途
#正規表示式描述的是一種字串比對模式,可以用來檢查一個字串中是否含有某種子字串、將符合的子字串做替換或從某個字串中取出符合某個條件的子字串等等。例如,當使用者提交表單後,要判斷輸入的電話號碼、E-mail 地址等是否有效,用普通的基於字面的字元驗證顯然是不夠的。
正規表示式是由普通字元(例如字元 a 到 z)以及特殊字元(稱為「元字元」)所組成的文字模式。正規表示式作為一個模板,將某個字元模式與所搜尋的字串進行比對。正規表示式的模式可以是單一的字元、字元集合、字元範圍、字元間的選擇或所有這些元件的任意組合。
使用正規表示式的目的就是可以透過簡單的辦法來實現強大的功能。為了簡單、有效而又不失強大,造成了正規表示式規則的複雜,建構正確、有效的正規表示式更是難度較大,所以需要付出一些努力才行。入門之後透過一定的參考和大量實踐,在開發實踐中使用正規表示式還是比較有效且有趣的。
正規表示式中的常用術語
在學習正規表示式之前,先來了解正規表示式中幾個容易混淆的術語,這對於學習正規表示式有很大的幫助。
1) grep
原本是 ED 編輯器中的指令,用來顯示檔案中特定的內容。後來成為一個獨立的工具 grep。
2) egrep
grep 雖然不斷地更新升級,但仍無法跟上科技的腳步。為此,貝爾實驗室寫出了 egrep,意為「擴展的 grep"。這大大增強了正規表示式的能力。
3) POSIX(Portable Operating System Interface of UNIX)
可移植作業系統介面。在 grep 發展的同時,其他一些開發人員也根據自己的喜好開發了具有獨特風格的版本。但問題也隨之而來,有的程式支援某個元字符,而有的程式則不支援。因此,就有了POSIX。 POSIX 是一系列標準,確保了作業系統之間的移植性。不過 POSIX 和 SQL 一樣,沒有成為最終的標準而只能作為一個參考。
4) Perl(Practical Extraction and Reporting Language)
實際抽出與報告語言。 1987 年,Larry Wall 發布了 Perl。在隨後的 7 年時間裡,從 Perl1 到現在的 Perl5,最終成為了 POSIX 之後的另一個標準。
5) PCRE
Perl 的成功,讓其他的開發人員在某種程度上要相容"Perl",包括 C/C 、Java、Python 等都有自己的正規表示式。 1997 年,Philip Hazel 開發了 PCRE 函式庫,這是一個相容 Perl 正規表示式的一套正規引擎,其他開發人員可以將 PCRE 整合到自己的語言中,為使用者提供豐富的正規功能。許多軟體都使用 PCRE,PHP 正是其中的一員。
正規表示式語法規則
在使用正規表示式之前我們一定要先來學習正規表示式的語法。正規表示式的構成元素中一般包括普通字元、元字元、限定符、定位點、非列印字元和指定替換項等。
1) 普通字符
普通字符包括沒有明確指定為元字符的所有可打印和不可打印字符,包括所有大小寫字母、數字、標點符號和一些符號。最簡單的正規表示式是用於搜尋字串相比較的單一普通字元。例如,單字元正則表達式/A/會始終符合字母 A。
也可以將多個單字元組合起來形成較長的表達式,例如,正規表示式/the/會匹配搜尋字串中的 the、there、other 和 over the lazy dog 等。無須使用任何串聯運算符,只需連續輸入字元即可。
2) 元字元
除普通字元之外,正規表示式還可以包含「元字元」。元字元可分為單字元字元和多重字元元字元。例如,元字元\d,它與數字字元相符。
下表中列出了所有的單字元字元。
元字元 | #行為 | 範例 |
---|---|---|
zo* 與「z」和「zoo」符合 | ||
zo 與「zo」和「zoo」匹配,但與「z」不匹配 |
零次或一次符合前面的字元或子表達式,等效於{0,1} 當? 緊接在任何其他限定在符(*、 、?、{n}、{n,} 或{n,m})之後時,配對模式是非貪婪的。非貪婪模式匹配搜尋到的、盡可能少的字串,而預設的貪婪模式匹配搜尋到的、盡可能多的字串 |
|
do(es)? 與“do”或“does”中的“do”匹配 | ^ | 匹配搜尋字串開始的位置。如果標誌中包括 m(多行搜尋)字符,^ 也會匹配 \n 或 \r 後面的位置。如果將^ 用作括號表達式中的第一個字符,就會對字符集取反|
[^ abc] 與a、b、c 以外的任何字元匹配 | $ | |
\d{3}$ 與搜尋字串結尾處的3 個數字符合 | #. | |
a.c 與“abc”“a1c”和“a-c”匹配 | #[] | 標記括號表達式的開始和結尾|
[^aAeEiIoOuU] 與任何非元音字元匹配 | #{} | |
#a {2,3} 與「aa」和「aaa」符合 | () | |
A(\d) 與「A0」至「A9」相符。儲存該數字以備將來之用 | | | 指示兩個或多個項目之間進行選擇|
(z|f)ood 與「zood」或「food」配對 | / | |
/abc/gi 是與 “abc”相符的 JavaScript 文字正規表示式。 g(全域)標誌指定查找模式的所有符合項,i(忽略大小寫)標誌使搜尋不區分大小寫 | \ |
這些特殊字元在括號表達式內出現時就會失去它們的意義,變成普通字元。若要匹配這些特殊字符,必須先轉義字符,即在字符前面加反斜杠\。例如,若要搜尋 文字字符,則可使用表達式\ 。
除了以上單字元字元外,還有一些多重字元元字符,如下表所示。
元字元 | 行為 | 範例 |
---|---|---|
#\b | 與一個字邊界匹配。即字與空格間的位置 | er\b 與「never」中的「er」匹配,但與「verb」中的「er」不符 |
\B | 非邊界字匹配 | er\B 與「verb」中的「er」匹配,但與「never」中的「er」不匹配 |
\d | 數字字元匹配,等效於[0-9] | 在搜尋字串“12 345”中,\d{2} 與“12”和“34”匹配。 \d 與“1”,“2”、“3”、“4”和“5”匹配 |
#\D | 非數字字元匹配,等效於[^0-9] | /D 與「abc123 def」中的「abc」與「def」符合 |
\w | 與A-Z、a-z、0-9 和下劃線中的任意任意字元匹配,等效於[A-Za-z0-9] | 在搜尋字串「The quick brown fox...」中,\ w 與「The」、「quick」、「brown」和「fox」配對 |
#\W | 與A-Z、a-z、0-9 和底線以外的任意字元匹配,等效於[^A-Za-z0-9] | 在搜尋字串“The quick brown fox...”中,\W 與“...”和所有空格匹配 |
[xyz] | 字元集,與任何一個指定字元匹配 | [abc] 和「plain」中的「a」匹配 |
[^xyz] | 反向字元集,與未指定的任何字元匹配 | [^abc] 與「plain」中的「p」、「1」、「i」和「n」符合 |
[a-z] | 字元範圍,符合指定範圍內的任何字元 | [a-z] 與「a」到「z」範圍內的任何小寫字母字元符合 |
[^a-z] | 反向字元範圍,與不在指定範圍內的任何字元匹配 | [^a-z] 與不在範圍“a”到“z”內的任何字元匹配 |
{n} | 剛好匹配n 次,n 是非負整數 | o{2} 與「Bob」中的「o」不匹配,但與「fooood」中的兩個「o」匹配 |
{n,} | 至少符合n 次,n 是非負整數 * 與{0,} 相等 與{1,} 相等 |
o{2} 與「Bob」中的「o」不匹配,但與「fooood」中的所有「o」匹配 |
{n,m} | 至少匹配n 次,至多m 次。 n 和m 是非負整數,其中n<= m,逗號和數字之間不能有空格 ? 與{0,1} 相等 |
在搜尋字串「1234567」中,\d{ 1,3} 與「123」、「456」和「7」符合 |
(模式) | 與模式相符並儲存符合項。可以從 JavaScript 中的 exec Method 傳回的陣列元素中檢索已儲存的符合項目。若要符合括號字元(),請使用「\(」或「\)」 | (Chapter|Section) [1-9] 與「Chapter 5」配對,並儲存「Chapter」以備日後之用 |
(?:模式) | 與模式匹配,但不保存匹配項,即不會儲存匹配項以備將來之用。這對於用「or」字元(|)組合模式元件的情況很有用 | industry(?:y|ies) 與 industry|industries 相等 |
(? =模式) | 正預測先行。找到一個匹配項後,將在匹配文字之前開始搜尋下一個匹配項。不會儲存符合項目以備將來之用 | ^(?=_.*\d.{4,8}$ 對密碼套用限制: 其長度必須介於4 到8 字符之間,並且必須至少包含一個數字,在該模式中,*\d 查找後跟有數字的任意多個字元。對於搜尋字串“abc3qr”,與“abc3”匹配。 從該匹配項之前,(而不是之後)開始,{4,8} 與包含4~8 個字元的字串匹配,與“abc3qr”匹配。 ^ 和$ 指定搜尋字串的開始和結束位置,將在搜尋字串包含匹配字元之外的任何字元時阻止匹配 |
(?!模式) | 負預測先行。匹配與模式不匹配的搜尋字串。找到一個匹配項後,將在匹配文字之前開始搜尋下一個匹配項。不會保存匹配項以備將來之用 | \b(?!th)/w \b 與不以“th”開頭的單字匹配在該模式中,\b 與一個字邊界匹配。對於搜尋字串“quick”,與第一個空格相符。 (?!th) 與非「th」字串匹配與「qu」匹配,從該匹配項開始,!w 與一個字匹配,即與「quick」匹配 |
\cx | 符合x 指示的控製字元。 x 的值必須在 A-Z 或 a-z 範圍內。如果不是這樣,就假定c 是文字「c」字元本身 | \cM 與Ctrl M 或一個回車符號匹配 |
\xn | 匹配n,此處的n 是一個十六進位轉義碼。十六進制轉義碼必須正好是兩位數長。允許在正規表示式中使用ASCII 代碼 | \x41 與「A」匹配、\x41 等效於後跟有「1」的「\x04」(因為n 必須剛好是兩位數) |
\num | 符合num,此處的num 為正整數。這是對以保存的匹配項的引用 | (.)\1 與兩個連續的相同字元匹配 |
\n | ##標識一個八進制轉義碼或反向引用。如果\n 前面至少有n 個捕獲子表達式,那麼n 是反向引用;否則,如果n 是八進位數(0-7),那麼n 是八進制轉義碼(\d) \1 與兩個連續的相同數字匹配 | |
標識一個八進位轉義碼或反向引用。如果 \nm 前面至少有 nm 個捕獲子表達式,那麼 nm 就是反向引用。如果 \nm 前面至少有 n 個捕獲子表達式,則 n 是反向引用,後面跟著文字 m。如果上述情況都不存在,當n 和m 是八進制數字(0-7)時,\nm 匹配八進制轉義碼nm | \11 與製表符匹配 | |
#\nml | 當n 是八進位數字(0-3)、m 和1 是八進位數字(0-7)時,會匹配八進位轉義碼nml | \011與製表符匹配 |
\un | 匹配n,其中n 是以4 位十進制數字表示的Unicode 字元 | \u00A9 與版權符號(©️)符合 |
3) 非列印字元
非列印字元是由普通字元與轉義字元組成,用來在正規表示式中匹配特定行為的字符,如換行、換頁、空白符等。下表列出了非列印字元。字元 | 符合 | 等效於 |
---|---|---|
##\f | ||
#換頁符號 | \x0c 和\cL | |
換行符 | \x0a 和\cJ | |
回車符號 | \x0d 和\cM | |
任何空白字符,包括空格、製表符和換頁符 | [\f\b\r\t\v] | |
任何非空白字元 | [^\f\b\r\t\v] |
\x09 和\cI
\v
4) 優先順序 | ||
---|---|---|
在使用正規表示式時,需要注意符合的順序。通常相同優先權是從左到右進行運算的,不同優先順序的運算先高後低。各種操作符的匹配順序優先順序從高到低,如下表所示。 | 順序 | |
描述 | ##1 | |
轉義符 | 2 | |
#括號與中括號 | 3 | |
#4 |
另外,字符具有高于替换运算符的优先级,例如,允许 "m|food" 匹配 "m" 或 "food"。
替换
正则表达式中的替换允许对两个或多个替换选项之间的选择进行分组。实际上可以在模式中指定两种匹配模式的或关系。可以使用管道|字符指定两个或多个替换选项之间的选择,称之为“替换”。匹配管道字符任一侧最大的表达式。
例如:
/Chapter|Section [1-9][0-9]{0,1}/
该正则表达式匹配的是字符串“Chapter”或者字符串“Section”后跟一个或两个数字。
如果搜索字符串是“Section 22”,那么该表达式匹配“Section 22”。但是,如果搜索字符串是“Chapter 22”,那么表达式匹配单词“Chapter”,而不是匹配“Chapter 22”。
为了解决这种形式的表达式可能带来的误导,可以使用括号来限制替换的范围,即确保它只应用于两个单词“Chapter”和“Section”。可以通过添加括号来使正则表达式匹配“Chapter 1”或“Section 3”。将以上表达式改成如下形式:
/(Chapter|Section) [1-9][0-9]{0,1}/
修改后,如果搜索字符串是“Section 22”,那么该表达式匹配“Section 22”。如果搜索字符串是“Chapter 22”,那么表达式匹配单词也会是“Chapter 22”。
子表达式
正则表达式中放置括号可创建子表达式,子表达式允许匹配搜索文本中的模式并将匹配项分成多个单独的子匹配项,程序可检索生成的子匹配项。
例如匹配邮箱账号的正则表达式:
/(\w+)@(\w+)\.(\w+)/
该正则表达式包含 3 个子表达式,3 个子表达式分别进行匹配并保留匹配结果,与其他表达式匹配结果作为一个整体显示出来。
下面的示例将通用资源指示符(URI)分解为其组件:
/(\w+):\/\/([^\/:]+)(:\d*)?([^# ]*)/
第一个括号子表达式保存 Web 地址的协议部分,匹配在冒号和两个正斜杠前面的任何单词。
第二个括号子表达式保存地址的域地址部分,匹配不包括左斜线/或冒号:字符的任何字符序列。
第三个括号子表达式保存网站端口号(如果指定了的话),匹配冒号后面的零个或多个数字。
第四个括号子表达式保存 Web 地址指定的路径和/或页信息,匹配零个或多个数字字符#或空白字符之外的字符。
如果我们使用这个正则表达式匹配字符串“http://msdn.microsoft.com:80/scripting/default.htm”,那么 3 个子表达式的匹配结果分别为 http、msdn.microsoft.com:80、/scripting/default.htm。
反向引用
反向引用用于查找重复字符组。此外,可使用反向引用来重新排列输入字符串中各个元素的顺序和位置,以重新设置输入字符串的格式。
可以从正则表达式和替换字符串中引用子表达式。每个子表达式都由一个编号来标识,并称作反向引用。
在正则表达式中,每个保存的子匹配项按照它们从左到右出现的顺序存储。用于存储子匹配项的缓冲区编号从 1 开始,最多可存储 99 个子表达式。在正则表达式中,可以使用 \n 来访问每个缓冲区,其中 n 标识特定缓冲区的一位或两位十进制数字。
反向引用的一个应用是,提供查找文本中两个相同单词的匹配项的能力。以下面的句子为例:
Is is the cost of of gasoline going up up?
该句子包含多个重复的单词。如果能设计一种方法定位该句子,而不必查找每个单词的重复出现,就会很有用。
下面的正则表达式使用单个子表达式来实现这一点:
/\b([a-z]+) \1\b/
在此情况下,子表达式是括在括号中的所有内容。该子表达式包括由 [a-z]+ 指定的一个或多个字母字符。正则表达式的第二部分是对以前保存的子匹配项的引用,即单词的第二个匹配项正好由括号表达式匹配。\1 用于指定第一个子匹配项。\b 单词边界元字符确保只检测单独的单词。否则,诸如“is issued”或“this is”之类的词组将不能正确地被此表达式识别。所以,使用表达式 /\b([a-z]+)\1\b/ 匹配字符串“Is is the cost of of gasoline going up up?”得到的结果为 is、of、up。
在 PHP 中使用正则表达式
PHP 有两套函数库支持的正则表达式处理操作:
一套是由 PCRE(Perl Compatible Regular Expression)库提供、与 Perl 语言兼容的正则表达式函数,以preg_为函数的前缀名称;
另一套是 POSIX(Portable Operating System Interface)擴充語法正規表示式函數,以ereg_為函數的前綴。
兩組函數函式庫的功能相似,但是 PCRE 的執行效率高於 POSIX,所以我們只介紹 PCRE 函數函式庫。
推薦學習:《PHP影片教學》
以上是php正規表示式是什麼意思的詳細內容。更多資訊請關注PHP中文網其他相關文章!