上節我們提到了正規表示式,它提升了文字處理的表達能力,本節就來討論正規表示式,它是什麼?有什麼用?各種特殊字符都是什麼意義?如何用Java借助正規表示式處理文字?都有哪些常用正規表示式?由於內容較多,我們分為三節進行探討,本節先簡單探討正規表示式的語法。
正規表示式是一串字符,它描述了一個文本模式,利用它可以方便的處理文本,包括文本的查找、替換、驗證、切分等。
正規表示式中的字符有兩類,一類是普通字符,就是匹配字符本身,另一類是元字符,這些字符有特殊含義,這些元字符及其特殊含義就構成了正規表示式的語法。
正規表示式有一個比較長的歷史,各種與文字處理有關的工具、編輯器和系統都支援正規表示式,大部分程式語言也都支援正規表示式。雖然都叫做正規表示式,但由於歷史原因,不同語言、系統和工具的語法不太一樣,本文主要針對Java語言,其他語言可能有所差異。
下面,我們就來簡單介紹正規表示式的語法,我們先分為以下部分分別介紹:
單一字元
#字元組
量詞
#分組
特殊邊界符合
環視邊界匹配
最後針對轉義、匹配模式和各種語法進行總結。
單一字元
大部分的單一字元就是用字元本身表示的,例如字元'0','3','a ','馬'等,但有一些單一字元使用多個字元表示,這些字元都以斜線'\'開頭,例如:
特殊字元,如tab字元'\t',換行符號'\n',回車符'\r'等;
八進位表示的字元,以\0開頭,後面跟著1到3位數字,例如\0141,對應的是ASCII編碼為97的字符,即字元'a ';
十六進位表示的字元,以\x開頭,後面跟著兩個字符,例如\x6A,對應的是ASCII編碼為106的字符,即字符'j';
#Unicode編號表示的字符,以\u開頭,後面跟著四位字符,例如\u9A6C,表示的是中文字符'馬',這只能表示編號在0xFFFF以下的字符,如果超出0XFFFF,使用\x{...}形式,比如對於字符'
以上是正規表示式是什麼?有什麼用?的詳細內容。更多資訊請關注PHP中文網其他相關文章!