ホームページ  >  記事  >  バックエンド開発  >  PHP 正規表現の使用方法の詳細_PHP チュートリアル

PHP 正規表現の使用方法の詳細_PHP チュートリアル

WBOY
WBOYオリジナル
2016-07-21 15:11:13950ブラウズ

前言

正则表达式是烦琐的,但是强大的,学会之后的应用会让你除了提高效率外,会给你带来绝对的成就感。只要认真去阅读这些资料,加上应用的时候进行一定的参考,掌握正则表达式不是问题。


 1. 引子

  目前,正则表达式已经在很多软件中得到广泛的应用,包括*nix(Linux, Unix等),HP等操作系统,PHP,C#,Java等开发环境,以及很多的应用软件中,都可以看到正则表达式的影子。

  正则表达式的使用,可以通过简单的办法来实现强大的功能。为了简单有效而又不失强大,造成了正则表达式代码的难度较大,学习起来也不是很容易,所以需要付出一些努力才行,入门之后参照一定的参考,使用起来还是比较简单有效的。

    例子: ^.+@.+\\..+$

  这样的代码曾经多次把我自己给吓退过。可能很多人也是被这样的代码给吓跑的吧。继续阅读本文将让你也可以自由应用这样的代码。

  注意:这里的第7部分跟前面的内容看起来似乎有些重复,目的是把前面表格里的部分重新描述了一次,目的是让这些内容更容易理解。

2. 正则表达历史
  正则表达式的“祖先”可以一直上溯至对人类神经系统如何工作的早期研究。Warren McCulloch 和 Walter Pitts 这两位神经生理学家研究出一种数学方式来描述这些神经网络。

  1956 年, 一位叫 Stephen Kleene 的数学家在 McCulloch 和 Pitts 早期工作的基础上,发表了一篇标题为“神经网事件的表示法”的论文,引入了正则表达式的概念。正则表达式就是用来描述他称为“正则集的代数”的表达式,因此采用“正则表达式”这个术语。

  随后,发现可以将这一工作应用于使用 Ken Thompson 的计算搜索算法的一些早期研究,Ken Thompson 是 Unix 的主要发明人。正则表达式的第一个实用应用程序就是 Unix 中的 qed 编辑器。

  如他们所说,剩下的就是众所周知的历史了。从那时起直至现在正则表达式都是基于文本的编辑器和搜索工具中的一个重要部分。


3. 正则表达式定义

  正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。

        列目录时, dir *.txt或ls *.txt中的*.txt就不是一个正则表达式,因为这里*与正则式的*的含义是不同的。

  正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模式。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
3.1 字符

  1、普通字符:

           由所有那些未显式指定为元字符的打印和非打印字符组成。这包括所有的大写和小写字母字符,所有数字,所有标点符号以及一些符号。

  2、非打印字符:
字符  含义
\cx  匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。
\f  匹配一个换页符。等价于 \x0c 和 \cL。
\n  匹配一个换行符。等价于 \x0a 和 \cJ。
\r  匹配一个回车符。等价于 \x0d 和 \cM。
\s  匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S  匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t  匹配一个制表符。等价于 \x09 和 \cI。
\v  匹配一个垂直制表符。等价于 \x0b 和 \cK。


3、元字符(特殊字符):

   所谓元字符(特殊字符),就是一些有特殊含义的字符,如上面说的"*.txt"中的*,简单的说就是表示任何字符串的意思。如果要查找文件名中有*的文件,则需要对*进行转义,即在其前加一个\。ls \*.txt。正则表达式有以下特殊字符。

          要在正则表达式模式中包含元字符以使其不具有特殊含义,您必须使用反斜杠 (\) 转义字符。例如,下面的正则表达式与顺序依次为字母 A、字母 B、星号和字母 C 的模式匹配:

         /AB\*C/;
元字符  说明
$  匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 '\n' 或 '\r'。要匹配 $ 字符本身,请使用 \$。
( )  标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \)。
*  匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \*。
+  匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 \+。
.  匹配除换行符 \n之外的任何单字符。要匹配 .,请使用 \。
[  标记一个中括号表达式的开始。要匹配 [,请使用 \[。
?  匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \?。
\  将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\",而 '\(' 则匹配 "("。
^  匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 \^。
{  标记限定符表达式的开始。要匹配 {,请使用 \{。
|  指明两项之间的一个选择。要匹配 |,请使用 \|。

          构造正则表达式的方法和创建数学表达式的方法一样。也就是用多种元字符与操作符将小的表达式结合在一起来创建更大的表达式。正则表达式的组件可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。

4、限定符:

        限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有*或+或?或{n}或{n,}或{n,m}共6种。
*、+和?限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。
   正则表达式的限定符有:
 
字符  描述
*  匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。
+  匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。
?  匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。
{n}  n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。
{n,}  n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
{n,m}  m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。 

5、定界符:边界

用来描述字符串或单词的边界,^和$分别指字符串的开始与结束,\b描述单词的前或后边界,\B表示非单词边界。不能对定位符使用限定符。
3.2 字符类[ ]

可以使用字符类指定字符列表以匹配正则表达式中的一个位置。使用方括号([ 和 ])定义字符类。例如,下面的正则表达式定义了匹配 bag、beg、big、bog 或 bug 的字符类:
/b[aeiou]g/
1、字符类中的转义序列:
通常在正则表达式中具有特殊含义的大多数元字符和元序列在字符类中“不具有”那些特殊含义。例如,在正则表达式中星号用于表示重复,但是出现在字符类中时则不具有此含义。下列字符类匹配星号本身以及列出的任何其它字符:
/[abc*123]/
但是,下表中列出的三个字符功能与元字符相同,在字符类中具有特殊含义:

] :定义字符类的结尾。
- :定义字符范围

: メタシーケンスを定義し、メタ文字の特別な意味を取り消します。
文字がリテラル文字 (特別なメタ文字の意味を持たない) として認識されるには、文字の前にバックスラッシュ エスケープ文字を付ける必要があります。 たとえば、次の正規表現には、$、]、または - の 4 つの記号のいずれかに一致する文字クラスが含まれています。
/[$\]-]/

2. 文字クラスの文字の範囲:
A-Z、a-z、0-9 などの文字の範囲を指定するには、ハイフンを使用します。これらの文字は、文字クラス内の有効な範囲を形成する必要があります。たとえば、次の文字クラスは、a ~ z の範囲内の任意の文字または任意の数値に一致します:
/[a-z0-9]/
xnn ASCII 文字コードを使用して、ASCII 値で範囲を指定することもできます。たとえば、次の文字クラスは、拡張 ASCII 文字セット (é や ê など) の任意の文字と一致します:
/[x80-x9A]/

3. 反転文字クラス:
文字クラスの先頭にキャレット (^) 文字を使用すると、セットの意味が反転されます。リストにない文字は一致するとみなされます。次の文字クラスは、小文字(A-Z)または数字以外のキャラクターと一致します。それ以外の場合は、文字クラスの文字にキャレット文字を追加するだけです。たとえば、次の文字クラスは、キャレットを含む多数の記号文字のいずれかと一致します。
============================= ============================================
すべての選択を括弧で囲み、隣接する選択を | で区切ります。ただし、括弧を使用すると、関連する一致がキャッシュされるという副作用が生じます。この場合、最初のオプションの前に ?: を使用すると、この副作用を排除できます。
このうち、?: は非キャプチャ要素の 1 つで、他の 2 つの非キャプチャ要素は ?= と ?! です。これら 2 つは前方参照であり、括弧内の正規表現と一致します。検索文字列は、式パターン内の任意の位置で一致します。これは、正規表現パターンと一致しない任意の先頭位置で検索文字列と一致する否定先読みです。
例: /(very)+/ は Very googd または Very Very Good に一致します

1. バックリファレンス (逆参照):

パターンで標準の括弧グループを定義すると、後で正規表現で参照できます。これは「後方参照」と呼ばれ、このタイプのグループは「キャプチャ グループ」と呼ばれます。

正規表現パターンまたはパターンの一部を括弧で囲むと、キャプチャされた各部分一致が正規表現パターンの左から右に保存されます。部分一致が格納されるバッファには、1 から始まり、最大 99 個の部分式まで連続した番号が付けられます。各バッファには、「n」を使用してアクセスできます。n は、特定のバッファを識別する 1 桁または 2 桁の 10 進数です。 たとえば、次の正規表現では、シーケンス 1 はキャプチャ ブラケット グループ内で一致する任意の部分文字列に一致します: /(d+)-by-1/; // 文字列に一致: 48-by-48

そのような後方参照を最大 99 個指定します正規表現に 1、2、...、99 と入力します。

非キャプチャメタ文字「?:」、「?=」、または「?!」を使用して、関連する一致の保存を無視できます。



2. 非キャプチャ グループと前方検索グループを使用する:

非キャプチャ グループは、「収集」されず、限定された逆参照と一致しません。以下に示すように、(?: And?!) を使用して非キャプチャ グループを定義できます。

/(?: COM | ORG | Net) 違い (例として php を使用):

キャプチャグループ):

コードをコピーします

コードは次のとおりです:


$pattern = '/(w+)@(w+).(com|org)/'; $str = "bob @example.com "; preg_match($pattern, $str, $match); print_r($match);
Array
(
[0] => bob@example.com
[1] => ; ボブ
[ 2 ] => 例
[3] => 非キャプチャ グループ):



コードをコピーします

コードは次のとおりです:


$pattern = '/(w+)@(w+).(?:com|org)/';
$str = "bob@example.com";
preg_match($pattern, $str, $match);
print_r($match);

Array
(
[0] => bob@example.com
[1] => bob
[2] => example
)
非Capture このグループは「正引きグループ」であり、「正引きグループ」と「逆引きグループ」の 2 種類があります。 (?= および ?!) を使用して前方参照グループを定義し、グループ内のサブパターンの位置が一致する必要があることを指定します。ただし、前方参照グループに一致する文字列の部分は、正規表現内のパターンの残りの部分と一致する場合があります。たとえば、次のコードでは (?=e) が前方検索グループであるため、これに一致する文字 e は、正規表現の後続の部分 (この場合はキャプチャ グループ w*) によって一致できます。コードをコピーします
コードは次のとおりです: $pattern = '/sh(?=e)(w*)/i'; $str = "Shelly は海岸で貝殻を売ります"
preg_match($pattern) 、$str、$マッチ);


配列
(
[0] => シェリー
[1] => エリー
)

(?! と) を使用して、グループ内のサブパターンの位置が一致してはならないことを指定する否定先読みグループを定義します。例:

パターン: $pattern = '/sh(?!e)(w*)/i';
Array
(
[0] => shore
[1] => ore
)
3.2 パターン修正フラグタリスマン

また:

U: PCRE_UNGREEDY を示します。これは非貪欲を意味し、perl/python 言語の .*? に相当します。 .* 規則性の場合、一致を待つのではなく、すぐに実行されます。 .* すべての文字を 1 つずつ消費します。

PHP 正規表現パターンの後には、通常、/i、/is、/s、/isU などのパラメータが続きます。では、これらは何でしょうか?以下を見てみましょう:

パターン修飾子 -- 正規表現パターンで使用される修飾子の説明
説明
現在 PCRE で使用できる修飾子を以下に示します。括弧内はこれらの修飾子の内部 PCRE 名です。修飾子のスペースと改行は無視され、他の文字はエラーの原因となります。

i (PCRE_CASELESS)
この修飾子が設定されている場合、パターン内の文字は大文字と小文字の両方に一致します。

m(PCRE_MULTILINE)
デフォルトでは、PCRE はターゲット文字列を (改行が含まれている場合でも) 文字の単一の「行」として扱います。 「行頭」メタキャラクタ (^) は文字列の先頭にのみ一致し、「行末」メタキャラクタ ($) は文字列の末尾、または改行の場合はその前の最後の文字にのみ一致します (改行でない場合)。 D が設定されています) 修飾子)。これはPerlと同じです。

この修飾子を設定すると、「行頭」と「行末」は文字列全体の先頭と末尾に一致するだけでなく、その中の改行文字の前後にもそれぞれ一致します。これは Perl の /m 修飾子に相当します。ターゲット文字列に「n」文字がない場合、またはパターンに ^ または $ がない場合、この修飾子を設定しても効果はありません。

s (PCRE_DOTALL)
この修飾子が設定されている場合、パターン内のドット メタ文字 (.) は改行を含むすべての文字と一致します。この設定を行わないと、改行文字は含まれません。これは Perl の /s 修飾子に相当します。 [^a] などの除外文字クラスは、この修飾子が設定されているかどうかに関係なく、常に改行と一致します。

x (PCRE_EXTENDED)
この修飾子が設定されている場合、パターン内の空白文字は、エスケープされた文字または文字クラス内の文字を除き、完全に無視されます。 # およびエスケープされていない文字クラス外の次の文字 改行文字間のすべての文字。両端も含めて無視されます。これは Perl の /x 修飾子に相当し、複雑なパターンにコメントを追加できます。ただし、これはデータ文字にのみ適用されることに注意してください。空白文字は、条件付きサブパターン (中央に?() を導入するシーケンスなど、パターン内の特殊文字シーケンスには決して出現できません。

e
この修飾子が設定されている場合、preg_replace()は置換文字列内の後方参照の通常の置換を実行し、それをPHPコードとして評価し、その結果を使用して検索文字列を置換します。

preg_replace() のみがこの修飾子を使用し、他の PCRE 関数はそれを無視します。

注: この修飾子は PHP3 では使用できません。

A (PCRE_ANCHORED)
この修飾子が設定されている場合、パターンは強制的に「アンカー」されます。つまり、パターンはターゲット文字列の先頭からのみ一致するように強制されます。この効果は、適切なモード自体を介して実現することもできます (Perl でこれを実現する唯一の方法です)。

D (PCRE_DOLLAR_ENDONLY)
この修飾子が設定されている場合、パターン内のドルのメタ文字はターゲット文字列の末尾にのみ一致します。このオプションを使用しない場合、最後の文字が改行文字の場合、ドル記号はこの文字の前でも一致します (ただし、他の改行文字の前では一致しません)。 m 修飾子が設定されている場合、このオプションは無視されます。 Perl には同等の修飾子はありません。

S
パターンが複数回使用される場合、マッチングを高速化するために最初に分析する価値があります。この修飾子が設定されている場合、追加の分析が実行されます。現在、パターンの分析は、単一の固定開始文字を持たない非アンカー パターンにのみ役立ちます。

U(PCRE_UNGREEDY)
この修飾子は、デフォルトでは繰り返されないように一致数の値を反転しますが、後に「?」を付けると繰り返しになります。これは Perl と互換性がありません。このオプションは、パターン内で (?U) 修飾子を設定するか、量指定子の後に疑問符 (例: .*?) を付けることによっても有効にすることができます。

例:


コードをコピーします コードは次のとおりです:

$str = 'src="http://www.test.cn/1.mp3" type="application/x-mplayer2"test,3333'; 
echo preg_replace('/src="(.*)"/', '--', $str); 
echo '
'; 
echo preg_replace('/src="(.*)"/U', '--', $str); 
echo '
'; 
echo preg_replace('/src="(.*?)"/', '--', $str);//等效preg_replace('|src="(.*)"|U', '-- ', $str); 

结果:

--test,3333

-- type="application/x-mplayer2"test,3333

-- type="application/x-mplayer2"test,3333

从这里我们就可以看出,第一个执行结果一直匹配到最后一个满足条件的字符,专业一点就叫贪婪匹配,

第二个执行结果只匹配第一个满足条件的字符,叫 非贪婪匹配。

X(PCRE_EXTRA)
  此修正符启用了一个 PCRE 中与 Perl 不兼容的额外功能。模式中的任何反斜线后面跟上一个没有特殊意义的字母导致一个错误,从而保留此组合以备将来扩充。默认情况下,和 Perl 一样,一个反斜线后面跟一个没有特殊意义的字母被当成该字母本身。当前没有其它特性受此修正符控制。

u(PCRE_UTF8)
  此修正符启用了一个 PCRE 中与 Perl 不兼容的额外功能。模式字符串被当成 UTF-8。本修正符在 Unix 下自 PHP 4.1.0 起可用,在 win32 下自 PHP 4.2.3 起可用。自 PHP 4.3.5 起开始检查模式的 UTF-8 合法性。


4. 各种操作符的运算优先级

   相同优先级的从左到右进行运算,不同优先级的运算先高后低。各种操作符的优先级从高到低如下:
 
操作符  描述
\  转义符
(), (?:), (?=), []  圆括号和方括号
*, +, ?, {n}, {n,}, {n,m}  限定符
^, $, \anymetacharacter  位置和顺序
|  “或”操作

5. すべての記号の説明
文字の説明
次の文字を特殊文字、リテラル文字、後方参照、または 8 進エスケープ文字としてマークします。たとえば、「n」は文字「n」と一致します。 「n」は改行文字に一致します。シーケンス '\' は "" に一致し、"(" は "(" に一致します。
^ は入力文字列の先頭に一致します。 RegExp オブジェクトの Multiline プロパティが設定されている場合、^ は 'n' または 'r の後の位置にも一致します'.
$ は入力文字列の末尾に一致します。 RegExp オブジェクトの Multiline プロパティが設定されている場合、$ は 'n' または 'r' の前の位置にも一致します。
* はその前の部分式に 0 回以上一致します。 z" および "zoo"。 * {0,} と同等。
+ は前の部分式に 1 回以上一致します。たとえば、'zo+' は "zo" に一致しますが、"zoo" には一致しません。 "z" に一致します。 + と同等{1,}? 前の部分式に 0 回または 1 回一致します。たとえば、「does」の「do」と一致します。たとえば、「o{2}」は「food」の 2 つの o と一致することはできません。たとえば、「」は非負の整数です。 o{2,}' は、「Bob」の 'o' には一致しませんが、'o{1,}' は 'o+' と同等です。'o{0,}' は 'o' と同等です。 *'.
{n,m} m と n はどちらも負ではありません。n (pattern) パターンを照合し、一致を取得します。VBScript では、SubMatches コレクションを使用して、$0 ~ $9 属性を使用して、一致を取得します。括弧文字と一致する場合は、「(」または「)」を使用します。
(?:pattern) はパターンに一致しますが、一致結果を取得しません。これは、一致を取得できず、後で使用するために保存されないことを意味します。これは、「または」文字 (|) を使用してパターンの一部を結合する場合に便利です。たとえば、「industr(?:y|ies)」は「industry|industries」より短い式です。
(?=pattern) 前方参照。パターンに一致する文字列の先頭にある検索文字列と一致します。これは非フェッチ一致です。つまり、後で使用するために一致をフェッチする必要はありません。たとえば、「Windows (?=95|98|NT|2000)」は、「Windows 2000」の「Windows」には一致しますが、「Windows 3.1」の「Windows」には一致しません。プリフェッチでは文字は消費されません。つまり、一致が発生した後、次の一致の検索は、プリフェッチを含む文字の後に開始されるのではなく、最後の一致の直後に開始されます。
(?!pattern) 否定検索。パターンに一致しない文字列の先頭にある検索文字列と一致します。これは非フェッチ一致です。つまり、後で使用するために一致をフェッチする必要はありません。たとえば、「Windows (?!95|98|NT|2000)」は、「Windows 3.1」の「Windows」と一致しますが、「Windows 2000」の「Windows」とは一致しません。プリフェッチは文字を消費しません。つまり、一致が発生した後、次の一致の検索は、プリフェッチ
x|y を含む文字が x または y と一致した後に開始されるのではなく、最後の一致の直後に開始されます。たとえば、「z|food」は「z」または「food」と一致します。 '(z|f)ood' は、「zood」または「food」と一致します。
[xyz] 文字セット。含まれている文字のいずれかと一致します。たとえば、「[abc]」は「plain」の「a」と一致します。
[^xyz] 負の値の文字セット。含まれていない任意の文字と一致します。たとえば、「[^abc]」は「plain」の「p」と一致します。
[a-z] 文字範囲。指定された範囲内の任意の文字と一致します。たとえば、「[a-z]」は、「a」から「z」の範囲内の任意の小文字のアルファベット文字と一致します。
[^a-z] 負の文字範囲。指定された範囲内にない任意の文字と一致します。たとえば、「[^a-z]」は、「a」から「z」の範囲にない任意の文字と一致します。
b 単語とスペースの間の位置を指す単語境界に一致します。たとえば、「erb」は「never」の「er」と一致しますが、「動詞」の「er」とは一致しません。
B 単語以外の境界に一致します。 「erB」は「動詞」の「er」と一致しますが、「never」の「er」とは一致しません。
cx は、x で指定された制御文字と一致します。たとえば、cM は Control-M または復帰文字と一致します。 x の値は、A ~ Z または a ~ z のいずれかでなければなりません。それ以外の場合、c はリテラルの「c」文字として扱われます。
d は数字と一致します。 [0-9]に相当します。
D は数字以外の文字と一致します。 [^0-9] と同等。
f はフォーム フィード文字と一致します。等价于 \x0c 和 \cL。
\n  匹配一个换行符。等价于 \x0a 和 \cJ。
\r  匹配一个回车符。等价于 \x0d 和 \cM。
\s  匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S  匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t  匹配一个制表符。等价于 \x09 和 \cI。
\v  匹配一个垂直制表符。等价于 \x0b 和 \cK。
\w  匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
\W  匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。
\xn  匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,'\x41' 匹配 "A"。'\x041' 则等价于 '\x04' & "1"。正则表达式中可以使用 ASCII 编码。.
\num  匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,'(.)\1' 匹配两个连续的相同字符。
\n  标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式,则 n 为向后引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。
\nm  标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式,则 nm 为向后引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。
\nml  如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。
\un  匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如, \u00A9 匹配版权符号 (?)。

6. 部分例子
正则表达式  说明
/\b([a-z]+) \1\b/gi  一个单词连续出现的位置
/(\w+):\/\/([^/:]+)(:\d*)?([^# ]*)/  将一个URL解析为协议、域、端口及相对路径
/^(?:Chapter|Section) [1-9][0-9]{0,1}$/  定位章节的位置
/[-a-z]/  A至z共26个字母再加一个-号。
/ter\b/  可匹配chapter,而不能terminal
/\Bapt/  可匹配chapter,而不能aptitude
/Windows(?=95 |98 |NT )/  可匹配Windows95或Windows98或WindowsNT,当找到一个匹配后,从Windows后面开始进行下一次的检索匹配。

7. 正则表达式匹配规则

7.1 基本模式匹配

   一切从最基本的开始。模式,是正规表达式最基本的元素,它们是一组描述字符串特征的字符。模式可以很简单,由普通的字符串组成,也可以非常复杂,往往用特殊的字符表示一个范围内的字符、重复出现,或表示上下文。例如:

    ^once

  这个模式包含一个特殊的字符^,表示该模式只匹配那些以once开头的字符串。例如该模式与字符串"once upon a time"匹配,与"There once was a man from NewYork"不匹配。正如如^符号表示开头一样,$符号用来匹配那些以给定模式结尾的字符串。

    bucket$

  这个模式与"Who kept all of this cash in a bucket"匹配,与"buckets"不匹配。字符^和$同时使用时,表示精确匹配(字符串与模式一样)。例如:

    ^bucket$

  只匹配字符串"bucket"。如果一个模式不包括^和$,那么它与任何包含该模式的字符串匹配。例如:模式

    once

与字符串

    There once was a man from NewYork
    Who kept all of his cash in a bucket.

是匹配的。

   在该模式中的字母(o-n-c-e)是字面的字符,也就是说,他们表示该字母本身,数字也是一样的。其他一些稍微复杂的字符,如标点符号和白字符(空格、制表符等),要用到转义序列。所有的转义序列都用反斜杠(\)打头。制表符的转义序列是:\t。所以如果我们要检测一个字符串是否以制表符开头,可以用这个模式:

    ^\t

类似的,用\n表示“新行”,\r表示回车。其他的特殊符号,可以用在前面加上反斜杠,如反斜杠本身用\\表示,句号.用\.表示,以此类推。
7.2 字符簇
在INTERNET的程序中,正规表达式通常用来验证用户的输入。当用户提交一个FORM以后,要判断输入的电话号码、地址、EMAIL地址、信用卡号码等是否有效,用普通的基于字面的字符是不够的。
所以要用一种更自由的描述我们要的模式的办法,它就是字符簇。要建立一个表示所有元音字符的字符簇,就把所有的元音字符放在一个方括号里:

    [AaEeIiOoUu]

这个模式与任何元音字符匹配,但只能表示一个字符。用连字号可以表示一个字符的范围,如:

    [a-z] //匹配所有的小写字母
    [A-Z] //匹配所有的大写字母
    [a-zA-Z] //匹配所有的字母
    [0-9] //匹配所有的数字
    [0-9\.\-] //匹配所有的数字,句号和减号
    [ \f\r\t\n] //匹配所有的白字符

同样的,这些也只表示一个字符,这是一个非常重要的。如果要匹配一个由一个小写字母和一位数字组成的字符串,比如"z2"、"t6"或"g7",但不是"ab2"、"r2d3" 或"b52"的话,用这个模式:

    ^[a-z][0-9]$

尽管[a-z]代表26个字母的范围,但在这里它只能与第一个字符是小写字母的字符串匹配。

前面曾经提到^表示字符串的开头,但它还有另外一个含义。当在一组方括号里使用^是,它表示“非”或“排除”的意思,常常用来剔除某个字符。还用前面的例子,我们要求第一个字符不能是数字:

    ^[^0-9][0-9]$

这个模式与"&5"、"g7"及"-2"是匹配的,但与"12"、"66"是不匹配的。下面是几个排除特定字符的例子:

    [^a-z] //除了小写字母以外的所有字符
    [^\\\/\^] //除了(\)(/)(^)之外的所有字符
    [^\"\'] //除了双引号(")和单引号(')之外的所有字符

特殊字符"." (点,句号)在正规表达式中用来表示除了“新行”之外的所有字符。所以模式"^.5$"与任何两个字符的、以数字5结尾和以其他非“新行”字符开头的字符串匹配。模式"."可以匹配任何字符串,除了空串和只包括一个“新行”的字符串。

PHP的正规表达式有一些内置的通用字符簇,列表如下:

    字符簇 含义
    [[:alpha:]] 任何字母
    [[:digit:]] 任何数字
    [[:alnum:]] 任何字母和数字
    [[:space:]] 任何白字符
    [[:upper:]] 任何大写字母
    [[:lower:]] 任何小写字母
    [[:punct:]] 任何标点符号
    [[:xdigit:]] 任何16进制的数字,相当于[0-9a-fA-F]

7.3 确定重复出现
到现在为止,你已经知道如何去匹配一个字母或数字,但更多的情况下,可能要匹配一个单词或一组数字。一个单词有若干个字母组成,一组数字有若干个单数组成。跟在字符或字符簇后面的花括号({})用来确定前面的内容的重复出现的次数。

    字符簇 含义
    ^[a-zA-Z_]$ 所有的字母和下划线
    ^[[:alpha:]]{3}$ 所有的3个字母的单词
    ^a$ 字母a
    ^a{4}$ aaaa
    ^a{2,4}$ aa,aaa或aaaa
    ^a{1,3}$ a,aa或aaa
    ^a{2,}$ 包含多于两个a的字符串
    ^a{2,} 如:aardvark和aaab,但apple不行
    a{2,} 如:baad和aaa,但Nantucket不行
    \t{2} 两个制表符
    .{2} 所有的两个字符

这些例子描述了花括号的三种不同的用法。一个数字,{x}的意思是“前面的字符或字符簇只出现x次”;一个数字加逗号,{x,}的意思是“前面的内容出现x或更多的次数”;两个用逗号分隔的数字,{x,y}表示“前面的内容至少出现x次,但不超过y次”。我们可以把模式扩展到更多的单词或数字:

    ^[a-zA-Z0-9_]{1,}$ //所有包含一个以上的字母、数字或下划线的字符串
    ^[0-9]{1,}$ //所有的正数
    ^\-{0,1}[0-9]{1,}$ //所有的整数
    ^\-{0,1}[0-9]{0,}\.{0,1}[0-9]{0,}$ //所有的小数

最后一个例子不太好理解,是吗?这么看吧:与所有以一个可选的负号(\-{0,1})开头(^)、跟着0个或更多的数字([0-9]{0,})、和一个可选的小数点(\.{0,1})再跟上0个或多个数字([0-9]{0,}),并且没有其他任何东西($)。下面你将知道能够使用的更为简单的方法。

特殊字符"?"与{0,1}是相等的,它们都代表着:“0个或1个前面的内容”或“前面的内容是可选的”。所以刚才的例子可以简化为:

    ^\-?[0-9]{0,}\.?[0-9]{0,}$

特殊字符"*"与{0,}是相等的,它们都代表着“0个或多个前面的内容”。最后,字符"+"与 {1,}是相等的,表示“1个或多个前面的内容”,所以上面的4个例子可以写成:

    ^[a-zA-Z0-9_]+$ //所有包含一个以上的字母、数字或下划线的字符串
    ^[0-9]+$ //所有的正数
    ^\-?[0-9]+$ //所有的整数
    ^\-?[0-9]*\.?[0-9]*$ //所有的小数

当然这并不能从技术上降低正规表达式的复杂性,但可以使它们更容易阅读。


8.posix和perl标准的正则表达式区别

PHP同时使用两套正则表达式规则,一套是由电气和电子工程师协会(IEEE)制定的POSIX Extended 1003.2兼容正则(事实上PHP对此标准的支持并不完善),另一套来自PCRE(Perl Compatible Regular Expression)库提供PERL兼容正则,这是个开放源代码的软件,作者为 Philip Hazel。

使用POSIX兼容规则的函数有:
ereg_replace()
ereg()
eregi()
eregi_replace()
split()
spliti()
sql_regcase()
mb_ereg_match()
mb_ereg_replace()
mb_ereg_search_getpos()
mb_ereg_search_getregs()
mb_ereg_search_init()
mb_ereg_search_pos()
mb_ereg_search_regs()
mb_ereg_search_setpos()
mb_ereg_search()
mb_ereg()
mb_eregi_replace()
mb_eregi()
mb_regex_encoding()
mb_regex_set_options()
mb_split()

使用PERL兼容规则的函数有:
preg_grep()
preg_replace_callback()
preg_match_all()
preg_match()
preg_quote()
preg_split()
preg_replace()

定界符:

POSIX兼容正则没有定界符,函数的相应参数会被认为是正则。

PERL兼容正则可以使用任何不是字母、数字或反斜线(/)的字符作为定界符,如果作为定界符的字符必须被用在表达式本身中,则需要用反斜线转义。也可以使用(),{},[] 和 <> 作为定界符

修正符:

POSIX兼容正则没有修正符。

PERL兼容正则中可能使用的修正符(修正符中的空格和换行被忽略,其它字符会导致错误):

i (PCRE_CASELESS):
匹配时忽略大小写。

m(PCRE_MULTILINE):
当设定了此修正符,行起始(^)和行结束($)除了匹配整个字符串开头和结束外,还分别匹配其中的换行符(/n)的之后和之前。

s(PCRE_DOTALL):
如果设定了此修正符,模式中的圆点元字符(.)匹配所有的字符,包括换行符。没有此设定的话,则不包括换行符。

x(PCRE_EXTENDED):
如果设定了此修正符,模式中的空白字符除了被转义的或在字符类中的以外完全被忽略。

e:
如果设定了此修正符,preg_replace() 在替换字符串中对逆向引用作正常的替换,将其作为 PHP 代码求值,并用其结果来替换所搜索的字符串。 只有 preg_replace() 使用此修正符,其它 PCRE 函数将忽略之。

A(PCRE_ANCHORED):
如果设定了此修正符,模式被强制为“anchored”,即强制仅从目标字符串的开头开始匹配。

D(PCRE_DOLLAR_ENDONLY):
如果设定了此修正符,模式中的行结束($)仅匹配目标字符串的结尾。没有此选项时,如果最后一个字符是换行符的话,也会被匹配在里面。如果设定了 m 修正符则忽略此选项。

S:
当一个模式将被使用若干次时,为加速匹配起见值得先对其进行分析。如果设定了此修正符则会进行额外的分析。目前,分析一个模式仅对没有单一固定起始字符的 non-anchored 模式有用。

U(PCRE_UNGREEDY):
使“?”的默认匹配成为贪婪状态的。

X(PCRE_EXTRA):
模式中的任何反斜线后面跟上一个没有特殊意义的字母导致一个错误,从而保留此组合以备将来扩充。默认情况下,一个反斜线后面跟一个没有特殊意义的字母被当成该字母本身。

u(PCRE_UTF8):
模式字符串被当成UTF-8。

逻辑区隔:

POSIX兼容正则和PERL兼容正则的逻辑区隔符号作用和使用方法完全一致:
[]:包含任选一操作的相关信息。
{}:包含匹配次数的相关信息。
():包含一个逻辑区间的相关信息,可被用来进行引用操作。
|:表示“或”,[ab]和a|b是等价的。

元字符与“[]”相关:

有两组不同的元字符:一种是模式中除了方括号内都能被识别的,还有一种是在方括号“[]”内被识别的。

POSIX 互換の通常および PERL 互換の通常の "[]" および "一貫した" メタ文字:
/ いくつかの用途がある汎用エスケープ文字
^ 文字列の先頭と一致します
$ 文字列の末尾と一致します
* 0 または 1 と一致しますか?前に指定したタイプの 0 文字以上の文字に一致します
+ 以前に指定したタイプの 1 つ以上の文字に一致します

POSIX 互換の正規表現と PERL 互換の正規表現が「矛盾している」メタ文字「[]」を除く:

PERL 互換の正規表現は改行文字を除く任意の文字に一致します
POSIX 互換の正規表現は任意の文字に一致します

POSIX 互換の通常および PERL 互換の通常の "[]" および "一貫した" メタ文字:

/ いくつかの用途があるユニバーサル エスケープ文字
^ は文字を否定しますが、それが最初の文字である場合にのみ有効です
- 文字の ASCII 範囲を指定し、 ASCII コードを注意深く調べてください。[W-c] が [WXYZ//^_`abc] と同等であることがわかります

POSIX 互換の正規表現と PERL 互換の正規表現「[]」内に「一貫性のない」メタ文字があります:

- POSIX 互換の正規表現で [a-c-e] を指定すると、エラーがスローされます。
- PERL 互換の正規表現における [a-c-e] の指定は、[a-e] と同等です。

一致の数は「{}」に関連しています:

POSIX 互換の正規表現と PERL 互換の正規表現は、一致回数の点でまったく同じです:

{2}: 前の文字と 2 回一致することを意味します
{2,}: 前の文字と 2 回以上一致することを意味します (デフォルト)貪欲です (複数の可能性がある場合でも)
{2,4} と一致します: 前の文字と 2 回または 4 回一致することを意味します

論理間隔は「()」に関連しています:

() で囲まれた領域は論理間隔です。論理間隔の主な機能は、いくつかの文字が出現する論理順序を反映することです。別の用途として、この間隔の値を参照することができます。変数に代入します)。後者の関数はかなり奇妙です:

$str = "http://www.163.com/";
// POSIX 互換の正規:
echo ereg_replace("(.+)","< a href = //1 >//1",$str);
// PERL 互換の正規:
echo preg_replace("/(.+)/"," $1 ",$str);
// 2 つのリンクを表示します
?>

引用する場合、括弧は入れ子にすることができ、論理的な順序は「(」の出現順序に従って調整されます。

タイプマッチング:

POSIX 互換の正規:

[:upper:]: すべての大文字に一致

[: lower:]: すべての小文字に一致
[:alpha:]: すべての文字に一致
[:alnum:]: すべての文字と数字に一致
[:digit:]: すべての数字と一致します
[:xdigital:]: すべての 16 進文字と一致します ([0-9A-Fa-f] に相当します)
[:punct:]: すべての句読点と一致します ([.," に相当します) '?!;:]
[:blank:]: スペースと TAB に一致し、[/t] と同等
[:space:]: すべての空白文字に一致し、[ /t/n/r/f/v] と同等
[:cntrl:]: ASCII 0 から 31 までのすべての制御文字と一致します。
[:graph:]: すべての印刷可能な文字と一致します。In: [^ /t/n/r/f/v]
[:print: ]: すべての印刷可能な文字とスペースに一致します。[^/t/n/r/f/v]
[ .c.]: 不明な関数
[=c=]: 不明な関数
[:<:] : 単語の先頭と一致します
[:>:]: 単語の末尾と一致します

PERL 互換正規表現 (ここで PERL 正規表現の威力を確認できます):

/a Alarm、BEL 文字 ('0)

/cx "control-x"、x は任意の文字
/eエスケープ (' 0B)
/f フォームフィード ('0C)
/n 改行 ('0A)
/r キャリッジリターン ('0D)
/t タブ ('0)
/xhh コード付きの 16 進文字 hh
/ddd 8 進コード付きの文字ddd、または後方参照
/d 任意の 10 進数
/D 任意の 10 進数以外の文字
/s 任意の空白文字
/S 任意の非空白文字
/w 任意の「単語」文字
/W 任意の「非単語」文字
/b 単語境界
/B 非単語境界
/A ターゲットの始まり (複数行モードとは独立)
/Z 末尾の改行の前後のターゲット (複数行モードとは独立)
/z ターゲットの終わり(複数行モードとは独立)
/G ターゲット内で最初に一致する位置


http://www.bkjia.com/PHPjc/326950.html

tru​​ehttp://www.bkjia.com/PHPjc/326950.html技術記事はじめに 正規表現は面倒ですが強力です。学習後に適用すると、効率が向上するだけでなく、絶対的な達成感も得られます。これらの情報をよく読んで追加してください...
声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。