正規表現 - 一致ルール


基本パターンマッチング

すべては基本から始まります。パターンは正規表現の最も基本的な要素であり、文字列の特性を記述する文字のセットです。パターンは、通常の文字列で構成される単純な場合もあれば、文字範囲、繰り返し、コンテキストを表すために特殊文字を使用する非常に複雑な場合もあります。例:

^once

このパターンには特殊文字 ^ が含まれています。これは、パターンが 1 回で始まる文字列にのみ一致することを意味します。たとえば、このパターンは文字列「onceUponatime」には一致しますが、「There Once was a man from NewYork」には一致しません。 ^ 記号が先頭を示すのと同様に、$ 記号は特定のパターンで終わる文字列と一致します。

bucket$

このパターンは、「誰がこの現金をすべてバケツに入れたか」には一致しますが、「バケツ」には一致しません。文字 ^ と $ を一緒に使用すると、完全一致を表します (文字列はパターンと同じです)。例:

^bucket$

は文字列「bucket」のみに一致します。パターンに ^ と $ が含まれていない場合は、そのパターンを含む任意の文字列と一致します。たとえば、パターン

once

は文字列

There once was a man from NewYork
Who kept all of his cash in a bucket.

と一致します。

このパターンの文字 (o-n-c-e) はリテラル文字、つまり文字自体を表しており、数字についても同様です。句読点や白文字 (スペース、タブなど) など、その他の少し複雑な文字にはエスケープ シーケンスが必要です。すべてのエスケープ シーケンスはバックスラッシュ () で始まります。タブ文字のエスケープ シーケンスは次のとおりです。したがって、文字列がタブ文字で始まるかどうかを検出したい場合は、次のパターンを使用できます:

^\t

同様に、「改行」を表すには n を使用し、復帰を表すには r を使用します。他の特殊記号は、前にバックスラッシュを付けて使用できます。たとえば、バックスラッシュ自体は \ で表され、ピリオドは . で表されます。

文字クラスター

インターネット プログラムでは、通常、ユーザー入力を検証するために正規表現が使用されます。ユーザーがフォームを送信するとき、入力された電話番号、住所、電子メール アドレス、クレジット カード番号などが有効かどうかを判断するには、通常のリテラル文字を使用するだけでは十分ではありません。

そのため、必要なパターンを記述するために、より自由な方法、つまり文字クラスターを使用する必要があります。すべての母音文字を表すクラスターを作成するには、すべての母音文字を角かっこで囲みます。

[AaEeIiOoUu]

このパターンは任意の母音文字と一致しますが、表すことができるのは 1 つの文字のみです。次のような文字の範囲を表すにはハイフンを使用します。

[a-z] //匹配所有的小写字母 
[A-Z] //匹配所有的大写字母 
[a-zA-Z] //匹配所有的字母 
[0-9] //匹配所有的数字 
[0-9\.\-] //匹配所有的数字,句号和减号 
[ \f\r\t\n] //匹配所有的白字符

同様に、これらは 1 つの文字のみを表しますが、これは非常に重要です。 「z2」、「t6」、または「g7」などの小文字と数字で構成される文字列と一致させたいが、「ab2」、「r2d3」、または「b52」は一致させたくない場合は、次のパターンを使用します:

^[a-z][0-9]$

[a-z] は 26 文字の範囲を表しますが、ここでは最初の文字が小文字である文字列のみと一致します。

^ は文字列の先頭を表すと前述しましたが、別の意味もあります。 ^ が一連の角括弧内で使用される場合、それは「しない」または「除外する」を意味し、特定の文字を削除するためによく使用されます。前の例を使用すると、最初の文字を数字にすることはできません:

^[^0-9][0-9]$

このパターンは、「&5」、「g7」、および「-2」には一致しますが、「12」および「66」には一致しません。特定の文字を除外する例をいくつか示します:

[^a-z] //除了小写字母以外的所有字符 
[^\\/\^] //除了(\)(/)(^)之外的所有字符 
[^\"\'] //除了双引号(")和单引号(')之外的所有字符

特殊文字「.」(ドット、ピリオド) は、「改行」を除くすべての文字を表すために正規表現で使用されます。したがって、パターン「^.5$」は、数字の 5 で終わり、「改行」以外の他の文字で始まる任意の 2 文字の文字列と一致します。パターン「.」は、空の文字列と「改行」のみを含む文字列を除く、任意の文字列と一致します。

PHP の正規表現にはいくつかの組み込みの共通文字クラスターがあり、そのリストは次のとおりです:

文字クラスター説明
[[:alpha:]]任意の文字
[ [: digit:]]任意の数字
[[:alnum:]]任意の文字と数字
[[:space:]]任意の空白文字
[[ :upper: ]]任意の大文字
[[: lower:]]任意の小文字
[[:punct:]]任意の句読点
[[:xdigit: ]] [0-9a-fA-F] に相当する任意の 16 進数

繰り返しを決定する

ここまでで、文字または数字を一致させる方法はすでに理解しましたが、さらに多くの場合があります。単語または一連の数字を一致させたい場合があります。単語は複数の文字で構成され、数字のグループは複数の単数で構成されます。文字または文字クラスターに続く中括弧 ({}) は、前のコンテンツが繰り返される回数を決定するために使用されます。

LETTERAa,aa または aaa2 つ以上の a を含む文字列例: ツチブタとaaab、ただし apple ではありません例: baad と aaa、ただし Nantucket ではありません 2 つのタブ。キャラクター
文字クラスタ説明
^[a-zA-Z_]$すべての文字とアンダースコア
^[[:alpha:]]{3}$すべて3文字Words^a $
^a {4} $ {1,3}$
^a{2,}$
^a{2,}
a{2,}
{2}
{2}

これらの例では、中括弧の 3 つの異なる使用法を説明します。数値 {x} は、「前の文字または文字クラスターが x 回のみ出現する」ことを意味し、数値とコンマ {x,} は、「前のコンテンツが x 回以上出現する」ことを意味します。 ,y} は、「前のコンテンツが少なくとも x 回表示されますが、y 回を超えない」ことを意味します。このパターンをさらに多くの単語や数字に拡張することができます:

^[a-zA-Z0-9_]{1,}$ //所有包含一个以上的字母、数字或下划线的字符串 
^[1-9]{1,}$ //所有的正数 
^\-{0,1}[0-9]{1,}$ //所有的整数 
^[-]?[0-9]+\.?[0-9]+$ //所有的浮点数

最後の例は理解するのが簡単ではありませんね。このように見てください。すべてがオプションのマイナス記号 ([-]?) (^) で始まり、その後に 1 つ以上の数字 ([0-9]+)、そして小数点 (.) が続きます。 1 またはさらに多くの数字 ([0-9]+) が続き、その後に何も続きません ($)。以下では、使用できるより簡単な方法について説明します。

特殊文字「?」は {0,1} に等しく、両方とも「0 または 1 つの前のコンテンツ」または「前のコンテンツはオプション」を表します。したがって、今の例は次のように簡略化できます:

^\-?[0-9]{1,}\.?[0-9]{1,}$

特殊文字「*」と {0,} は等しく、両方とも「0 個以上の前のコンテンツ」を表します。最後に、文字「+」は {1,} に等しく、これは「1 つ以上の前のコンテンツ」を意味するため、上記の 4 つの例は次のように書くことができます:

^[a-zA-Z0-9_]+$ //所有包含一个以上的字母、数字或下划线的字符串 
^[0-9]+$ //所有的正数 
^\-?[0-9]+$ //所有的整数 
^\-?[0-9]*\.?[0-9]*$ //所有的浮点数

もちろん、これは技術的に正規表現の複雑さを軽減するものではありません。しかし、読みやすくすることはできます。