ホームページ > 記事 > ウェブフロントエンド > JS正規表現事典(詳しくて実践編)_JavaScriptスキル
正则表达式中的特殊字符
字符 含意
\ 做为转意,即通常在"\"后面的字符不按原来意义解释,如/b/匹配字符"b",当b前面加了反斜杆后/\b/,转意为匹配一个单词的边界。
-或-
对正则表达式功能字符的还原,如"*"匹配它前面元字符0次或多次,/a*/将匹配a,aa,aaa,加了"\"后,/a\*/将只匹配"a*"。
^ 匹配一个输入或一行的开头,/^a/匹配"an A",而不匹配"An a"
$ 匹配一个输入或一行的结尾,/a$/匹配"An a",而不匹配"an A"
* 匹配前面元字符0次或多次,/ba*/将匹配b,ba,baa,baaa
+ 匹配前面元字符1次或多次,/ba*/将匹配ba,baa,baaa
? 匹配前面元字符0次或1次,/ba*/将匹配b,ba
(x) 匹配x保存x在名为$1...$9的变量中
x|y 匹配x或y
{n} 精确匹配n次
{n,} 匹配n次以上
{n,m} 匹配n-m次
[xyz] 字符集(character set),匹配这个集合中的任一一个字符(或元字符)
[^xyz] 不匹配这个集合中的任何一个字符
[\b] 匹配一个退格符
\b 匹配一个单词的边界
\B 匹配一个单词的非边界
\cX 这儿,X是一个控制符,/\cM/匹配Ctrl-M
\d 匹配一个字数字符,/\d/ = /[0-9]/
\D 匹配一个非字数字符,/\D/ = /[^0-9]/
\n 匹配一个换行符
\r 匹配一个回车符
\s 匹配一个空白字符,包括\n,\r,\f,\t,\v等
\S 匹配一个非空白字符,等于/[^\n\f\r\t\v]/
\t 匹配一个制表符
\v 匹配一个重直制表符
\w 匹配一个可以组成单词的字符(alphanumeric,这是我的意译,含数字),包括下划线,如[\w]匹配"$5.98"中的5,等于[a-zA-Z0-9]
\W 匹配一个不可以组成单词的字符,如[\W]匹配"$5.98"中的$,等于[^a-zA-Z0-9]。
用re = new RegExp("pattern",["flags"]) 的方式比较好 |
vaScript动态正则表达式问题
请问正则表达式可以动态生成吗? |
正则表达式是一个描述字符模式的对象。
JavaScript的RegExp对象和String对象定义了使用正则表达式来执行强大的模式匹配和文本检索与替换函数的方法.
在JavaScript中,正则表达式是由一个RegExp对象表示的.当然,可以使用一个RegExp()构造函数来创建RegExp对象,
也可以用JavaScript 1.2中的新添加的一个特殊语法来创建RegExp对象.就像字符串直接量被定义为包含在引号内的字符一样,
正则表达式直接量也被定义为包含在一对斜杠(/)之间的字符.所以,JavaScript可能会包含如下的代码:
var pattern = /s$/;
这行代码创建一个新的RegExp对象,并将它赋给变量parttern.这个特殊的RegExp对象和所有以字母"s"结尾的字符串都匹配.用RegExp()也可以定义
一个等价的正则表达式,代码如下:
var pattern = new RegExp("s$");
无论是用正则表达式直接量还是用构造函数RegExp(),创建一个RegExp对象都是比较容易的.较为困难的任务是用正则表达式语法来描述字符的模式.
JavaScript采用的是Perl语言正则表达式语法的一个相当完整的子集.
正则表达式的模式规范是由一系列字符构成的.大多数字符(包括所有字母数字字符)描述的都是按照字面意思进行匹配的字符.这样说来,正则表达式/java/就和所有包含子串 "java" 的字符串相匹配.虽然正则表达式中的其它字符不是按照字面意思进行匹配的,但它们都具有特殊的意义.正则表达式 /s$/ 包含两个字符. 第一个特殊字符 "s" 是按照字面意思与自身相匹配.第二个字符 "$" 是一个特殊字符,它所匹配的是字符串的结尾.所以正则表达式 /s$/ 匹配的就是以字母 "s" 结尾的字符串.
1.直接量字符
我们已经发现了,在正则表达式中所有的字母字符和数字都是按照字面意思与自身相匹配的.JavaScript的正则表达式还通过以反斜杠(\)开头的转义序列支持某些非字母字符.例如,序列 "\n" 在字符串中匹配的是一个直接量换行符.在正则表达式中,许多标点符号都有特殊的含义.下面是这些字符和它们的含义:
正则表达式的直接量字符
字符 匹配
________________________________
字母数字字符 自身
\ f 换页符
\ n 换行符
\ r 回车
\ t 制表符
\ v 垂直制表符
\ / 一个 / 直接量
\ \ 一个 \ 直接量
\ . 一个 . 直接量
\ * 一个 * 直接量
\ + 一个 + 直接量
\ ? 一个 ? 直接量
\ | 一个 | 直接量
\ ( 一个 ( 直接量
\ ) 一个 ) 直接量
\ [ 一个 [ 直接量
\ ] 一个 ] 直接量
\ { 一个 { 直接量
\ } 一个 } 直接量
\ XXX 由十进制数 XXX 指 定的ASCII码字符
\ Xnn 由十六进制数 nn 指定的ASCII码字符
\ cX 控制字符^X. 例如, \cI等价于 \t, \cJ等价于 \n
___________________________________________________
如果想在正则表达式中使用特殊的标点符号,必须在它们之前加上一个 "\" .
2.字符类
将单独的直接符放进中括号内就可以组合成字符类.一个字符类和它所包含的任何一个字符都匹配,所以正则表达式 / [abc] / 和字母 "a" , "b" , "c" 中的任何一个都匹配.另外还可以定义否定字符类,这些类匹配的是除那些包含在中括号之内的字符外的所有字符.定义否定字符尖时,要将一个 ^ 符号作为从左中括号算起的第一个字符.正则表达式的集合是 / [a-zA-z0-9] / .
由于某些字符类非常常用,所以JavaScript的正则表达式语法包含一些特殊字符和转义序列来表示这些常用的类.例如, \s 匹配的是空格符,制表符和其它空白符, \s 匹配的则是空白符之外的任何字符.
正则表灰式的字符类
字符 匹配
____________________________________________________
[...] 位于括号之内的任意字符
[^...] 不在括号之中的任意字符
. 除了换行符之外的任意字符,等价于[^\n]
\w 任何单字字符, 等价于[a-zA-Z0-9]
\W 任何非单字字符,等价于[^a-zA-Z0-9]
\s 任何空白符,等价于[\ t \ n \ r \ f \ v]
\S 任何非空白符,等价于[^\ t \ n \ r \ f \ v]
\d 任何数字,等价于[0-9]
\D 除了数字之外的任何字符,等价于[^0-9]
[\b] 一个退格直接量(特例)
________________________________________________________________
3.复制
用以上的正则表式的语法,可以把两位数描述成 / \ d \ d /,把四位数描述成 / \d \ d \ d \ d /.但我们还没有一种方法可以用来描述具有任意多数位的数字或者是一个字符串.这个串由三个字符以及跟随在字母之后的一位数字构成.这些复杂的模式使用的正则表达式语法指定了该表达式中每个元素要重复出现的次数.
指定复制的字符总是出现在它们所作用的模式后面.由于某种复制类型相当常用.所以有一些特殊的字符专门用于表示它们.例如: +号匹配的就是复制前一模式一次或多次的模式.下面的表列出了复制语法.先看一个例子:
/\d{2, 4}/ //匹配2到4间的数字.
/\w{3} \d?/ //匹配三个单字字符和一个任意的数字.
/\s+java\s+/ //匹配字符串"java" ,并且该串前后可以有一个或多个空格.
/[^"] * / //匹配零个或多个非引号字符.
正则表达式的复制字符
字符 含义
__________________________________________________________________
{n, m} 匹配前一项至少n次,但是不能超过m次
{n, } 匹配前一项n次,或者多次
{n} 匹配前一项恰好n次
? 匹配前一项0次或1次,也就是说前一项是可选的. 等价于 {0, 1}
+ 匹配前一项1次或多次,等价于{1,}
* 匹配前一项0次或多次.等价于{0,}
___________________________________________________________________
4.选择,分组和引用
正则表达式的语法还包括指定选择项,对子表达式分组和引用前一子表达式的特殊字符.字符| 用于分隔供选择的字符.例如: /ab|cd|ef/ 匹配的是字符串 "ab",或者是字符串 "cd",又或者 "ef". /\d{3}|[a-z]{4}/ 匹配的是要么是一个三位数,要么是四个小写字母.在正则表达式中括号具有几种作用.它的主要作用是把单独的项目分组成子表达式,以便可以像处理一个独立的单元那种用 *、+或? 来处理那些项目.例如: /java(script) ?/ 匹配的是字符串 "java",其后既可以有 "script",也可以没有. /
(ab|cd) + |ef) / 匹配的既可以是字符串 "ef",也可以是字符串"ab" 或者 "cd" 的一次或多次重复.
在正则表达式中,括号的第二个用途是在完整的模式中定义子模式。当一个正则表达式成功地和目标字符串相匹配时,可以从目标串中抽出和括号中的子模式相匹配的部分.例如,假定我们正在检索的模式是一个或多个字母后面跟随一位或多位数字,那么我们可以使用模式 / [a-z] + \ d+/.但是由于假定我们真正关心的是每个匹配尾部的数字,那么如果我们将模式的数字部分放在括号中 (/ [a-z] + (\d+)/) ,我们就可以从所检索到的任何匹配中抽取数字了,之后我们会对此进行解析的.
代括号的子表达式的另一个用途是,允许我们在同一正则表达式的后面引用前面的子表达式.这是通过在字符串 \ 后加一位或多位数字来实现的.数字指的是代括号的子表达式在正则表达式中的位置.例如: \1 引用的是第一个代括号的子表达式. \3 引用的是第三个代括号的子表达式.注意,由于子表达式可以嵌套在其它子表达式中,
所以它的位置是被计数的左括号的位置.
例如:在下面的正则表达式被指定为 \2:
/([Jj]ava([Ss]cript)) \sis \s (fun\w*) /
对正则表达式中前一子表达式的引用所指定的并不是那个子表达式的模式,而是与那个模式相匹配的文本.这样,引用就不只是帮助你输入正则表达式的重复部分的快
捷方式了,它还实施了一条规约,那就是一个字符串各个分离的部分包含的是完全相同的字符.例如:下面的正则表达式匹配的就是位于单引号或双引号之内的所有字符.但是,它要求开始和结束的引号匹配(例如两个都是双引号或者都是单引号):
/[' "] [^ ' "]*[' "]/
如果要求开始和结束的引号匹配,我们可以使用如下的引用:
/( [' "] ) [^ ' "] * \1/
\1匹配的是第一个代括号的子表达式所匹配的模式.在这个例子中,它实施了一种规约,那就是开始的引号必须和结束的引号相匹配.注意,如果反斜杠后跟随的数字比代括号的子表达式数多,那么它就会被解析为一个十进制的转义序列,而不是一个引用.你可以坚持使用完整的三个字符来表示转义序列,这们就可以避免混淆了.例如, 使用 \044,而不是44.下面是正则表达式的选择、分组和引用字符:
字符 含义
____________________________________________________________________
| 記号の左側の部分式または右側の部分式を選択します。
(...) 複数の項目を 1 つの単位に分割します。や | などの記号を使用し、将来の引用のためにこのグループに一致する文字を覚えておくこともできます
は、
n を使用して n 番目のグループと一致する文字に一致します。グループは括弧内の部分式です (ネストされている可能性があります)。グループ番号は、左から右に数えた左括弧の数です。
____________________________________________________________
5. 一致する位置を指定します
正規表現の多くの要素は文字列の 1 文字に一致することがわかりました。たとえば、 s は空白文字にのみ一致します。また、文字間の幅が 0 である正規表現要素もあります。例: b は単語の境界、つまり /w 文字と w 非単語文字の間の境界に一致します。このような文字は、一致する文字列内の有効な文字列を指定しません。一致が発生する位置。取得した文字列内の特定の位置にパターンを配置するため、これらの要素を正規表現アンカーと呼ぶことがあります。最も一般的に使用されるアンカー要素は ^ であり、パターンが文字列の先頭に依存するようになります。一方、アンカー要素 $ は文字列の最後にパターンを配置します。
例: 「javascript」という単語と一致させるには、正規表現 /^ javascript $/ を使用できます。(「javascript」のような接頭辞としてではなく) 単語自体を取得したい場合は、次のようにします。 /s java s / というパターンを使用できますが、これには java という単語の前後にスペースが必要です。1 つ目は、「java」が文字の先頭または末尾にある場合、このパターンは一致しません。 2 番目: このパターンは、一致する文字を見つけると、前後にスペースがある一致する文字列を返しますが、これは私たちが望むものではないため、単語の境界を使用します。 b を使用して、一致する実空間文字 s を置き換えます。結果の式は /b java b/ です。正規表現のアンカー文字は次のとおりです:
文字の意味
____________________________________________________________________________
^ は文字の先頭に一致します。複数行の検索では、
b 一致するのは単語の境界です。つまり、文字 w と w の間の位置です (注: [b] はバックスペース文字と一致します)
B は単語以外の境界文字 _______________________________________________________
6. プロパティ
正規表現構文に関する最後の要素は、正規表現のプロパティです。これは、他の正規表現構文とは異なり、プロパティは / 記号の外側で指定されます。 2 つのスラッシュの間、ただし 2 番目のスラッシュの後で、属性 i はパターン マッチで大文字と小文字を区別しないことを指定します。
つまり、取得された文字列内のすべての一致が見つかる必要があります。これらの 2 つのプロパティを組み合わせると、大文字と小文字を区別しないグローバルな一致が実行されます。
正規表現のプロパティは次のとおりです:
文字の意味_________________________________________
i は大文字と小文字を区別しないマッチングを実行します。
g はグローバル マッチングを実行します。つまり、最初の一致を見つけた後に停止するのではなく、すべての一致を検索します。_______________________________________________________
属性 g と i を除き、正規表現には他の属性のような特性はありません。コンストラクター RegExp の静的属性 multiline が true に設定されている場合、パターン マッチングは複数行モードで実行されます。このモードでは、アンカー文字 ^ と $ は検索文字列の先頭と末尾だけでなく、検索文字列内の行の先頭と末尾にも一致します。たとえば、パターン /Java$/ は「Java」に一致します。一致しません
"Javanis fun" 。複数行属性を設定すると、後者も一致します:
RegExp.multiline = true;
コードをコピーします
コードは次のとおりです。
[RED]function dateVerify(date){
var reg = /^(d{4})(-)(d{2})2(d{2})$/; >var r = date.match(reg);
if(r==null) return false;
var d= new Date(r[1], r[3]-1,r[4]) ;
var newStr=d.getFull Year() r[2] (d.getMonth() 1) r[2] d.getDate();
date=r[1] r[2] ((r) [3]-1) 1) r[2] ((r[4]-1) 1);
return newStr==date
}[/RED]
正規表現オブジェクトのプロパティ
属性の意味
$1...$9 これらが存在する場合、一致した部分文字列
$_ 入力を参照
$* 複数行を参照
$& lastMatch を参照
$ lastParen を参照
$` leftContext を参照
$'' rightContext を参照
constructor オブジェクトの特別な関数プロトタイプを作成
global 文字列全体で一致するかどうか (bool 型)
ignoreCase 一致するかどうか大文字と小文字を無視する (bool 型)
input 一致した文字列
lastIndex 最後に一致したインデックス
lastParen 括弧で囲まれた最後の部分文字列
leftContext 左側の最後に一致した部分文字列
multiline 実行するかどうか複数行のマッチング (bool 型)
プロトタイプにより、オブジェクトに追加の属性を与えることができます
rightContext 最新の一致の右側の部分文字列
ソース正規表現パターン
lastIndex 最後に一致したインデックス
メソッドの意味
正規表現の比較をコンパイル
exec 検索を実行
マッチングのテスト
toSource は特定のオブジェクトの定義 (リテラル表現) とその値を返します新しいオブジェクトを作成するために使用できます。 Object.toSource メソッドをオーバーロードすることによって取得されます。
toString は、特定のオブジェクトの文字列を返します。 Object.toString メソッドをオーバーロードすることによって取得されます。
valueOf は、特定のオブジェクトの元の値を返します。 Object.valueOf メソッドをオーバーロードして、
例