正则表达式中的特殊字符
字符 含意
\ 做为转意,即通常在"\"后面的字符不按原来意义解释,如/b/匹配字符"b",当b前面加了反斜杆后/\b/,转意为匹配一个单词的边界。
-或-
对正则表达式功能字符的还原,如"*"匹配它前面元字符0次或多次,/a*/将匹配a,aa,aaa,加了"\"后,/a\*/将只匹配"a*"。
^ 匹配一个输入或一行的开头,/^a/匹配"an A",而不匹配"An a"
$ 匹配一个输入或一行的结尾,/a$/匹配"An a",而不匹配"an A"
* 匹配前面元字符0次或多次,/ba*/将匹配b,ba,baa,baaa
+ 匹配前面元字符1次或多次,/ba*/将匹配ba,baa,baaa
? 匹配前面元字符0次或1次,/ba*/将匹配b,ba
(x) 匹配x保存x在名为$1...$9的变量中
x|y 匹配x或y
{n} 精确匹配n次
{n,} 匹配n次以上
{n,m} 匹配n-m次
[xyz] 字符集(character set),匹配这个集合中的任一一个字符(或元字符)
[^xyz] 不匹配这个集合中的任何一个字符
[\b] 匹配一个退格符
\b 匹配一个单词的边界
\B 匹配一个单词的非边界
\cX 这儿,X是一个控制符,/\cM/匹配Ctrl-M
\d 匹配一个字数字符,/\d/ = /[0-9]/
\D 匹配一个非字数字符,/\D/ = /[^0-9]/
\n 匹配一个换行符
\r 匹配一个回车符
\s 匹配一个空白字符,包括\n,\r,\f,\t,\v等
\S 匹配一个非空白字符,等于/[^\n\f\r\t\v]/
\t 匹配一个制表符
\v 匹配一个重直制表符
\w 匹配一个可以组成单词的字符(alphanumeric,这是我的意译,含数字),包括下划线,如[\w]匹配"$5.98"中的5,等于[a-zA-Z0-9]
\W 匹配一个不可以组成单词的字符,如[\W]匹配"$5.98"中的$,等于[^a-zA-Z0-9]。
用re = new RegExp("pattern",["flags"]) 的方式比较好 |
vaScript动态正则表达式问题
请问正则表达式可以动态生成吗? |
正则表达式是一个描述字符模式的对象。
JavaScript的RegExp对象和String对象定义了使用正则表达式来执行强大的模式匹配和文本检索与替换函数的方法.
在JavaScript中,正则表达式是由一个RegExp对象表示的.当然,可以使用一个RegExp()构造函数来创建RegExp对象,
也可以用JavaScript 1.2中的新添加的一个特殊语法来创建RegExp对象.就像字符串直接量被定义为包含在引号内的字符一样,
正则表达式直接量也被定义为包含在一对斜杠(/)之间的字符.所以,JavaScript可能会包含如下的代码:
var pattern = /s$/;
这行代码创建一个新的RegExp对象,并将它赋给变量parttern.这个特殊的RegExp对象和所有以字母"s"结尾的字符串都匹配.用RegExp()也可以定义
一个等价的正则表达式,代码如下:
var pattern = new RegExp("s$");
无论是用正则表达式直接量还是用构造函数RegExp(),创建一个RegExp对象都是比较容易的.较为困难的任务是用正则表达式语法来描述字符的模式.
JavaScript采用的是Perl语言正则表达式语法的一个相当完整的子集.
正则表达式的模式规范是由一系列字符构成的.大多数字符(包括所有字母数字字符)描述的都是按照字面意思进行匹配的字符.这样说来,正则表达式/java/就和所有包含子串 "java" 的字符串相匹配.虽然正则表达式中的其它字符不是按照字面意思进行匹配的,但它们都具有特殊的意义.正则表达式 /s$/ 包含两个字符. 第一个特殊字符 "s" 是按照字面意思与自身相匹配.第二个字符 "$" 是一个特殊字符,它所匹配的是字符串的结尾.所以正则表达式 /s$/ 匹配的就是以字母 "s" 结尾的字符串.
1.直接量字符
我们已经发现了,在正则表达式中所有的字母字符和数字都是按照字面意思与自身相匹配的.JavaScript的正则表达式还通过以反斜杠(\)开头的转义序列支持某些非字母字符.例如,序列 "\n" 在字符串中匹配的是一个直接量换行符.在正则表达式中,许多标点符号都有特殊的含义.下面是这些字符和它们的含义:
正则表达式的直接量字符
字符 匹配
________________________________
字母数字字符 自身
\ f 换页符
\ n 换行符
\ r 回车
\ t 制表符
\ v 垂直制表符
\ / 一个 / 直接量
\ \ 一个 \ 直接量
\ . 一个 . 直接量
\ * 一个 * 直接量
\ + 一个 + 直接量
\ ? 一个 ? 直接量
\ | 一个 | 直接量
\ ( 一个 ( 直接量
\ ) 一个 ) 直接量
\ [ 一个 [ 直接量
\ ] 一个 ] 直接量
\ { 一个 { 直接量
\ } 一个 } 直接量
\ XXX 由十进制数 XXX 指 定的ASCII码字符
\ Xnn 由十六进制数 nn 指定的ASCII码字符
\ cX 控制字符^X. 例如, \cI等价于 \t, \cJ等价于 \n
___________________________________________________
如果想在正则表达式中使用特殊的标点符号,必须在它们之前加上一个 "\" .
2.字符类
将单独的直接符放进中括号内就可以组合成字符类.一个字符类和它所包含的任何一个字符都匹配,所以正则表达式 / [abc] / 和字母 "a" , "b" , "c" 中的任何一个都匹配.另外还可以定义否定字符类,这些类匹配的是除那些包含在中括号之内的字符外的所有字符.定义否定字符尖时,要将一个 ^ 符号作为从左中括号算起的第一个字符.正则表达式的集合是 / [a-zA-z0-9] / .
由于某些字符类非常常用,所以JavaScript的正则表达式语法包含一些特殊字符和转义序列来表示这些常用的类.例如, \s 匹配的是空格符,制表符和其它空白符, \s 匹配的则是空白符之外的任何字符.
正则表灰式的字符类
字符 匹配
____________________________________________________
[...] 位于括号之内的任意字符
[^...] 不在括号之中的任意字符
. 除了换行符之外的任意字符,等价于[^\n]
\w 任何单字字符, 等价于[a-zA-Z0-9]
\W 任何非单字字符,等价于[^a-zA-Z0-9]
\s 任何空白符,等价于[\ t \ n \ r \ f \ v]
\S 任何非空白符,等价于[^\ t \ n \ r \ f \ v]
\d 任何数字,等价于[0-9]
\D 除了数字之外的任何字符,等价于[^0-9]
[\b] 一个退格直接量(特例)
________________________________________________________________
3.复制
用以上的正则表式的语法,可以把两位数描述成 / \ d \ d /,把四位数描述成 / \d \ d \ d \ d /.但我们还没有一种方法可以用来描述具有任意多数位的数字或者是一个字符串.这个串由三个字符以及跟随在字母之后的一位数字构成.这些复杂的模式使用的正则表达式语法指定了该表达式中每个元素要重复出现的次数.
指定复制的字符总是出现在它们所作用的模式后面.由于某种复制类型相当常用.所以有一些特殊的字符专门用于表示它们.例如: +号匹配的就是复制前一模式一次或多次的模式.下面的表列出了复制语法.先看一个例子:
/\d{2, 4}/ //匹配2到4间的数字.
/\w{3} \d?/ //匹配三个单字字符和一个任意的数字.
/\s+java\s+/ //匹配字符串"java" ,并且该串前后可以有一个或多个空格.
/[^"] * / //匹配零个或多个非引号字符.
正则表达式的复制字符
字符 含义
__________________________________________________________________
{n, m} 匹配前一项至少n次,但是不能超过m次
{n, } 匹配前一项n次,或者多次
{n} 匹配前一项恰好n次
? 匹配前一项0次或1次,也就是说前一项是可选的. 等价于 {0, 1}
+ 匹配前一项1次或多次,等价于{1,}
* 匹配前一项0次或多次.等价于{0,}
___________________________________________________________________
4.选择,分组和引用
正则表达式的语法还包括指定选择项,对子表达式分组和引用前一子表达式的特殊字符.字符| 用于分隔供选择的字符.例如: /ab|cd|ef/ 匹配的是字符串 "ab",或者是字符串 "cd",又或者 "ef". /\d{3}|[a-z]{4}/ 匹配的是要么是一个三位数,要么是四个小写字母.在正则表达式中括号具有几种作用.它的主要作用是把单独的项目分组成子表达式,以便可以像处理一个独立的单元那种用 *、+或? 来处理那些项目.例如: /java(script) ?/ 匹配的是字符串 "java",其后既可以有 "script",也可以没有. /
(ab|cd) + |ef) / 匹配的既可以是字符串 "ef",也可以是字符串"ab" 或者 "cd" 的一次或多次重复.
在正则表达式中,括号的第二个用途是在完整的模式中定义子模式。当一个正则表达式成功地和目标字符串相匹配时,可以从目标串中抽出和括号中的子模式相匹配的部分.例如,假定我们正在检索的模式是一个或多个字母后面跟随一位或多位数字,那么我们可以使用模式 / [a-z] + \ d+/.但是由于假定我们真正关心的是每个匹配尾部的数字,那么如果我们将模式的数字部分放在括号中 (/ [a-z] + (\d+)/) ,我们就可以从所检索到的任何匹配中抽取数字了,之后我们会对此进行解析的.
代括号的子表达式的另一个用途是,允许我们在同一正则表达式的后面引用前面的子表达式.这是通过在字符串 \ 后加一位或多位数字来实现的.数字指的是代括号的子表达式在正则表达式中的位置.例如: \1 引用的是第一个代括号的子表达式. \3 引用的是第三个代括号的子表达式.注意,由于子表达式可以嵌套在其它子表达式中,
所以它的位置是被计数的左括号的位置.
例如:在下面的正则表达式被指定为 \2:
/([Jj]ava([Ss]cript)) \sis \s (fun\w*) /
对正则表达式中前一子表达式的引用所指定的并不是那个子表达式的模式,而是与那个模式相匹配的文本.这样,引用就不只是帮助你输入正则表达式的重复部分的快
捷方式了,它还实施了一条规约,那就是一个字符串各个分离的部分包含的是完全相同的字符.例如:下面的正则表达式匹配的就是位于单引号或双引号之内的所有字符.但是,它要求开始和结束的引号匹配(例如两个都是双引号或者都是单引号):
/[' "] [^ ' "]*[' "]/
如果要求开始和结束的引号匹配,我们可以使用如下的引用:
/( [' "] ) [^ ' "] * \1/
\1匹配的是第一个代括号的子表达式所匹配的模式.在这个例子中,它实施了一种规约,那就是开始的引号必须和结束的引号相匹配.注意,如果反斜杠后跟随的数字比代括号的子表达式数多,那么它就会被解析为一个十进制的转义序列,而不是一个引用.你可以坚持使用完整的三个字符来表示转义序列,这们就可以避免混淆了.例如, 使用 \044,而不是44.下面是正则表达式的选择、分组和引用字符:
字符 含义
____________________________________________________________________
| 기호 왼쪽의 하위 표현식 또는 오른쪽 하위 표현식을 일치시키십시오.
(...) 그룹화 이 단위는 *, , ? 및 |와 같은 기호를 사용하고 향후 인용을 위해 이 그룹과 일치하는 문자를 기억할 수도 있습니다
은
n을 사용하여 n번째 그룹과 일치하는 문자와 일치합니다. 그룹은 괄호 안의 하위 표현식입니다(중첩될 수 있음). 그룹 번호는 왼쪽에서 오른쪽으로 계산된 왼쪽 괄호의 수입니다.
______________________________________________
5. 매칭 위치 지정
정규식의 많은 요소가 문자열의 한 문자와 일치할 수 있음을 확인했습니다. 예를 들어 s는 공백 문자에만 일치합니다. 또한 문자 사이의 너비가 0인 정규식 요소도 있습니다. 예를 들어, b는 단어의 경계, 즉 /w 문자와 w가 아닌 문자 사이의 경계와 일치합니다. 이와 같은 문자는 일치하는 문자열에서 유효한 문자를 지정하지 않습니다. 검색된 문자열의 특정 위치에 패턴을 배치하기 때문에 이러한 요소를 정규식 앵커라고 부르는 경우가 있습니다. 가장 일반적으로 사용되는 앵커 요소는 ^이며, 이는 패턴을 문자열의 시작 부분에 종속시킵니다. , 앵커 요소 $는 문자열
끝에 패턴을 배치합니다.예: "javascript"라는 단어를 일치시키려면 정규식 /^ javascript $/를 사용할 수 있습니다. "javascript"와 같은 접두사가 아닌 "java"라는 단어 자체를 검색하려는 경우 java라는 단어 앞뒤에 공백이 필요한 /s java s / 패턴을 사용할 수 있습니다. 그러나 여기에는 두 가지 문제가 있습니다. 첫째, "java"가 문자의 시작이나 끝에 나타나면 이 패턴은 일치하지 않습니다. 두 번째: 이 패턴이 일치하는 문자를 찾으면 앞뒤에 공백이 있는 일치하는 문자열을 반환하는데 이는 우리가 원하는 것이 아닙니다. b 일치를 위해 실제 공백 문자 s를 대체합니다. 결과 표현식은 /b java b/입니다.
다음은 정규식의 앵커 문자입니다.문자 의미
____________________________________________________________________________
$는 문자의 끝과 일치합니다.
b 일치하는 것은 단어의 경계입니다. 즉, 문자 w와 w 사이의 위치입니다. (참고: [b]는 백스페이스 문자와 일치합니다.)
B는 단어가 아닌 경계 문자와 일치합니다.
_________________________________________________________________________________
6. 속성
즉, 검색된 문자열에서 일치하는 항목을 모두 찾아야 합니다. 이 두 속성을 결합하면 대소문자를 구분하지 않는 전역 일치를 수행할 수 있습니다.
예: 크기를 구분하지 않는 검색을 수행하여 단어 "java"(또는 "java", "JAVA" 등)의 첫 번째 특정 값을 찾으려면 크기를 구분하지 않는 정규 표현식 /b를 사용할 수 있습니다. javab/i. 문자열에서 "java"의 모든 특정 값을 찾으려면 속성 g, 즉 /b java b/gi를 추가할 수도 있습니다.
정규 표현식의 속성은 다음과 같습니다.
문자 의미_________________________________________
i는 대소문자를 구분하지 않는 일치를 수행합니다.
_________________________________________
g 및 i 속성을 제외하고 정규식에는 속성과 유사한 다른 특성이 없습니다. 생성자 RegExp의 정적 속성 multiline이 true로 설정된 경우 패턴 일치는 여기에서 여러 줄 모드로 수행됩니다. 이 모드에서 앵커 문자 ^ 및 $는 검색 문자열의 시작과 끝뿐만 아니라 검색 문자열 내 줄의 시작과 끝과도 일치합니다. 예를 들어 패턴 /Java$/는 "Java"와 일치하지만 일치하지 않습니다
"Javanis fun" . 여러 줄 속성을 설정하면 후자도 일치합니다.
RegExp.multiline = true
JAVASCRIPT에서 문자열이 이메일 형식인지 확인합니다.
var reg = /^(d{4})(-)(d{2})2(d{2})$/; >var r = date.match(reg);
if(r==null) return false
var d= new Date(r[1], r[3]-1,r[4]) ;
var newStr=d.getFullYear() r[2] (d.getMonth() 1) r[2] d.getDate()
date=r[1] r[2] ((r [3]-1) 1) r[2] ((r[4]-1) 1)
return newStr==date;
}[/RED]
자바스크립트 정규식 17개
속성 의미
$1...$9 존재하는 경우 일치하는 하위 문자열입니다.
$_ 입력 보기$* 여러 줄 보기
$& lastMatch 보기
$ lastParen 참조
$` leftContext 참조
$'' rightContext
생성자 참조 객체의 특수 함수 프로토타입 생성
global 전체 문자열에서 일치할지 여부(bool 유형)
ignoreCase 일치 여부 대소문자 무시(bool 유형)
input 일치하는 문자열
lastIndex 마지막 일치 인덱스
lastParen 괄호로 묶인 마지막 하위 문자열
leftContext 왼쪽의 마지막 일치 하위 문자열
multiline 수행 여부 여러 줄 일치(부울 유형)
프로토타입을 사용하면 객체에 추가 속성을 부여할 수 있습니다.
rightContext 가장 최근 일치 항목의 오른쪽에 있는 하위 문자열
소스 정규식 패턴
lastIndex 마지막으로 일치된 인덱스
정규 표현식 객체의 메소드
메서드 의미
exec는 검색을 수행합니다
일치 테스트
toSource는 특정 객체의 정의(리터럴 표현)와 해당 값을 반환합니다. 새 개체를 만드는 데 사용할 수 있습니다. Object.toSource 메서드를 오버로드하여 가져옵니다.
toString은 특정 객체의 문자열을 반환합니다. Object.toString 메서드를 오버로드하여 가져옵니다.
valueOf는 특정 객체의 원래 값을 반환합니다. Object.valueOf 메서드를 오버로드하여
예제