이번에는 JS 정규식 사용법과 기본 구문에 대해 알려드리겠습니다. JS 정규식 사용 시 주의사항과 기본 구문은 무엇인가요?
이전 단어
정규 표현식은 사람들의 마음 속에는 이해하기 어려운 문자 덩어리일 수 있지만 문자열에 대한 효율적인 연산을 가능하게 하는 것은 이러한 기호입니다. 흔히 그렇듯이 문제 자체는 복잡하지 않지만, 정규식이 부족하면 큰 문제가 됩니다. 자바스크립트에서 정규식은 매우 중요한 지식입니다. 이번 글에서는 정규식의 기본 문법을 소개하겠습니다
Definition 정규식(Regular Expression)은 강력하고 편리한 간단한 언어의 문법 사양입니다. 문자열 정보에 대한 검색, 교체 및 추출 작업을 구현하는 일부 방법에 사용되는 효율적인 텍스트 처리 도구
JavaScript의 정규 표현식은
RegExp 개체로 표현됩니다. 하나는 리터럴 작성 방법입니다. ; 다른 하나는 생성자 작성 방법 정규 표현식은 특히 문자열을 처리하는 데 유용합니다. 이 문서에서는 정규 표현식과 Javascript에 대한 기본 지식을 설명합니다. 정규식의 사용.
첫 번째 부분에서는 JavaScript에서 정규식의 사용 시나리오를 간략하게 나열하고, 두 번째 부분에서는 정규식에 대한 기본 지식을 자세히 소개하고 이해하기 쉽게 몇 가지 예를 작성합니다.
이 글의 내용은 Rhino 책의 정규식 작성법과 js 정규식 장을 읽고 제가 직접 요약한 내용이므로 내용이 누락되거나 부정확할 수 있습니다. 전문가가 지나가다가 기사에서 잘못된 점을 발견하면 언제든지 수정해 주세요!
Javascript에서 정규 표현식의 사용정규 표현식은 문자 조각의 특징적인 설명으로 생각할 수 있으며, 그 기능은 문자열 묶음에서 조건을 충족하는 하위 문자열을 찾는 것입니다. 예를 들어 JavaScript에서 정규식을 정의하면
var reg=/hello/ 或者 var reg=new RegExp("hello")
그러면 이 정규식을 사용하여 여러 문자열에서 hello라는 단어를 찾을 수 있습니다. "찾기" 작업의 결과는 첫 번째 hello의 위치 찾기, hello를 다른 문자열로 바꾸기, 모든 hellos 찾기 등이 될 수 있습니다. 아래는 자바스크립트에서 정규식을 사용할 수 있는 함수 목록이며, 이들 함수의 기능에 대한 간략한 소개는 2부에서 소개하겠습니다.
String.prototype.search 메소드는 원래 문자열에서 하위 문자열이 처음 나타나는 인덱스를 찾는 데 사용됩니다. 그렇지 않은 경우 -1
"abchello".search(/hello/); // 3String.prototype.replace 메소드
를 반환합니다. 문자열
"abchello".replace(/hello/,"hi"); // "abchi"String.prototype.split 메소드
는 문자열을 분할하는 데 사용됩니다
"abchelloasdasdhelloasd".split(/hello/); //["abc", "asdasd", "asd"]String.prototype.match 메소드
는 문자열의 하위 문자열을 캡처하는 데 사용됩니다. 배열 중간. 기본적으로 하나의 결과만 배열에 캡처됩니다. 정규식에 "전역 캡처" 속성(정규식 정의 시 매개변수 g 추가)이 있으면 모든 결과가 배열에 일치하는 것으로 캡처됩니다. 매개 변수 match 메서드는 표현식에 전역 속성이 있는지 여부에 따라 다르게 작동합니다. 이에 대해서는 나중에 정규 표현식 그룹화에서 설명합니다.
RegExp.prototype.test 메소드는 문자열에 하위 문자열이 포함되어 있는지 테스트하는 데 사용됩니다."abchelloasdasdhelloasd".match(/hello/); //["hello"]
"abchelloasdasdhelloasd".match(/hello/g); //["hello","hello"]
는 문자열의 일치 메소드와 유사합니다. 문자열에서 조건에 맞는 문자열을 캡처하여 배열로 저장하지만 두 가지 차이점이 있습니다. 1. exec 메소드는 정규 표현식에 전역 속성이 있는지 여부에 관계없이 한 번에 하위 문자열만 배열로 캡처할 수 있습니다
/hello/.test("abchello"); // true
2.
정규 표현식 객체(즉, JavaScript의 RegExp 객체)에는 다음에 캡처를 시작할 위치를 나타내는 데 사용되는 lastIndex 속성입니다. exec 메서드가 실행될 때마다 lastIndex는 일치하는 문자가 발견되지 않고 null이 반환될 때까지 푸시백된 다음 처음부터 캡처가 시작됩니다. 이 속성은 캡처된 문자열의 하위 문자열을 반복하는 데 사용할 수 있습니다.
var reg=/hello/g; reg.lastIndex; //0 reg.exec("abchelloasdasdhelloasd"); // ["hello"] reg.lastIndex; //8 reg.exec("abchelloasdasdhelloasd"); // ["hello"] reg.lastIndex; //19 reg.exec("abchelloasdasdhelloasd"); // null reg.lastIndex; //0
正则表达式基础
元字符
上面第一节以/hello/为例,但是实际应用中可能会遇到这样的需求: 匹配一串不确定的数字、匹配开始的位置、匹配结束的位置、匹配空白符。此时就可以用到元字符。
元字符:
//匹配数字: \d "ad3ad2ad".match(/\d/g); // ["3", "2"] //匹配除换行符以外的任意字符: . "a\nb\rc".match(/./g); // ["a", "b", "c"] //匹配字母或数字或下划线 : \w "a5_ 汉字@!-=".match(/\w/g); // ["a", "5", "_"] //匹配空白符:\s "\n \r".match(/\s/g); //[" ", " ", ""] 第一个结果是\n,最后一个结果是\r //匹配【单词开始或结束】的位置 : \b "how are you".match(/\b\w/g); //["h", "a", "y"] // 匹配【字符串开始和结束】的位置: 开始 ^ 结束 $ "how are you".match(/^\w/g); // ["h"]
反义元字符,写法就是把上面的小写字母变成大写的,比如 , 匹配所有不是数字的字符: \D
另外还有一些用来表示重复的元字符,会在下面的内容中介绍。
字符范围
在 [] 中使用符号 - ,可以用来表示字符范围。如:
// 匹配字母 a-z 之间所有字母 /[a-z]/ // 匹配Unicode中 数字 0 到 字母 z 之间的所有字符 /[0-z]/ // unicode编码查询地址: //https://en.wikibooks.org/wiki/Unicode/Character_reference/0000-0FFF //根据上面的内容,我们可以找出汉字的Unicode编码范围是 \u4E00 到 \u9FA5,所以我们可以写一个正则表达式来判断一个字符串中是否有汉字 /[\u4E00-\u9FA5]/.test("测试"); // true
重复 & 贪婪与懒惰
首先来讲重复,当我们希望匹配一些重复的字符时,就需要用到一些和重复相关的正则表达式,写法如下
//重复n次 {n} "test12".match(/test\d{3}/); // null "test123".match(/test\d{3}/); // ["test123"] //重复n次或更多次 {n,} "test123".match(/test\d{3,}/); // ["test123"] //重复n到m次 "test12".match(/test\d{3,5}/); // null "test12345".match(/test\d{3,5}/); // ["test12345"] "test12345678".match(/test\d{3,5}/); // ["test12345"] // 匹配字符test后边跟着数字,数字重复0次或多次 "test".match(/test\d*/); // ["test"] "test123".match(/test\d*/); // ["test123"] //重复一次或多次 "test".match(/test\d+/) ; // null "test1".match(/test\d*/); //["test1"] //重复一次或0次 "test".match(/test\d?/) ; // null "test1".match(/test\d?/); //["test1"]
从上面的结果可以看到,字符test后边跟着的数字可以重复0次或多次时,正则表达式捕获的子字符串会返回尽量多的数字,比如/test\d*/匹配 test123 ,返回的是test123,而不是test或者test12。
正则表达式捕获字符串时,在满足条件的情况下捕获尽可能多的字符串,这就是所谓的“贪婪模式”。
对应的”懒惰模式“,就是在满足条件的情况下捕获尽可能少的字符串,使用懒惰模式的方法,就是在字符重复标识后面加上一个 "?",写法如下
// 数字重复3~5次,满足条件的情况下返回尽可能少的数字 "test12345".match(/test\d{3,5}?/); //["test123"] // 数字重复1次或更多,满足条件的情况下只返回一个数字 "test12345".match(/test\d+?/); // ["test1"]
字符转义
在正则表达式中元字符是有特殊的含义的,当我们要匹配元字符本身时,就需要用到字符转义,比如:
/\./.test("."); // true
分组 & 分支条件
正则表达式可以用 " () " 来进行分组,具有分组的正则表达式除了正则表达式整体会匹配子字符串外,分组中的正则表达式片段也会匹配字符串。
分组按照嵌套关系和前后关系,每个分组会分配得到一个数字组号,在一些场景中可以用组号来使用分组。
在 replace、match、exec函数中,分组都能体现不同的功能。
replace函数中,第二个参数里边可以用 $+数字组号来指代第几个分组的内容,如:
" the best language in the world is java ".replace(/(java)/,"$1script"); // " the best language in the world is javascript "
"/static/app1/js/index.js".replace(/(\/\w+)\.js/,"$1-v0.0.1.js"); //"/static/app1/js/index-v0.0.1.js" (\/\w+)分组匹配的就是 /index ,
在第二个参数中为其添加上版本号
match函数中,当正则表达式有全局属性时,会捕获所有满足正则表达式的子字符串
"abchellodefhellog".match(/h(ell)o/g); //["hello", "hello"]
但是当正则表达式没有全局属性,且正则表达式中有分组的时候,match函数只会返回整个正则表达式匹配的第一个结果,同时会将分组匹配到的字符串也放入结果数组中:
"abchellodefhellog".match(/h(ell)o/); //["hello", "ell"] // 我们可以用match函数来分解url,获取协议、host、path、查询字符串等信息 "http://www.baidu.com/test?t=5".match(/^((\w+):\/\/([\w\.]+))\/([^?]+)\?(\S+)$/); // ["http://www.baidu.com/test?t=5", "http://www.baidu.com", "http", "www.baidu.com", "test", "t=5"]
exec函数在正则表达式中有分组的情况下,表现和match函数很像,只是无论正则表达式是否有全局属性,exec函数都只返回一个结果,并捕获分组的结果
/h(ell)o/g.exec("abchellodefhellog"); //["hello", "ell"]
当正则表达式需要匹配几种类型的结果时,可以用到分支条件,例如
"asdasd hi asdad hello asdasd".replace(/hi|hello/,"nihao"); //"asdasd nihao asdad hello asdasd" "asdasd hi asdad hello asdasd".split(/hi|hello/); //["asdasd ", " asdad ", " asdasd"]
注意,分支条件影响它两边的所有内容, 比如 hi|hello 匹配的是hi或者hello,而不是 hiello 或者 hhello
分组中的分支条件不会影响分组外的内容
"abc acd bbc bcd ".match(/(a|b)bc/g); //["abc", "bbc"]
后向引用
正则表达式的分组可以在其后边的语句中通过 \+数字组号来引用
比如
// 匹配重复的单词 /(\b[a-zA-Z]+\b)\s+\1/.exec(" asd sf hello hello asd"); //["hello hello", "hello"]
断言
(?:exp) , 用此方式定义的分组,正则表达式会匹配分组中的内容,但是不再给此分组分配组号,此分组在replace、match等函数中的作用也会消失,效果如下:
/(hello)\sworld/.exec("asdadasd hello world asdasd") // ["hello world", "hello"],正常捕获结果字符串和分组字符串 /(?:hello)\sworld/.exec("asdadasd hello world asdasd") // ["hello world"] "/static/app1/js/index.js".replace(/(\/\w+)\.js/,"$1-v0.0.1.js"); //"/static/app1/js/index-v0.0.1.js" "/static/app1/js/index.js".replace(/(?:\/\w+)\.js/,"$1-v0.0.1.js"); //"/static/app1/js$1-v0.0.1.js"
(?=exp) 这个分组用在正则表达式的后面,用来捕获exp前面的字符,分组中的内容不会被捕获,也不分配组号
/hello\s(?=world)/.exec("asdadasd hello world asdasd") // ["hello "]
(?!exp) 和前面的断言相反,用在正则表达式的后面,捕获后面不是exp的字符,同样不捕获分组的内容,也不分配组号
/hello\s(?!world)/.exec("asdadasd hello world asdasd") //null
处理选项
javascript中正则表达式支持的正则表达式有三个,g、i、m,分别代表全局匹配、忽略大小写、多行模式。三种属性可以自由组合共存。
// 全局匹配 g "abchelloasdasdhelloasd".match(/hello/); //["hello"] "abchelloasdasdhelloasd".match(/hello/g); //["hello","hello"] //忽略大小写 i "abchelloasdasdHelloasd".match(/hello/g); //["hello"] "abchelloasdasdHelloasd".match(/hello/gi); //["hello","Hello"]
在默认的模式下,元字符 ^ 和 $ 分别匹配字符串的开头和结尾处,模式 m 改变了这俩元字符的定义,让他们匹配一行的开头和结尾
"aadasd\nbasdc".match(/^[a-z]+$/g); //null 字符串^和$之间有换行符,匹配不上 [a-z]+ ,故返回null "aadasd\nbasdc".match(/^[a-z]+$/gm); // ["aadasd", "basdc"] ,改变^$的含义,让其匹配一行的开头和末尾,可以得到两行的结果
相信看了本文案例你已经掌握了方法,更多精彩请关注php中文网其它相关文章!
推荐阅读:
위 내용은 JS 정규 표현식의 사용 및 기본 구문의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!