정규식 - 일치 규칙
기본 패턴 매칭
모든 것은 기본부터 시작됩니다. 패턴은 정규식의 가장 기본적인 요소이며 문자열의 특성을 설명하는 문자 집합입니다. 패턴은 일반 문자열로 구성된 단순할 수도 있고, 특수 문자를 사용하여 다양한 문자, 반복 또는 컨텍스트를 나타내는 경우가 많은 매우 복잡한 것일 수도 있습니다. 예:
^once
이 패턴에는 특수 문자 ^가 포함되어 있습니다. 이는 패턴이 한 번으로 시작하는 문자열과만 일치한다는 의미입니다. 예를 들어, 이 패턴은 "once upon a time"이라는 문자열과 일치하지만 "There Once was a man from NewYork"와는 일치하지 않습니다. ^ 기호가 시작을 나타내는 것처럼 $ 기호는 주어진 패턴으로 끝나는 문자열과 일치합니다.
bucket$
이 패턴은 "누가 이 현금을 모두 양동이에 보관했는지"와 일치하지만 "양동이"에는 일치하지 않습니다. ^ 및 $ 문자를 함께 사용하면 정확한 일치를 나타냅니다(문자열은 패턴과 동일함). 예:
^bucket$
는 "bucket" 문자열과만 일치합니다. 패턴에 ^ 및 $가 포함되어 있지 않으면 패턴이 포함된 모든 문자열과 일치합니다. 예를 들어
once
패턴은
There once was a man from NewYork Who kept all of his cash in a bucket.
문자열과 일치합니다.
이 패턴의 문자(o-n-c-e)는 문자 그대로의 문자입니다. 즉, 문자 자체를 나타내며 숫자에도 마찬가지입니다. 문장 부호 및 흰색 문자(공백, 탭 등)와 같은 약간 더 복잡한 문자에는 이스케이프 시퀀스가 필요합니다. 모든 이스케이프 시퀀스는 백슬래시()로 시작됩니다. 탭 문자의 이스케이프 시퀀스는 t입니다. 따라서 문자열이 탭 문자로 시작하는지 감지하려면 다음 패턴을 사용할 수 있습니다.
^\t
마찬가지로 n을 사용하여 "새 줄"을 나타내고 r을 사용하여 캐리지 리턴을 나타냅니다. 백슬래시 앞에 다른 특수 기호를 사용할 수 있습니다. 예를 들어 백슬래시 자체는 \로 표시되고 마침표는 .로 표시됩니다.
문자 클러스터
인터넷 프로그램에서는 일반적으로 사용자 입력을 확인하기 위해 정규식을 사용합니다. 사용자가 FORM을 제출할 때 입력된 전화번호, 주소, 이메일 주소, 신용카드 번호 등이 유효한지 확인하기 위해 일반 리터럴 문자를 사용하는 것만으로는 충분하지 않습니다.
그래서 우리는 우리가 원하는 패턴을 설명하기 위해 좀 더 자유로운 방법, 즉 문자 클러스터를 사용해야 합니다. 모든 모음 문자를 나타내는 클러스터를 만들려면 모든 모음 문자를 대괄호 안에 넣으세요.
[AaEeIiOoUu]
이 패턴은 모든 모음 문자와 일치하지만 하나의 문자만 나타낼 수 있습니다. 하이픈을 사용하여 다음과 같이 다양한 문자를 나타냅니다.
[a-z] //匹配所有的小写字母 [A-Z] //匹配所有的大写字母 [a-zA-Z] //匹配所有的字母 [0-9] //匹配所有的数字 [0-9\.\-] //匹配所有的数字,句号和减号 [ \f\r\t\n] //匹配所有的白字符
마찬가지로 하이픈은 단일 문자만 나타내므로 매우 중요합니다. "z2", "t6" 또는 "g7"과 같이 소문자와 숫자로 구성된 문자열을 일치시키되 "ab2", "r2d3" 또는 "b52"는 일치시키지 않으려면 다음 패턴을 사용하십시오.
^[a-z][0-9]$
[a-z]는 26자 범위를 나타내지만 여기서는 첫 번째 문자가 소문자인 문자열에만 일치할 수 있습니다.
앞서 ^가 문자열의 시작을 나타낸다고 언급했지만, 또 다른 의미를 갖고 있습니다. ^가 대괄호 안에 사용되면 "아님" 또는 "제외"를 의미하며 특정 문자를 제거하는 데 자주 사용됩니다. 이전 예를 사용하면 첫 번째 문자는 숫자일 수 없습니다.
^[^0-9][0-9]$
이 패턴은 "&5", "g7" 및 "-2"와 일치하지만 "12" 및 "66"과 일치하지 않습니다. 다음은 특정 문자를 제외하는 몇 가지 예입니다.
[^a-z] //除了小写字母以外的所有字符 [^\\/\^] //除了(\)(/)(^)之外的所有字符 [^\"\'] //除了双引号(")和单引号(')之外的所有字符
특수 문자 "."(점, 마침표)는 정규식에서 "새 줄"을 제외한 모든 문자를 나타내는 데 사용됩니다. 따라서 "^.5$" 패턴은 숫자 5로 끝나고 "줄바꿈"이 아닌 다른 문자로 시작하는 모든 두 문자 문자열과 일치합니다. "." 패턴은 빈 문자열과 "새 줄"만 포함하는 문자열을 제외한 모든 문자열과 일치할 수 있습니다.
PHP의 정규식에는 내장된 공통 문자 클러스터가 있으며 목록은 다음과 같습니다.
字符簇 | 描述 |
---|---|
[[:alpha:]] | 任何字母 |
[[:digit:]] | 任何数字 |
[[:alnum:]] | 任何字母和数字 |
[[:space:]] | 任何空白字符 |
[[:upper:]] | 任何大写字母 |
[[:lower:]] | 任何小写字母 |
[[:punct:]] | 任何标点符号 |
[[:xdigit:]] | 任何16进制的数字,相当于[0-9a-fA-F] |
반복 발생 식별
이제 문자나 숫자를 일치시키는 방법을 이미 알고 있지만 더 많은 경우가 가능합니다. 단어 또는 숫자 그룹. 단어는 여러 글자로 구성되고, 숫자 그룹은 여러 개의 단수로 구성됩니다. 문자 또는 문자 클러스터 뒤의 중괄호({})는 이전 콘텐츠가 반복되는 횟수를 결정하는 데 사용됩니다.
字符簇 | 描述 |
---|---|
^[a-zA-Z_]$ | 所有的字母和下划线 |
^[[:alpha:]]{3}$ | 所有的3个字母的单词 |
^a$ | 字母a |
^a{4}$ | aaaa |
^a{2,4}$ | aa,aaa或aaaa |
^a{1,3}$ | a,aa或aaa |
^a{2,}$ | 包含多于两个a的字符串 |
^a{2,} | 如:aardvark和aaab,但apple不行 |
a{2,} | 如:baad和aaa,但Nantucket不行 |
t{2} | 两个制表符 |
.{2} | 所有的两个字符 |
이 예에서는 중괄호의 세 가지 용도를 설명합니다. 숫자, {x}는 "이전 문자 또는 문자 클러스터가 x번만 나타남"을 의미합니다. 숫자와 쉼표, {x,}는 "이전 내용이 x개 이상 나타남"을 의미합니다. ,y}는 "이전 콘텐츠가 x회 이상 표시되지만 y회 이하로 표시됨"을 의미합니다. 패턴을 더 많은 단어나 숫자로 확장할 수 있습니다.
^[a-zA-Z0-9_]{1,}$ //所有包含一个以上的字母、数字或下划线的字符串 ^[1-9]{1,}$ //所有的正数 ^\-{0,1}[0-9]{1,}$ //所有的整数 ^[-]?[0-9]+\.?[0-9]+$ //所有的浮点数
마지막 예는 이해하기 쉽지 않죠? 이렇게 보면 모든 것이 선택적 빼기 기호([-]?)(^)로 시작하고 그 뒤에 1개 이상의 숫자([0-9]+)가 오고 그 뒤에 소수점(.)이 옵니다. 1 또는 더 많은 숫자([0-9]+)가 있고 그 뒤에는 다른 숫자($)가 없습니다. 아래에서는 사용할 수 있는 더 간단한 방법에 대해 알아봅니다.
특수 문자 "?"는 {0,1}과 동일하며 둘 다 "0 또는 1개의 이전 콘텐츠" 또는 "이전 콘텐츠는 선택 사항"을 나타냅니다. 따라서 지금의 예는 다음과 같이 단순화될 수 있습니다.
^\-?[0-9]{1,}\.?[0-9]{1,}$
특수 문자 "*"와 {0,}는 동일하며 둘 다 "0개 이상의 이전 내용"을 나타냅니다. 마지막으로 문자 "+"는 "1개 이상의 이전 내용"을 의미하는 {1,}과 동일하므로 위의 4가지 예는 다음과 같이 작성할 수 있습니다.
^[a-zA-Z0-9_]+$ //所有包含一个以上的字母、数字或下划线的字符串 ^[0-9]+$ //所有的正数 ^\-?[0-9]+$ //所有的整数 ^\-?[0-9]*\.?[0-9]*$ //所有的浮点数
물론 이것이 정규식 복잡성을 기술적으로 줄이지는 않습니다. 하지만 더 쉽게 읽을 수 있습니다.