PHP는 *NIX의 일관된 전통을 계승하고 정규식 처리를 완벽하게 지원합니다. 정규식은 고급이지만 직관적이지 않은 문자열 일치 및 처리 방법을 제공합니다. PERL의 정규식을 사용해 본 친구들은 정규식이 매우 강력하다는 것을 알고 있지만 배우기가 쉽지 않습니다.
예:
^.+@.+..+$
이 효과적이지만 이해하기 어려운 코드는 일부 프로그래머에게 두통을 주거나 사용을 포기하게 만들기에 충분합니다. 그것은 정규 표현식입니다. 이 튜토리얼을 다 읽고 나면 이 코드의 의미를 이해하게 될 것이라고 믿습니다.
기본 패턴 매칭
모든 것은 기본부터 시작됩니다. 패턴은 정규식의 가장 기본적인 요소이며 문자열의 특성을 설명하는 문자 집합입니다. 패턴은 일반 문자열로 구성된 단순할 수도 있고, 특수 문자를 사용하여 다양한 문자, 반복 또는 컨텍스트를 나타내는 경우가 많은 매우 복잡한 것일 수도 있습니다. 예:
^once
이 패턴에는 특수 문자 ^가 포함되어 있습니다. 이는 패턴이 one으로 시작하는 문자열과만 일치한다는 의미입니다. 예를 들어, 이 패턴은 "once upon a time"이라는 문자열과 일치하지만 "There Once was a man from NewYork"와는 일치하지 않습니다. ^ 기호가 시작을 나타내는 것처럼 $ 기호는 주어진 패턴으로 끝나는 문자열과 일치합니다.
bucket$
이 패턴은 "누가 이 현금을 모두 양동이에 보관했는지"와 일치하지만 "buckets"와는 일치하지 않습니다. ^ 및 $ 문자를 함께 사용하면 정확한 일치를 나타냅니다(문자열은 패턴과 동일함). 예:
^bucket$
은 "bucket" 문자열에만 일치합니다. 패턴에 ^ 및 $가 포함되어 있지 않으면 패턴이 포함된 모든 문자열과 일치합니다. 예: 패턴
once
및 문자열
한때 NewYork
모든 현금을 양동이에 담아 두었던 한 남자가 있었습니다.
일치합니다.
이 패턴의 문자(o-n-c-e)는 문자 그대로의 문자입니다. 즉, 문자 자체를 나타내며 숫자도 마찬가지입니다. 구두점 및 흰색 문자(공백, 탭 등)와 같은 약간 더 복잡한 문자에는 이스케이프 시퀀스가 필요합니다. 모든 이스케이프 시퀀스는 백슬래시()로 시작됩니다. 탭 문자의 이스케이프 시퀀스는 t입니다. 따라서 문자열이 탭 문자로 시작하는지 여부를 감지하려면 다음 패턴을 사용할 수 있습니다.
^t
마찬가지로 n을 사용하여 "새 줄"을 나타내고 r을 사용하여 캐리지를 나타냅니다. 반품. 백슬래시 자체는 .으로 표시되고 마침표는 .로 표시되는 등 다른 특수 기호를 백슬래시 앞에 사용할 수 있습니다.
문자 클러스터
INTERNET 프로그램에서는 일반적으로 사용자 입력을 확인하기 위해 정규식을 사용합니다. 사용자가 FORM을 제출할 때 입력된 전화번호, 주소, 이메일 주소, 신용카드 번호 등이 유효한지 확인하기 위해 일반 리터럴 문자를 사용하는 것만으로는 충분하지 않습니다.
따라서 우리가 원하는 패턴을 설명하기 위해 좀 더 자유로운 방법, 즉 문자 클러스터를 사용해야 합니다. 모든 모음 문자를 나타내는 클러스터를 만들려면 모든 모음 문자를 대괄호로 묶습니다.
[AaEeIiOoUu]
이 패턴은 모든 모음 문자와 일치하지만 하나의 문자만 나타낼 수 있습니다. 하이픈을 사용하여 다음과 같이 문자 범위를 나타냅니다.
[a-z] // 모든 소문자 일치
[A-Z] // 모든 대문자 일치
[a -zA-Z] // 모든 문자 일치
[0-9] // 모든 숫자 일치
[0-9.-] // 모든 숫자, 마침표 및 빼기 기호 일치
[ frtn] //모두 흰색 문자와 일치
다시 말하지만, 이는 매우 중요한 문자 하나만 나타냅니다. "z2", "t6" 또는 "g7"과 같이 소문자와 숫자로 구성된 문자열을 일치시키되 "ab2", "r2d3" 또는 "b52"는 일치시키지 않으려면 다음 패턴을 사용하십시오.
^[a-z][0-9]$
[a-z]는 26자의 범위를 나타내지만 여기서는 첫 번째 문자가 소문자인 문자열에만 일치할 수 있습니다.
앞서 ^가 문자열의 시작을 나타낸다고 언급했지만 또 다른 의미도 있습니다. ^가 대괄호 안에 사용되면 "아님" 또는 "제외"를 의미하며 특정 문자를 제거하는 데 자주 사용됩니다. 이전 예를 사용하면 첫 번째 문자는 숫자가 될 수 없습니다.
^[^0-9][0-9]$
이 패턴은 "&5"와 동일합니다. , "g7"과 "-2"는 일치하지만 "12"와 "66"은 일치하지 않습니다. 특정 문자를 제외하는 몇 가지 예는 다음과 같습니다.
[^a-z] //소문자를 제외한 모든 문자
[^/^] //"/" 및 "^" 제외 모든 문자 문자 제외
[^"'] //큰따옴표(")와 작은따옴표(')를 제외한 모든 문자
특수 문자 "."(점, 마침표)는 정규 표현식에서 "새 줄"을 제외한 모든 문자를 나타내는 데 사용됩니다. 따라서 "^.5$" 패턴은 숫자 5로 끝나고 "줄바꿈"이 아닌 다른 문자로 시작하는 두 문자 문자열과 일치합니다. "." 패턴은 빈 문자열과 "새 줄"만 포함하는 문자열을 제외한 모든 문자열과 일치할 수 있습니다.
PHP의 정규 표현식에는 몇 가지 일반 문자 클러스터가 내장되어 있으며 목록은 다음과 같습니다.
문자 클러스터 의미
[[:alpha:]] 모든 문자
[[:digit:]] 모든 숫자
[[:alnum:]] 모든 문자 및 숫자
[[:space:]] 모든 흰색 문자
[[:upper:]] 모든 대문자
[[:lower:]] 모든 소문자
[[:punct:]] 모든 구두점
[[ :xdigit:]] [0-9a-fA-F]에 해당하는 임의의 16진수
반복적으로 나타나는지 확인하세요
지금까지 문자를 일치시키는 방법을 이미 알고 계셨습니다. 또는 숫자이지만 대개 단어나 숫자 그룹을 일치시키고 싶을 수도 있습니다. 단어는 여러 글자로 구성되고, 숫자 그룹은 여러 개의 단수로 구성됩니다. 문자 또는 문자 클러스터 뒤의 중괄호({})는 이전 콘텐츠가 반복되는 횟수를 결정하는 데 사용됩니다.
문자 클러스터 의미
^[a-zA-Z_]$ 모든 문자 및 밑줄
^[[:alpha:]]{3}$ 다음이 포함된 3개 단어 모두 문자
^a$ 문자 a
^a{4}$ aaaa
^a{2,4}$ aa,aaa 또는 aaaa
^a{1,3}$ a,aa 또는 aaa
^a{2,}$ 두 개 이상의 a를 포함하는 문자열
^a{2,} 예: aardvark 및 aaab , 그러나 apple은 아님
a{2,} 예: baad 및 aaa이지만 Nantucket은 아님
t{2} 두 개의 탭 문자
.{2} 모두 두 개 문자
이 예에서는 중괄호의 세 가지 용도를 설명합니다. 숫자, {x}는 "이전 문자 또는 문자 클러스터가 x번만 나타남"을 의미합니다. 숫자와 쉼표, {x,}는 "이전 내용이 x개 이상 나타남"을 의미합니다. ,y}는 "이전 콘텐츠가 x회 이상 표시되지만 y회 이하로 표시됨"을 의미합니다. 패턴을 더 많은 단어나 숫자로 확장할 수 있습니다.
^[a-zA-Z0-9_]{1,}$ //둘 이상의 문자, 숫자 또는 밑줄을 포함하는 모든 문자열
^[0-9]{1,}$ //모든 양수
^-{0,1}[0-9]{1,}$ //모든 정수
^-{0,1}[0-9]{0,}.{0,1}[0-9]{0,}$ //소수점 모두
마지막 예를 들어 이해하기 쉽지 않습니다. , 그렇죠? 다음과 같이 살펴보세요. 선택적 음수 기호(-{0,1})(^)로 시작하는 모든 항목과 그 뒤에 0개 이상의 숫자([0-9]{0,}) 및 선택적 소수점 A가 옵니다. (.{0,1}) 뒤에 0개 이상의 숫자([0-9]{0,})가 오고 그 외에는 아무것도 없습니다($). 아래에서는 사용할 수 있는 더 간단한 방법에 대해 알아봅니다.
특수 문자 "?"는 {0,1}과 동일하며 둘 다 "0 또는 1개의 이전 콘텐츠" 또는 "이전 콘텐츠는 선택 사항"을 나타냅니다. 따라서 지금의 예는 다음과 같이 단순화될 수 있습니다:
^-?[0-9]{0,}.?[0-9]{0,}$
특수 문자 " *"와 {0,}는 동일하며 둘 다 "0개 이상의 이전 내용"을 나타냅니다. 마지막으로 문자 "+"는 "1개 이상의 이전 내용"을 의미하는 {1,}과 동일하므로 위의 4가지 예는 다음과 같이 작성할 수 있습니다.
^[a-zA-Z0- 9_ ]+$ //하나 이상의 문자, 숫자 또는 밑줄을 포함하는 모든 문자열
^[0-9]+$ //모든 양수
^-?[0 -9]+ $ //모든 정수
^-?[0-9]*.?[0-9]*$ //모든 소수
물론 이것은 다음에서 확인할 수 없습니다. 기술적으로 복잡성을 줄입니다. 정규식을 사용하지만 읽기가 더 쉽습니다.