>  기사  >  백엔드 개발  >  php — PCRE 정규식 반복/수량자

php — PCRE 정규식 반복/수량자

伊谢尔伦
伊谢尔伦원래의
2016-11-21 17:18:221229검색

반복 횟수는 다음 요소 뒤에 올 수 있는 수량자를 통해 지정됩니다.

단독(이스케이프된

메타 문자일 수 있음)

문자 클래스

역참조(다음 섹션 참조)

하위 그룹(어설션이 아닌 경우)

일반 반복 수량자는 다음을 지정합니다. 최소값과 최대값은 두 숫자를 중괄호로 묶고 두 숫자를 쉼표로 구분하여 정의됩니다. 두 숫자 모두 65536보다 작아야 하며 첫 번째 숫자는 두 번째 숫자보다 작거나 같아야 합니다. 예를 들어 z{2,4}는 "zz", "zzz", "zzzz"와 일치합니다. 단일 닫는 중괄호는 특수 문자가 아닙니다. 두 번째 숫자가 생략되었지만 쉼표가 여전히 존재하는 경우 상한이 없음을 의미합니다. 두 번째 숫자와 쉼표가 모두 생략되면 수량자는 특정 일치 수를 제한합니다. 예를 들어, [aeiou]{3,}는 3개 이상의 연속 모음과 일치하지만 그 이상도 일치할 수 있지만 d{8}은 8개의 숫자만 일치할 수 있습니다. 왼쪽 중괄호가 수량자 사용을 허용하지 않는 위치에 나타나거나 수량자 구문과 일치하지 않는 경우에는 일반 문자로 간주하여 그 자체가 원본 텍스트에서 일치됩니다. 예를 들어, {,6}은 수량자가 아니며 원본 텍스트에 따라 "{,6}" 4개 문자와 일치합니다.

수량자 {0}이 승인되어 이전 용어와 수량자가 존재하지 않는 것처럼 동작이 간주됩니다.

편의성(및 역사적 호환성)을 위해 가장 일반적으로 사용되는 세 가지 수량자에는 단일 문자 약어가 있습니다.

단일 문자 수량자

* {0,}에 해당

+ {1,}에 해당

에 해당? 🎜>

어떤 문자와도 일치하지 않는 하위 패턴과 0개 이상의 문자와 일치하는 수량자가 뒤따르는 방식으로 무제한 무한 루프를 구성할 수 있습니다. 예를 들면: (a?)*

이전 버전의 Perl 및 pcre에서는 이 모드의 컴파일 타임에 오류가 발생합니다. 그러나 이것은 어떤 경우에는 유용할 수 있기 때문에 이제 이 패턴이 허용되지만 하위 패턴의 반복이 어떤 문자와도 일치하지 않으면 루프가 강제로 종료됩니다.

기본적으로 수량자는 "탐욕적"입니다. 즉, 패턴 일치가 실패하지 않으면서 최대한 많은 문자(최대 허용되는 일치 수까지)와 일치합니다. 이 문제의 전형적인 예는 C에서 주석을 일치시키려는 것입니다. /*와 */ 사이에 나타나는 모든 내용은 주석으로 간주되며 주석 중간에 * 및 / 개별이 허용됩니다. C 주석을 일치시키려는 한 가지 시도는 /*.**/ 패턴을 사용하는 것입니다. 이 패턴을 "/* 첫 번째 주석*/ 주석이 아님 /*두 번째 주석*/" 문자열에 적용하면 잘못된 결과도 일치합니다. 이는 전체 문자열입니다. 이는 가능한 한 많은 문자를 일치시키려고 시도하는 수량자의 탐욕스러운 특성 때문입니다.

그러나 수량자 바로 뒤에 ?(물음표) 토큰이 오면 게으른(탐욕스럽지 않은) 모드가 되어 더 이상 최대한 일치하지 않지만 최소한으로 일치합니다. 따라서 /*.*?*/ 패턴은 C 주석 일치에서 올바르게 작동합니다. 각 수량자 자체의 의미는 변하지 않지만, ?의 추가로 인해 선호하는 일치 항목의 수가 변경됩니다. ?의 사용을 수량자로서의 사용과 혼동하지 마십시오. 두 가지 용도로 사용되기 때문에 수량자가 있는 경우도 있습니다. 예를 들어 d??d는 숫자와 일치하는 경향이 있지만 동시에 전체 패턴 일치의 목적을 달성하려는 경우에는 다음과 같이 할 수도 있습니다. 두 숫자의 일치를 수락합니다. 주석: 문자열 "a33a"에 대해 wd??dw 패턴을 예로 들면, d??는 욕심이 없지만,greedy를 사용하면 전체 패턴이 일치하지 않게 되므로 결국에는 여전히 다음과 같은 숫자를 선택합니다. 일치합니다.

PCRE_UNGREEDY 옵션이 설정된 경우(Perl에서는 사용할 수 없는 옵션) 수량자는 기본적으로 non-greedy입니다. 그러나 단일 수량자 뒤에 ?가 오면 탐욕적 수량자를 만들 수 있습니다. 즉, PCRE_UNGREEDY 옵션은 탐욕스러운 기본 동작을 반전시킵니다.

"+" 뒤에 오는 수량사는 "소유"를 의미합니다. 가능한 한 많은 문자를 먹고 다른 후속 패턴에는 주의를 기울이지 않습니다. 예를 들어 .*abc는 "aabc"와 일치하지만 .*+abc는 일치하지 않습니다. 왜냐하면 .*+는 전체 문자열을 먹어서 결과가 발생하기 때문입니다. 다음 나머지 패턴은 일치하지 않습니다. PHP 4.3.3부터 소유자(+)를 사용하여 수량자를 수정하여 속도를 향상시킬 수 있습니다.

하위 그룹이 1보다 큰 최소 수 또는 최대 수 제한을 갖는 수량자로 수정되는 경우 최소 또는 최대 수에 비례하여 컴파일 모드에 더 많은 저장 공간이 필요합니다.

패턴이 .* 또는 .{0,}으로 시작하고 PCRE_DOTALL 옵션이 켜져 있으면(perl의 /s와 동일) . 가 줄바꿈과 일치하도록 허용하므로 패턴은 암시적으로 고정됩니다. 이렇게 하면 대상 문자열의 모든 문자 위치가 다음에 시도되므로 처음 이후에는 모든 일치 항목이 다시 시도되는 지점이 없습니다. PCRE는 이 패턴을 A와 동일하게 처리합니다. 패턴이 .*로 시작할 때 이 최적화를 얻으려면 대상 문자열에 개행 문자가 포함되어 있지 않다는 것을 알 때 PCRE_DOTALL을 설정하거나 ^를 사용하여 명시적으로 앵커를 지정하는 것이 좋습니다.

주석: 여기서 최적화는 패턴이 일치하지 않으면 다음 위치를 찾기 위해 다시 찾지 않는다는 것을 의미합니다. 예를 들어 PCRE_DOTALL이 설정되지 않았고 대상 문자열의 첫 번째 문자가 개행 문자가 있는 경우 패턴은 첫 번째 문자를 시도하고, 불일치가 발견되면 두 번째 문자 위치부터 패턴을 다시 시도합니다. PCRE_DOTALL을 사용하고 나면 반드시 일치하게 됩니다... 마찬가지로 ^ 또는 /A를 사용할 때 제한 사항은 일단 패턴이 일치하지 않으면 대상 문자열의 다음 위치에서 전체 패턴을 다시 시작하지 않고 바로 종료할 수 있다는 것입니다. 성냥.

캡처된 하위 그룹이 반복되면 캡처된 하위 그룹의 결과는 마지막 반복에서 캡처된 값입니다. 예를 들어, (tweedle[dume]{3}s*)+는 문자열 "tweedledum tweedledee"와 일치하며, 획득된 하위 그룹 캡처 결과는 "tweedledee"입니다. 그러나 중첩된 캡처 하위 그룹의 경우 해당 캡처 값이 이전 반복에서 설정될 수 있습니다. 예를 들어 /(a|(b))+/는 문자열 "aba"와 일치하며 두 번째로 캡처된 하위 그룹의 결과는 "b"가 됩니다. 번역자 주: "그러나" 뒤의 부분이 이해되지 않는 경우, b가 두 번째 하위 그룹의 마지막 캡처 결과이므로 두 번째 하위 그룹의 최종 결과는 b이며 이는 와 일치하는 예를 사용하여 설명하겠습니다. "그러나" 앞에 설명된 규칙입니다.


성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.