이전 글에서는 Python 정규식에 대한 일반적인 소개를 했습니다. 실제로 정규식 은 문자열이 일치하는지 여부를 편리하게 확인하는 데 도움이 되는 특수 문자 시퀀스입니다. 무늬. Python은 버전 1.5부터 Perl 스타일 정규식 패턴을 제공하는 re 모듈을 추가했습니다. re 모듈은 Python 언어에 완전한 정규식 기능을 제공합니다. 컴파일 함수는 패턴 문자열과 선택적 플래그 인수를 기반으로 정규식 개체를 생성합니다. 이 객체에는 정규식 일치 및 교체를 위한 일련의 메서드가 있습니다. re 모듈도 이러한 메소드와 완전히 동일한 함수를 제공합니다. 이 함수는 첫 번째 매개변수로 패턴 문자열을 사용합니다. 이 장에서는 주로 Python 함수에서 사용되는 정규 표현식 처리를 소개합니다.
String은 프로그래밍에서 가장 많이 관련된 데이터 구조이며, String에서 작업해야 하는 필요성은 거의 모든 곳에서 발생합니다. 예를 들어 문자열 이 합법적인 이메일 주소인지 확인하려면 programming @ 앞과 뒤의 하위 문자열을 추출한 다음 단어인지 확인하세요. 도메인 이름을 입력해야 하는데 이렇게 하면 번거로울 뿐만 아니라 코드를 재사용하기 어렵습니다.
정규식은 문자열을 일치시키는 데 사용되는 강력한 무기입니다. 그 디자인 아이디어는 설명적 언어를 사용하여 문자열에 대한 규칙을 정의하는 것입니다. 규칙을 준수하는 모든 문자열은 "일치"되는 것으로 간주됩니다.
따라서 문자열이 유효한 이메일인지 판단하는 방법은 다음과 같습니다.
1 이메일과 일치하는 정규 표현식을 만듭니다. 정규식을 사용하여 사용자의 입력과 일치하는지 확인하여 적법한지 확인합니다.
정규 표현식도 문자열로 표현되기 때문에 먼저 문자를 사용하여 문자를 설명하는 방법을 이해해야 합니다.
정규식에서는 문자를 직접 지정하면 정확히 일치합니다. 숫자를 일치시키려면 d를 사용하고 문자 또는 숫자를 일치시키려면 w를 사용하십시오. 따라서:
1. '00d'는 '007'과 일치할 수 있지만
#🎜과 일치할 수는 없습니다. 🎜 #2. '010'과 일치할 수 있습니다. 3. 'wwd'는 'py3'과 일치할 수 있습니다. 따라서 #🎜 🎜 #5.'py.'는 'pyc', 'pyo', 'py!' 등과 일치할 수 있습니다.
가변 길이 문자를 일치시키려면
정규식수식에서 *를 사용하여 임의 개수의 문자(0 포함)를 나타내고 +를 사용하여 하나 이상의 문자를 나타냅니다. 및 ?는 0 또는 1자를 나타내며, {n}을 사용하여 n자를 나타내고, {n,m}을 사용하여 n-m 문자를 나타냅니다.
복잡한 예를 살펴보겠습니다. d{3}s+ d {3,8}.
왼쪽에서 오른쪽으로 해석해 보겠습니다. 1.d{3}는 '010'과 같이 3개의 숫자가 일치함을 의미합니다.
2 .s는 공백(탭 및 기타 공백 문자 포함)과 일치할 수 있으므로 s+는 ' ', ' ' 등과 일치하는 공백이 하나 이상 있음을 의미합니다.
3.d{3 ,8}은 '1234567'과 같이 3~8개의 숫자를 의미합니다.
위의 정규 표현식을 종합하면 전화번호를 공백으로 구분된 지역 코드와 일치시킬 수 있습니다.
'010-12345'와 같은 숫자를 일치시키고 싶다면 어떻게 해야 할까요? '-'는 특수 문자이므로 정규식에서는 '''로 이스케이프해야 합니다. 따라서 위 정규식은 d{3}-d{3,8}입니다.
그러나 '010 - 12345'는 여전히 공백으로 인해 일치하지 않습니다. 그래서 우리는 좀 더 복잡한 매칭 방법이 필요합니다.
Advanced
더 정확하게 일치시키려면 []를 사용하여 다음과 같이 범위를 나타낼 수 있습니다. : 1.[0-9a-zA-Z_]는 숫자, 문자 또는 밑줄과 일치할 수 있습니다. 2.[0-9a-zA-Z_]+ 가능 일치 'a100', '0_Z', 'Py3000' 등과 같이 하나 이상의 숫자, 문자 또는 밑줄로 구성된 문자열
3.[a-zA-Z_][0 -9a- zA-Z_]* 문자 또는 밑줄로 시작하고 그 뒤에 숫자, 문자 또는 밑줄로 구성된 문자열이 오는 문자열과 일치할 수 있습니다. 이는 Python에서 유효한 변수입니다. #4.[a-zA -Z_][0-9a-zA-Z_]{0, 19}는 보다 정확하게 변수 길이를 1~20자(앞 1자 + 뒤 최대 19자)로 제한합니다. ).
A|B는 A 또는 B와 일치할 수 있으므로 (P|p)ython은 'Python' 또는 'python'과 일치할 수 있습니다.
^은 줄의 시작을 의미하고, ^d는 숫자로 시작해야 함을 의미합니다.
$는 줄의 끝을 나타내고 d$는 숫자로 끝나야 함을 나타냅니다.
py는 'python'과도 일치할 수 있지만 ^py$를 추가하면 전체 줄과 일치하며 'py'만 일치할 수 있다는 것을 눈치채셨을 것입니다.
리모듈
有了准备知识,我们就可以在Python中使用正则表达式了。Python提供re模块,包含所有正则表达式的功能。由于Python的字符串本身也用\转义,所以要特别注意:
s = 'ABC\\-001' # Python的字符串 # 对应的正则表达式字符串变成: # 'ABC\-001'
因此我们强烈建议使用Python的r前缀,就不用考虑转义的问题了:
s = r'ABC\-001' # Python的字符串 # 对应的正则表达式字符串不变: # 'ABC\-001'
先看看如何判断正则表达式是否匹配:
>>> import re >>> re.match(r'^\d{3}\-\d{3,8}$', '010-12345') <_sre.SRE_Match object; span=(0, 9), match='010-12345' >>>> re.match(r'^\d{3}\-\d{3,8}$', '010 12345') >>>
match()方法判断是否匹配,如果匹配成功,返回一个Match对象,否则返回None。常见的判断方法就是:
test = '用户输入的字符串' if re.match(r'正则表达式', test): print('ok') else: print('failed')
위 내용은 예제와 함께 Python 정규식 구문에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!