>백엔드 개발 >파이썬 튜토리얼 >정규식은 어떻게 문자열의 전체 단어를 효율적으로 일치시킬 수 있습니까?

정규식은 어떻게 문자열의 전체 단어를 효율적으로 일치시킬 수 있습니까?

Barbara Streisand
Barbara Streisand원래의
2024-11-19 03:53:02698검색

How Can Regular Expressions Efficiently Match Whole Words in Strings?

정규 표현식을 사용하여 문자열에서 전체 단어를 동적으로 일치

문장 내에 단어가 존재하는지 확인하려면 정규 표현식을 사용할 수 있습니다. 단어는 일반적으로 공백으로 구분되지만 양쪽에 구두점이 있을 수 있으므로 부분적인 단어 일치를 방지하는 것이 중요합니다.

한 가지 접근 방식은 중간, 시작, 끝에 나타나는 단어에 대해 별도의 정규식 패턴을 정의하는 것입니다.

match_middle_words = " [^a-zA-Z\d ]{0,}" + word + "[^a-zA-Z\d ]{0,} "
match_starting_word = "^[^a-zA-Z\d]{0,}" + word + "[^a-zA-Z\d ]{0,} "
match_end_word = " [^a-zA-Z\d ]{0,}" + word + "[^a-zA-Z\d]{0,}$"

그러나 이를 위해서는 여러 정규식 패턴을 정의하고 결합해야 합니다. 보다 단순화된 접근 방식은 단어 경계를 활용하는 것입니다(b):

match_string = r'\b' + word + r'\b'

이 패턴을 사용하면 단어가 단어가 아닌 문자로 둘러싸인 경우에만 단어가 캡처됩니다. 단어 목록(예: 'words' 변수)의 경우 다음을 사용하세요.

match_string = r'\b(?:{})\b'.format('|'.join(words))

이 방법을 사용하면 여러 패턴을 요구하지 않고 전체 단어를 효과적으로 캡처할 수 있습니다.

참고 단어 경계

특수 문자가 포함된 단어나 단어 경계가 공백과 다른 더 복잡한 시나리오의 경우 대체 경계 정의를 사용할 수 있습니다. 명확한 단어 경계는 특수 문자로 시작/끝나는 단어를 제외합니다:

match_string = r'(?<!\w){}(?!\w)'.format(re.escape(word))

공백 경계는 공백과 문자열 시작/끝을 단어 경계로 간주합니다.

match_string = r'(?<!\S){}(?!\S)'.format(word)

이러한 기술을 활용하여 문자열의 전체 단어를 단순화하여 정확하고 일관된 결과를 보장할 수 있습니다.

위 내용은 정규식은 어떻게 문자열의 전체 단어를 효율적으로 일치시킬 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.