Golang 정규 표현식 경계 및 비ASCII 문자
Go의 정규 표현식 경계(b)는 ASCII 문자와 비ASCII 문자 사이의 경계와 일치하도록 설계되었습니다. 비ASCII 문자. 그러나 특정 시나리오에서는 라틴 문자가 포함되면 예상대로 작동하지 않을 수 있습니다.
문제
Go에서 b 경계는 ASCII를 둘러쌀 때만 작동합니다. 문자. 예를 들어 정규식 b(vis)b는 "vis"라는 단어와 일치하도록 만들어졌습니다. 그러나 "vis"라는 단어에 "révisé"와 같은 라틴 문자가 포함된 경우 b는 이를 단어 경계로 인식하지 못합니다.
다음 Go 코드를 고려하세요.
<code class="go">package main import ( "fmt" "regexp" ) func main() { r, _ := regexp.Compile(`\b(vis)\b`) fmt.Println(r.MatchString("re vis e")) // Expected true fmt.Println(r.MatchString("revise")) // Expected true fmt.Println(r.MatchString("révisé")) // Expected false }</code>
실행 중 이 코드는 다음을 생성합니다.
true true true
마지막 줄이 "révisé"와 잘못 일치합니다.
해결책
ASCII 문자를 사용하여 사용자 정의 경계 패턴을 정의할 수 있습니다. 한 가지 접근 방식은 b를 다음 정규식으로 바꾸는 것입니다.
(?:\A|\s)(vis)(?:\s|\z)
이 패턴의 의미는 다음과 같습니다.
이 사용자 정의 경계는 b가 ASCII 문자에 대해 수행하는 작업을 효과적으로 달성하지만 라틴 문자와 같은 비ASCII 문자에도 확장됩니다.
이 사용자 정의 패턴을 정규식에 통합하면 원하는 결과를 얻을 수 있습니다.
<code class="go">package main import ( "fmt" "regexp" ) func main() { r, _ := regexp.Compile(`(?:\A|\s)(vis)(?:\s|\z)`) fmt.Println(r.MatchString("vis")) // Added this case fmt.Println(r.MatchString("re vis e")) fmt.Println(r.MatchString("revise")) fmt.Println(r.MatchString("révisé")) }</code>
이제 이 코드를 실행하면 다음이 제공됩니다.
true true false false
보시다시피 "révisé"는 일치 항목에서 올바르게 제외됩니다.
위 내용은 Go의 정규식 경계에서 ASCII가 아닌 문자를 처리하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!