비ASCII 문자의 Golang 정규식 경계 문제
Go에서 b 경계 옵션은 ASCII 문자 경계에서 일치할 것으로 예상됩니다. , é와 같은 악센트 문자는 제외됩니다. 이 동작은 ASCII가 아닌 문자가 포함된 문자열로 작업할 때 예기치 않은 결과를 초래할 수 있습니다. 예를 들어 다음 코드를 고려해보세요.
<code class="go">package main import ( "fmt" "regexp" ) func main() { r, _ := regexp.Compile(`\b(vis)\b`) fmt.Println(r.MatchString("re vis e")) // True fmt.Println(r.MatchString("revise")) // False fmt.Println(r.MatchString("révisé")) // True }</code>
이 예에서 b(vis)b 정규식은 단어 경계에서 하위 문자열 "vis"와 일치합니다. 그러나 "révisé"에 적용하면 é가 단어 문자로 간주되지 않기 때문에 True를 잘못 반환합니다. 이 문제를 해결하기 위해 대체 접근 방식을 사용할 수 있습니다.
<code class="go">r, _ := regexp.Compile(`(?:\A|\s)(vis)(?:\s|\z)`) fmt.Println(r.MatchString("vis")) // True fmt.Println(r.MatchString("re vis e")) // True fmt.Println(r.MatchString("revise")) // False fmt.Println(r.MatchString("révisé")) // False</code>
이 솔루션은 비캡처 그룹(?:A|s)(vis)(?:s|z)를 활용하여 다음 중 하나와 일치합니다. 다음 문자:
이는 b의 동작을 모방하지만 ASCII가 아닌 문자를 포함합니다. 잠재적인 단어 경계로. 이러한 구성 요소를 결합함으로써 주변 문자에 관계없이 단어의 시작이나 끝 부분에 있는 "vis"를 성공적으로 일치시킵니다.
위 내용은 Go의 정규식 \\b 경계가 ASCII가 아닌 문자에서 실패하는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!