>백엔드 개발 >Golang >Go의 정규식 \\b 경계가 ASCII가 아닌 문자에서 실패하는 이유는 무엇입니까?

Go의 정규식 \\b 경계가 ASCII가 아닌 문자에서 실패하는 이유는 무엇입니까?

DDD
DDD원래의
2024-10-29 00:26:02874검색

Why Does Go's Regex \b Boundary Fail with Non-ASCII Characters?

비ASCII 문자의 Golang 정규식 경계 문제

Go에서 b 경계 옵션은 ASCII 문자 경계에서 일치할 것으로 예상됩니다. , é와 같은 악센트 문자는 제외됩니다. 이 동작은 ASCII가 아닌 문자가 포함된 문자열로 작업할 때 예기치 않은 결과를 초래할 수 있습니다. 예를 들어 다음 코드를 고려해보세요.

<code class="go">package main

import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`\b(vis)\b`)
    fmt.Println(r.MatchString("re vis e")) // True
    fmt.Println(r.MatchString("revise")) // False
    fmt.Println(r.MatchString("révisé")) // True
}</code>

이 예에서 b(vis)b 정규식은 단어 경계에서 하위 문자열 "vis"와 일치합니다. 그러나 "révisé"에 적용하면 é가 단어 문자로 간주되지 않기 때문에 True를 잘못 반환합니다. 이 문제를 해결하기 위해 대체 접근 방식을 사용할 수 있습니다.

<code class="go">r, _ := regexp.Compile(`(?:\A|\s)(vis)(?:\s|\z)`)
fmt.Println(r.MatchString("vis")) // True
fmt.Println(r.MatchString("re vis e")) // True
fmt.Println(r.MatchString("revise")) // False
fmt.Println(r.MatchString("révisé")) // False</code>

이 솔루션은 비캡처 그룹(?:A|s)(vis)(?:s|z)를 활용하여 다음 중 하나와 일치합니다. 다음 문자:

  • 문자열 시작(A)
  • 공백

이는 b의 동작을 모방하지만 ASCII가 아닌 문자를 포함합니다. 잠재적인 단어 경계로. 이러한 구성 요소를 결합함으로써 주변 문자에 관계없이 단어의 시작이나 끝 부분에 있는 "vis"를 성공적으로 일치시킵니다.

위 내용은 Go의 정규식 \\b 경계가 ASCII가 아닌 문자에서 실패하는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.