>백엔드 개발 >Golang >Go의 정규식 경계에서 ASCII가 아닌 문자를 처리하는 방법은 무엇입니까?

Go의 정규식 경계에서 ASCII가 아닌 문자를 처리하는 방법은 무엇입니까?

Susan Sarandon
Susan Sarandon원래의
2024-10-30 02:24:021009검색

 How to Handle Non-ASCII Characters in Go's Regular Expression Boundaries?

Golang 정규 표현식 경계 및 비ASCII 문자

Go의 정규 표현식 경계(b)는 ASCII 문자와 비ASCII 문자 사이의 경계와 일치하도록 설계되었습니다. 비ASCII 문자. 그러나 특정 시나리오에서는 라틴 문자가 포함되면 예상대로 작동하지 않을 수 있습니다.

문제

Go에서 b 경계는 ASCII를 둘러쌀 때만 작동합니다. 문자. 예를 들어 정규식 b(vis)b는 "vis"라는 단어와 일치하도록 만들어졌습니다. 그러나 "vis"라는 단어에 "révisé"와 같은 라틴 문자가 포함된 경우 b는 이를 단어 경계로 인식하지 못합니다.

다음 Go 코드를 고려하세요.

<code class="go">package main

import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`\b(vis)\b`)
    fmt.Println(r.MatchString("re vis e")) // Expected true
    fmt.Println(r.MatchString("revise"))  // Expected true
    fmt.Println(r.MatchString("révisé")) // Expected false
}</code>

실행 중 이 코드는 다음을 생성합니다.

true
true
true

마지막 줄이 "révisé"와 잘못 일치합니다.

해결책

ASCII 문자를 사용하여 사용자 정의 경계 패턴을 정의할 수 있습니다. 한 가지 접근 방식은 b를 다음 정규식으로 바꾸는 것입니다.

(?:\A|\s)(vis)(?:\s|\z)

이 패턴의 의미는 다음과 같습니다.

  • (?:A|s): 문자열의 시작 또는 공백과 일치합니다. 문자.
  • (vis): "vis"라는 단어를 캡처합니다.
  • (?:s|z): 공백 문자 또는 문자열의 끝과 일치합니다.

이 사용자 정의 경계는 b가 ASCII 문자에 대해 수행하는 작업을 효과적으로 달성하지만 라틴 문자와 같은 비ASCII 문자에도 확장됩니다.

이 사용자 정의 패턴을 정규식에 통합하면 원하는 결과를 얻을 수 있습니다.

<code class="go">package main

import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`(?:\A|\s)(vis)(?:\s|\z)`)
    fmt.Println(r.MatchString("vis")) // Added this case
    fmt.Println(r.MatchString("re vis e"))
    fmt.Println(r.MatchString("revise"))
    fmt.Println(r.MatchString("révisé"))
}</code>

이제 이 코드를 실행하면 다음이 제공됩니다.

true
true
false
false

보시다시피 "révisé"는 일치 항목에서 올바르게 제외됩니다.

위 내용은 Go의 정규식 경계에서 ASCII가 아닌 문자를 처리하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.