ホームページ >バックエンド開発 >Golang >Go Regex \\b Boundary がラテン文字で失敗するのはなぜですか?

Go Regex \\b Boundary がラテン文字で失敗するのはなぜですか?

Barbara Streisand
Barbara Streisandオリジナル
2024-11-03 04:20:31861ブラウズ

 Why Does Go Regex \b Boundary Fail with Latin Characters?

Go 正規表現におけるラテン文字を使用した b 境界

Go 正規表現の世界では、b 境界オプションは処理時に少し癖があります。ラテン文字付き。この問題は、アクセント付き母音や特殊文字などのラテン文字を含む単語を定義しようとするときに発生します。

次の例を考えてみましょう。ここでは、b 境界オプションを使用して単語 "vis" を照合します。

<code class="go">import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`\b(vis)\b`)
    fmt.Println(r.MatchString("re vis e"))
    fmt.Println(r.MatchString("revise"))
    fmt.Println(r.MatchString("révisé"))
}</code>

驚くべきことに、「révisé」を false として一致させるという予期した結果は発生しません。代わりに、true として一致します。これは、b が ASCII 単語境界でのみ機能するためです。

この問題を解決し、ラテン文字と正確に一致させるために、b 境界をより包括的な代替物に置き換えることができます。以下に例を示します:

<code class="go">import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`(?:\A|\s)(vis)(?:\s|\z)`)
    fmt.Println(r.MatchString("vis"))
    fmt.Println(r.MatchString("re vis e"))
    fmt.Println(r.MatchString("revise"))
    fmt.Println(r.MatchString("révisé"))
}</code>

この変更により、正規表現は文字列の先頭 (A)、文字列の末尾 (z)、および空白 (s) の組み合わせを使用して単語の先頭と末尾を認識するようになりました。 。結果は、"vis" が true であり、"révisé" が false と正確に一致します。

true
true
false
false

この手法により、ラテン文字の存在に関係なく、単語の正確な一致が保証されます。

以上がGo Regex \\b Boundary がラテン文字で失敗するのはなぜですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。