首页  >  文章  >  后端开发  >  为什么 Go 的正则表达式 \\b 边界对于非 ASCII 字符会失败?

为什么 Go 的正则表达式 \\b 边界对于非 ASCII 字符会失败?

DDD
DDD原创
2024-10-29 00:26:02741浏览

Why Does Go's Regex \b Boundary Fail with Non-ASCII Characters?

Golang 正则表达式与非 ASCII 字符的边界问题

在 Go 中,b 边界选项预计在 ASCII 字符的边界匹配,不包括重音字符,例如 é。处理包含非 ASCII 字符的字符串时,此行为可能会导致意外结果。例如,请考虑以下代码:

<code class="go">package main

import (
    "fmt"
    "regexp"
)

func main() {
    r, _ := regexp.Compile(`\b(vis)\b`)
    fmt.Println(r.MatchString("re vis e")) // True
    fmt.Println(r.MatchString("revise")) // False
    fmt.Println(r.MatchString("révisé")) // True
}</code>

在此示例中,b(vis)b 正则表达式与单词边界处的子字符串“vis”匹配。但是,当应用于“révisé”时,它会错误地返回 True,因为 é 不被视为单词字符。为了解决这个问题,您可以采用另一种方法:

<code class="go">r, _ := regexp.Compile(`(?:\A|\s)(vis)(?:\s|\z)`)
fmt.Println(r.MatchString("vis")) // True
fmt.Println(r.MatchString("re vis e")) // True
fmt.Println(r.MatchString("revise")) // False
fmt.Println(r.MatchString("révisé")) // False</code>

此解决方案利用非捕获组 (?:A|s)(vis)(?:s|z) 来匹配任何以下字符:

  • 字符串开头 (A)
  • 空格

这模仿 b 的行为,但包含非 ASCII 字符作为潜在的单词边界。通过组合这些组件,它可以成功匹配单词开头或结尾的“vis”,而不管周围的字符如何。

以上是为什么 Go 的正则表达式 \\b 边界对于非 ASCII 字符会失败?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn