Maison > Article > développement back-end > Comment gérer les caractères non-ASCII avec les limites Go Regex : une solution pour \"é\" et au-delà ?
Go regexp Boundary with Non-ASCII Characters : Une modification Regex
Le traitement des caractères non-ASCII peut poser des défis lorsque vous travaillez avec les caractères réguliers de Golang expressions (regex). En particulier, l'option de limite « b », conçue pour correspondre aux limites des caractères, peut ne pas se comporter comme prévu lorsque vous rencontrez des caractères latins comme « é ». Ce problème se pose car "b" fonctionne exclusivement avec des caractères ASCII.
Pour résoudre ce problème, nous pouvons créer une limite personnalisée qui englobe une gamme plus large de caractères au-delà de l'ASCII. Voici une solution :
<code class="go">package main import ( "fmt" "regexp" ) func main() { r, _ := regexp.Compile(`(?:\A|\s)(vis)(?:\s|\z)`) fmt.Println(r.MatchString("vis")) // Handle case without boundary fmt.Println(r.MatchString("re vis e")) fmt.Println(r.MatchString("revise")) fmt.Println(r.MatchString("révisé")) }</code>
Explication :
Cette expression régulière modifiée utilise les remplacements suivants :
Cela permet à la limite de correspondre au début de la chaîne, à la fin de la chaîne ou aux caractères d'espacement. Les caractères latins comme "é" sont désormais considérés comme des caractères ordinaires et ne déclencheront pas de fausses correspondances de limites.
En modifiant l'option de limite, nous pouvons gérer efficacement les caractères latins et autres caractères non-ASCII dans les expressions régulières de Go, garantissant ainsi une précision comportement correspondant.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!