Rumah >pembangunan bahagian belakang >Golang >Mengapa Go Regex \\b Boundary Gagal dengan Aksara Latin?
b Sempadan dengan Aksara Latin dalam Go Regex
Dalam dunia ungkapan biasa Go, pilihan sempadan b mempunyai sedikit kelainan apabila berurusan dengan aksara Latin. Isu timbul apabila cuba mentakrifkan perkataan yang mengandungi aksara Latin, seperti vokal beraksen dan aksara khas.
Pertimbangkan contoh berikut, di mana kita ingin memadankan perkataan "vis" menggunakan pilihan sempadan b:
<code class="go">import ( "fmt" "regexp" ) func main() { r, _ := regexp.Compile(`\b(vis)\b`) fmt.Println(r.MatchString("re vis e")) fmt.Println(r.MatchString("revise")) fmt.Println(r.MatchString("révisé")) }</code>
Anehnya, hasil yang diharapkan untuk memadankan "revise" sebagai palsu tidak berlaku. Sebaliknya, ia sepadan dengan kebenaran. Ini kerana b beroperasi hanya pada sempadan perkataan ASCII.
Untuk menyelesaikan isu ini dan memadankan aksara Latin dengan tepat, kami boleh menggantikan sempadan b dengan alternatif yang lebih inklusif. Berikut ialah contoh:
<code class="go">import ( "fmt" "regexp" ) func main() { r, _ := regexp.Compile(`(?:\A|\s)(vis)(?:\s|\z)`) fmt.Println(r.MatchString("vis")) fmt.Println(r.MatchString("re vis e")) fmt.Println(r.MatchString("revise")) fmt.Println(r.MatchString("révisé")) }</code>
Dengan pengubahsuaian ini, regex kini mengecam permulaan dan akhir perkataan menggunakan gabungan permulaan rentetan (A), akhir rentetan (z) dan ruang kosong (s) . Hasilnya sepadan dengan tepat "vis" sebagai benar dan "revisé" sebagai palsu:
true true false false
Teknik ini memastikan padanan perkataan yang tepat, tanpa mengira kehadiran aksara Latin.
Atas ialah kandungan terperinci Mengapa Go Regex \\b Boundary Gagal dengan Aksara Latin?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!