Rumah  >  Artikel  >  hujung hadapan web  >  Bagaimana untuk Memadankan Aksara Unikod dengan Sempadan Word dalam Regex JavaScript?

Bagaimana untuk Memadankan Aksara Unikod dengan Sempadan Word dalam Regex JavaScript?

Susan Sarandon
Susan Sarandonasal
2024-10-26 15:01:30535semak imbas

How to Match Unicode Characters with Word Boundaries in JavaScript Regex?

Javascript RegExp, Word Boundaries dan Unicode Characters

Apabila membangunkan fungsi carian yang menyokong autolengkap, adalah penting untuk mempertimbangkan bahasa yang menggunakan khas aksara seperti bahasa Finland dengan ä, ö dan å. Memadankan aksara ini menggunakan ungkapan Regex JavaScript yang mudah boleh terbukti mencabar.

Dalam contoh yang diberikan, RegExp dengan sempadan perkataan (b) gagal mengenal pasti padanan dengan betul untuk istilah seperti "ää" dan "äl." Untuk menangani isu ini, adalah disyorkan untuk menggunakan (?:^|s) sebagai alternatif.

Pecahan:

  • (?: dan ) membentuk kumpulan bukan menangkap, mengumpulkan istilah tanpa membuat kumpulan penangkapan yang berasingan.
  • ^ sepadan dengan permulaan rentetan.
  • s sepadan dengan aksara ruang putih.
  • | menandakan pengendali "atau".

Menggunakan kumpulan bukan menangkap ini dan bukannya b membolehkan kriteria padanan yang lebih luas yang mempertimbangkan kedua-dua permulaan rentetan dan aksara ruang kosong. Akibatnya, aksara unikod seperti ä, ö dan å kini boleh dikenal pasti dengan betul dalam istilah carian.

Atas ialah kandungan terperinci Bagaimana untuk Memadankan Aksara Unikod dengan Sempadan Word dalam Regex JavaScript?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn