Rumah >Java >javaTutorial >Bagaimana Mengendalikan Aksara Unikod dalam Ungkapan Biasa Java Menggunakan \w dan \b Setara?

Bagaimana Mengendalikan Aksara Unikod dalam Ungkapan Biasa Java Menggunakan \w dan \b Setara?

Mary-Kate Olsen
Mary-Kate Olsenasal
2024-12-11 08:42:10212semak imbas

How to Handle Unicode Characters in Java Regular Expressions Using w and b Equivalents?

Persamaan Unikod untuk w dan b dalam Ungkapan Biasa Java?

Pelaksanaan Java bagi pintasan kelas aksara gaya Perl (w, b, s , dsb.) terhad kepada aksara ASCII. Untuk memadankan aksara Unicode dengan betul, anda memerlukan cara yang lebih baik untuk menulis semula pintasan ini.

Penyelesaian:

Gunakan fungsi tersuai untuk menulis semula charclass escape berikut:

\w \W \s \S \v \V \h \H \d \D \b \B \X \R

Ditulis semula Definisi:

\s => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]
\S => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]

\v => [\u000A-\u000D\u0085\u2028\u2029]
\V => [^\u000A-\u000D\u0085\u2028\u2029]

\h => [\u0009\u0020\u00A0\u1680\u180E\u2000-\u200A\u202F\u205F\u3000]
\H => [^\u0009\u0020\u00A0\u1680\u180E\u2000\u2001-\u200A\u202F\u205F\u3000]

\w => [\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]
\W => [^\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]

\b => (?:(?<=[a-z0-9])(?![a-z0-9])|(?<![a-z0-9])(?=[a-z0-9]))
\B => (?:(?<=[a-z0-9])(?=[a-z0-9])|(?<![a-z0-9])(?![a-z0-9]))

\d => \p{Nd}
\D => \P{Nd}

\R => (?:(?>\u000D\u000A)|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029])

\X => (?>\PM\pM*)

Pertimbangan Sempadan:

B dan B Java tidak terikat kepada w semata-mata. A ditulis semula b menggunakan binaan A(?:AB|BC) boleh mencari sempadan di mana:

  • JIKA mengikuti perkataan ==> MAKA tidak mendahului perkataan
  • ELSIF tidak mengikut perkataan ==> MAKA mendahului perkataan

A ditulis semula B menggunakan binaan A(?:BC|AB) boleh mencari bukan sempadan di mana:

  • JIKA mengikuti perkataan ==> MAKA mendahului perkataan
  • ELSIF tidak mengikut perkataan ==> THEN tidak mendahului perkataan

Fungsi Penulisan Semula Lengkap:

Ambil kod sumber untuk mendapatkan fungsi penulisan semula penuh yang dinyatakan di atas.

Tambahan Ciri:

  • Input aksara Unikod dalam titik kod logik
  • Takrifan kemudahan untuk perkataan bahasa asli, sempang, sempang dan apostrof
  • Pembesaran regex melarikan diri dan melepaskan tali keluar

Atas ialah kandungan terperinci Bagaimana Mengendalikan Aksara Unikod dalam Ungkapan Biasa Java Menggunakan \w dan \b Setara?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn