Rumah >Java >javaTutorial >Bagaimana Mengendalikan Aksara Unikod dalam Ungkapan Biasa Java Menggunakan \w dan \b Setara?
Persamaan Unikod untuk w dan b dalam Ungkapan Biasa Java?
Pelaksanaan Java bagi pintasan kelas aksara gaya Perl (w, b, s , dsb.) terhad kepada aksara ASCII. Untuk memadankan aksara Unicode dengan betul, anda memerlukan cara yang lebih baik untuk menulis semula pintasan ini.
Penyelesaian:
Gunakan fungsi tersuai untuk menulis semula charclass escape berikut:
\w \W \s \S \v \V \h \H \d \D \b \B \X \R
Ditulis semula Definisi:
\s => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000] \S => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000] \v => [\u000A-\u000D\u0085\u2028\u2029] \V => [^\u000A-\u000D\u0085\u2028\u2029] \h => [\u0009\u0020\u00A0\u1680\u180E\u2000-\u200A\u202F\u205F\u3000] \H => [^\u0009\u0020\u00A0\u1680\u180E\u2000\u2001-\u200A\u202F\u205F\u3000] \w => [\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]] \W => [^\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]] \b => (?:(?<=[a-z0-9])(?![a-z0-9])|(?<![a-z0-9])(?=[a-z0-9])) \B => (?:(?<=[a-z0-9])(?=[a-z0-9])|(?<![a-z0-9])(?![a-z0-9])) \d => \p{Nd} \D => \P{Nd} \R => (?:(?>\u000D\u000A)|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029]) \X => (?>\PM\pM*)
Pertimbangan Sempadan:
B dan B Java tidak terikat kepada w semata-mata. A ditulis semula b menggunakan binaan A(?:AB|BC) boleh mencari sempadan di mana:
A ditulis semula B menggunakan binaan A(?:BC|AB) boleh mencari bukan sempadan di mana:
Fungsi Penulisan Semula Lengkap:
Ambil kod sumber untuk mendapatkan fungsi penulisan semula penuh yang dinyatakan di atas.
Tambahan Ciri:
Atas ialah kandungan terperinci Bagaimana Mengendalikan Aksara Unikod dalam Ungkapan Biasa Java Menggunakan \w dan \b Setara?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!