Maison >Java >javaDidacticiel >Comment gérer les caractères Unicode dans les expressions régulières Java à l'aide des équivalents \w et \b ?
Équivalents Unicode pour w et b dans les expressions régulières Java ?
Implémentation par Java des raccourcis de classe de caractères de style Perl (w, b, s , etc.) est limité aux caractères ASCII. Pour faire correspondre correctement les caractères Unicode, vous avez besoin d'une meilleure façon de réécrire ces raccourcis.
Solution :
Utilisez une fonction personnalisée pour réécrire les échappements de classe de caractères suivants :
\w \W \s \S \v \V \h \H \d \D \b \B \X \R
Réécrit Définitions :
\s => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000] \S => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000] \v => [\u000A-\u000D\u0085\u2028\u2029] \V => [^\u000A-\u000D\u0085\u2028\u2029] \h => [\u0009\u0020\u00A0\u1680\u180E\u2000-\u200A\u202F\u205F\u3000] \H => [^\u0009\u0020\u00A0\u1680\u180E\u2000\u2001-\u200A\u202F\u205F\u3000] \w => [\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]] \W => [^\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]] \b => (?:(?<=[a-z0-9])(?![a-z0-9])|(?<![a-z0-9])(?=[a-z0-9])) \B => (?:(?<=[a-z0-9])(?=[a-z0-9])|(?<![a-z0-9])(?![a-z0-9])) \d => \p{Nd} \D => \P{Nd} \R => (?:(?>\u000D\u000A)|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029]) \X => (?>\PM\pM*)
Considérations relatives aux limites :
Les b et B de Java ne sont pas uniquement liés à w. Un b réécrit en utilisant la construction A(?:AB|BC) peut rechercher des limites où :
Un B réécrit en utilisant la construction A(?:BC|AB) peut rechercher des non-frontières où :
Fonction de réécriture complète :
Récupérez le code source pour obtenir la fonction de réécriture complète mentionnée ci-dessus.
Fonctionnalités supplémentaires :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!