Maison >Java >javaDidacticiel >Comment gérer les caractères Unicode dans les expressions régulières Java à l'aide des équivalents \w et \b ?

Comment gérer les caractères Unicode dans les expressions régulières Java à l'aide des équivalents \w et \b ?

Mary-Kate Olsen
Mary-Kate Olsenoriginal
2024-12-11 08:42:10285parcourir

How to Handle Unicode Characters in Java Regular Expressions Using w and b Equivalents?

Équivalents Unicode pour w et b dans les expressions régulières Java ?

Implémentation par Java des raccourcis de classe de caractères de style Perl (w, b, s , etc.) est limité aux caractères ASCII. Pour faire correspondre correctement les caractères Unicode, vous avez besoin d'une meilleure façon de réécrire ces raccourcis.

Solution :

Utilisez une fonction personnalisée pour réécrire les échappements de classe de caractères suivants :

\w \W \s \S \v \V \h \H \d \D \b \B \X \R

Réécrit Définitions :

\s => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]
\S => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]

\v => [\u000A-\u000D\u0085\u2028\u2029]
\V => [^\u000A-\u000D\u0085\u2028\u2029]

\h => [\u0009\u0020\u00A0\u1680\u180E\u2000-\u200A\u202F\u205F\u3000]
\H => [^\u0009\u0020\u00A0\u1680\u180E\u2000\u2001-\u200A\u202F\u205F\u3000]

\w => [\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]
\W => [^\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]

\b => (?:(?<=[a-z0-9])(?![a-z0-9])|(?<![a-z0-9])(?=[a-z0-9]))
\B => (?:(?<=[a-z0-9])(?=[a-z0-9])|(?<![a-z0-9])(?![a-z0-9]))

\d => \p{Nd}
\D => \P{Nd}

\R => (?:(?>\u000D\u000A)|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029])

\X => (?>\PM\pM*)

Considérations relatives aux limites :

Les b et B de Java ne sont pas uniquement liés à w. Un b réécrit en utilisant la construction A(?:AB|BC) peut rechercher des limites où :

  • IF suit le mot ==> ALORS ne précède pas le mot
  • ELSIF ne suit pas le mot ==> ALORS précède le mot

Un B réécrit en utilisant la construction A(?:BC|AB) peut rechercher des non-frontières où :

  • IF suit le mot ==> ALORS précède le mot
  • ELSIF ne suit pas le mot ==> ALORS ne précède pas le mot

Fonction de réécriture complète :

Récupérez le code source pour obtenir la fonction de réécriture complète mentionnée ci-dessus.

Fonctionnalités supplémentaires :

  • Saisie de caractères Unicode en logique points de code
  • Définitions pratiques pour les mots, les tirets, les traits d'union et les apostrophes en langage naturel
  • Augmentation des échappements d'expressions régulières et déséchappement des échappements de chaîne

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn