首页 >Java >java教程 >如何使用 \w 和 \b 等效项处理 Java 正则表达式中的 Unicode 字符?

如何使用 \w 和 \b 等效项处理 Java 正则表达式中的 Unicode 字符?

Mary-Kate Olsen
Mary-Kate Olsen原创
2024-12-11 08:42:10205浏览

How to Handle Unicode Characters in Java Regular Expressions Using w and b Equivalents?

Java 正则表达式中 w 和 b 的 Unicode 等价物?

Java 的 Perl 风格字符类快捷方式(w、b、s)的实现等)仅限于 ASCII 字符。要正确匹配 Unicode 字符,您需要更好的方法来重写这些快捷方式。

解决方案:

利用自定义函数重写以下 charclass 转义:

\w \W \s \S \v \V \h \H \d \D \b \B \X \R

重写定义:

\s => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]
\S => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]

\v => [\u000A-\u000D\u0085\u2028\u2029]
\V => [^\u000A-\u000D\u0085\u2028\u2029]

\h => [\u0009\u0020\u00A0\u1680\u180E\u2000-\u200A\u202F\u205F\u3000]
\H => [^\u0009\u0020\u00A0\u1680\u180E\u2000\u2001-\u200A\u202F\u205F\u3000]

\w => [\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]
\W => [^\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]

\b => (?:(?<=[a-z0-9])(?![a-z0-9])|(?<![a-z0-9])(?=[a-z0-9]))
\B => (?:(?<=[a-z0-9])(?=[a-z0-9])|(?<![a-z0-9])(?![a-z0-9]))

\d => \p{Nd}
\D => \P{Nd}

\R => (?:(?>\u000D\u000A)|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029])

\X => (?>\PM\pM*)

边界考虑:

Java 的 b 和 B 不仅仅与 w 绑定。使用 A(?:AB|BC) 构造重写的 b 可以搜索边界,其中:

  • IF 跟随单词 ==>; THEN 不位于单词
  • ELSIF 不位于单词 ==> 之后THEN 在单词

使用 A(?:BC|AB) 构造重写的 B 之前可以搜索非边界,其中:

  • IF 跟随单词 ==>; THEN 确实在单词
  • ELSIF 后面不跟在单词 ==> 后面THEN 不位于单词之前

完整重写功能:

获取源代码以获得上面提到的完整重写功能。

额外功能:

  • 逻辑代码点中的 Unicode 字符输入
  • 自然语言单词、破折号、连字符和撇号的便捷定义
  • 正则表达式的增强字符串转义的转义和取消转义

以上是如何使用 \w 和 \b 等效项处理 Java 正则表达式中的 Unicode 字符?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn