Java 正则表达式中 w 和 b 的 Unicode 等效项
Java 的正则表达式实现不使用 w 字符类简写来表示“任何字母” 、数字或连接标点符号”,就像其他实现一样。这使得匹配 Unicode 单词变得更加困难。该问题扩展到 b 字分隔符,它在 Java 中也表现出不一致的行为。
Unicode 感知等效项
要解决这些问题,可以重写正则表达式模式使用以下替换:
- w: [pLpMp{Nd}p{Nl}p{Pc}[p{InEnlatedAlphanumerics}&&p{So}]]
- b: (?:(?
其他Unicode 属性
除了 w 和 b 之外,Java 的正则表达式缺乏对其他属性的 Unicode 感知支持。但是,可以使用 p 语法扩展这些属性,如下所示:
Java Syntax | Unicode Property |
---|---|
p{Lower} | Unicode Lowercase |
p{Upper} | Unicode Uppercase |
p{ASCII} | ASCII |
p{Alpha} | Unicode Alphabetic |
p{Digit} | Unicode Digit |
p{Alnum} | Unicode Alphanumeric |
p{Punct} | Unicode Punctuation |
p{Graph} | Unicode Graph |
p{Print} | Unicode Printable |
p{Blank} | Unicode Blank |
p{Cntrl} | Unicode Control |
p{XDigit} | Unicode Hexadecimal Digit |
p{Space} | Unicode Space |
Unicode 感知正则表达式
通过合并这些 Unicode 感知替代项,人们可以创建准确处理 Unicode 数据的正则表达式模式。例如,以下模式匹配 Unicode 单词:
Pattern pattern = Pattern.compile("\w+"); // Unicode-aware \w equivalent
此模式可用于匹配文本字符串中的单词,无论字符是 ASCII 还是 Unicode 编码。
以上是如何在 Java 中创建支持 Unicode 的正则表达式?的详细内容。更多信息请关注PHP中文网其他相关文章!

本文讨论了使用Maven和Gradle进行Java项目管理,构建自动化和依赖性解决方案,以比较其方法和优化策略。

本文使用Maven和Gradle之类的工具讨论了具有适当的版本控制和依赖关系管理的自定义Java库(JAR文件)的创建和使用。

本文讨论了使用咖啡因和Guava缓存在Java中实施多层缓存以提高应用程序性能。它涵盖设置,集成和绩效优势,以及配置和驱逐政策管理最佳PRA

本文讨论了使用JPA进行对象相关映射,并具有高级功能,例如缓存和懒惰加载。它涵盖了设置,实体映射和优化性能的最佳实践,同时突出潜在的陷阱。[159个字符]

Java的类上载涉及使用带有引导,扩展程序和应用程序类负载器的分层系统加载,链接和初始化类。父代授权模型确保首先加载核心类别,从而影响自定义类LOA


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器

Dreamweaver Mac版
视觉化网页开发工具

Atom编辑器mac版下载
最流行的的开源编辑器