为什么 preg_match() 偏移量以字节为单位，而不是字符，即使支持 UTF-8？-php教程-PHP中文网

首页

后端开发

php教程

为什么 preg_match() 偏移量以字节为单位，而不是字符，即使支持 UTF-8？

DDD

Dec 06, 2024 am 05:35 AM

Why are preg_match() Offsets in Bytes, Not Characters, Even with UTF-8 Support?

PREG_OFFSET_CAPTURE 和 UTF-8 字符串：字节计数不匹配

使用 preg_match() 与 PREG_OFFSET_CAPTURE 参数匹配 UTF-8 字符串时，用户可能会遇到意外的情况偏移量以字节而不是字符计算的行为。尽管使用了 u 修饰符，它为模式和主题启用了 UTF-8 支持，但捕获的偏移量仍然基于字节。

解决字节计数问题

要解决此差异并获取基于字符的偏移量，可以采用涉及 mb_strlen 的解决方法。此函数提供指定子字符串的 UTF-8 字符计数。通过在捕获的匹配项之前的主题字符串的子字符串上使用 mb_strlen，我们可以获得准确的字符偏移量。

这是一个修改后的示例：

$str = "\xC2\xA1Hola!";
preg_match('/H/u', $str, $a_matches, PREG_OFFSET_CAPTURE);
echo mb_strlen(substr($str, 0, $a_matches[0][1])); // Outputs 1

通过合并 mb_strlen，我们确保偏移量表示 UTF-8 字符串中的字符位置，提供精确且预期的结果。

以上是为什么 preg_match() 偏移量以字节为单位，而不是字符，即使支持 UTF-8？的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

PHP中的依赖注入：避免常见的陷阱May 16, 2025 am 12:17 AM

DependencyInjection(DI)inPHPenhancescodeflexibilityandtestabilitybydecouplingdependencycreationfromusage.ToimplementDIeffectively:1)UseDIcontainersjudiciouslytoavoidover-engineering.2)Avoidconstructoroverloadbylimitingdependenciestothreeorfour.3)Adhe

如何加快PHP网站：性能调整May 16, 2025 am 12:12 AM

到Improveyourphpwebsite的实力，UsEthestertate：1）emplastOpCodeCachingWithOpcachetCachetOspeedUpScriptInterpretation.2）优化的atabasequesquesquesquelies berselectingOnlynlynnellynnessaryfields.3）usecachingsystemssslikeremememememcachedisemcachedtoredtoredtoredsatabaseloadch.4）

通过PHP发送大规模电子邮件：有可能吗？May 16, 2025 am 12:10 AM

是的，itispossibletosendMassemailswithp.1）uselibrarieslikeLikePhpMailerorSwiftMailerForeffitedEmailSending.2）enasledeLaysBetemailStoavoidSpamflagssspamflags.3）sylectynamicContentToimpovereveragement.4）

PHP中依赖注入的目的是什么？May 16, 2025 am 12:10 AM

DependencyInjection(DI)inPHPisadesignpatternthatachievesInversionofControl(IoC)byallowingdependenciestobeinjectedintoclasses,enhancingmodularity,testability,andflexibility.DIdecouplesclassesfromspecificimplementations,makingcodemoremanageableandadapt