ホームページ >バックエンド開発 >PHPチュートリアル >UTF8 と「u」修飾子を使用すると、PREG_OFFSET_CAPTURE が文字数ではなくバイト数を返すのはなぜですか?

UTF8 と「u」修飾子を使用すると、PREG_OFFSET_CAPTURE が文字数ではなくバイト数を返すのはなぜですか?

Linda Hamilton
Linda Hamiltonオリジナル
2024-12-03 20:24:19300ブラウズ

Why Does PREG_OFFSET_CAPTURE Return Byte Counts Instead of Character Counts with UTF8 and the 'u' Modifier?

UTF8 式にもかかわらず PREG_OFFSET_CAPTURE がバイト数をカウントする

UTF8 処理に u 修飾子を付けて preg_match を使用すると、PREG_OFFSET_CAPTURE が文字ではなくバイト カウントを返す予期しない動作が発生する可能性があります。 counts.

preg_match('/H/u', "\xC2\xA1Hola!", $a_matches, PREG_OFFSET_CAPTURE);
echo $a_matches[0][1]; // Prints 2, but should be 1 for "H" in "¡Hola!"

u 修飾子がパターンとサブジェクトに UTF8 エンコードとしてフラグを立てているにもかかわらず、オフセットはバイト単位のままです。文字ベースのオフセットを取得するには、mb_strlen:

$str = "\xC2\xA1Hola!";
preg_match('/H/u', $str, $a_matches, PREG_OFFSET_CAPTURE);
echo mb_strlen(substr($str, 0, $a_matches[0][1])); // Prints 1
を使用できます。

以上がUTF8 と「u」修飾子を使用すると、PREG_OFFSET_CAPTURE が文字数ではなくバイト数を返すのはなぜですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。