ホームページ >バックエンド開発 >PHPチュートリアル >UTF8 と「u」修飾子を使用すると、PREG_OFFSET_CAPTURE が文字数ではなくバイト数を返すのはなぜですか?

UTF8 と「u」修飾子を使用すると、PREG_OFFSET_CAPTURE が文字数ではなくバイト数を返すのはなぜですか?

Why Does PREG_OFFSET_CAPTURE Return Byte Counts Instead of Character Counts with UTF8 and the 'u' Modifier?

UTF8 式にもかかわらず PREG_OFFSET_CAPTURE がバイト数をカウントする

UTF8 処理に u 修飾子を付けて preg_match を使用すると、PREG_OFFSET_CAPTURE が文字ではなくバイトカウントを返す予期しない動作が発生する可能性があります。 counts.

preg_match('/H/u', "\xC2\xA1Hola!", $a_matches, PREG_OFFSET_CAPTURE);
echo $a_matches[0][1]; // Prints 2, but should be 1 for "H" in "¡Hola!"

u 修飾子がパターンとサブジェクトに UTF8 エンコードとしてフラグを立てているにもかかわらず、オフセットはバイト単位のままです。文字ベースのオフセットを取得するには、mb_strlen:

$str = "\xC2\xA1Hola!";
preg_match('/H/u', $str, $a_matches, PREG_OFFSET_CAPTURE);
echo mb_strlen(substr($str, 0, $a_matches[0][1])); // Prints 1

を使用できます。

以上がUTF8 と「u」修飾子を使用すると、PREG_OFFSET_CAPTURE が文字数ではなくバイト数を返すのはなぜですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

続きを見る