php で文字列の長さを計算する一般的な関数は、strlen と mb_strlen です。文字がすべて英語の場合、この 2 つは同じです。ここでは主に中国語と英語が混在した場合の 2 つの計算結果を比較します。
PHP では、strlen と mb_strlen は文字列の長さを調べる関数ですが、初心者にとってはマニュアルを読まないと違いがよくわからない人もいます。
以下では、例を使用して 2 つの違いを説明します。
最初に例を見てください:
<?php //测试时文件的编码方式为gbk $str='中文a字1符'; echo strlen($str).'<br>';//10 echo mb_strlen($str,'utf8').'<br>';//7 echo mb_strlen($str,'gbk').'<br>';//6 echo mb_strlen($str,'gb2312').'<br>';//6 echo mb_strlen($str).'<br>';//10 ?>
結果分析:
strlen を計算するとき、gbk の漢字は 2 文字の長さであるため、「中国語の 1 文字は 1 文字」となります。長さは 2*4 2=10 で、mb_strlen を計算する際、内部コードが gbk の場合は漢字を文字長として扱います。
これら 2 つの関数を使用すると、中国語と英語が混在した文字列の占有率を共同で計算できます (中国語の文字の占有率は 2、英語の文字の占有率は 1)
echo (strlen($str) + mb_strlen($str,'UTF8')) / 2;
たとえば、「中国語 1 文字 1 文字」の strlen($str) 値が 10、mb_strlen($str) 値が 6 である場合、「中国語 1 文字 1 文字」のプレースホルダは次のように計算できます。 10.
echo mb_internal_encoding();
PHP の組み込み文字列長関数 strlen は、中国語の文字列を正しく処理できません。文字列が占有するバイト数のみを取得します。 GB2312 中国語エンコードの場合、strlen によって取得される値は中国語の文字数の 2 倍ですが、UTF-8 エンコードされた中国語の場合、その差は 3 倍になります (UTF-8 エンコードでは、1 つの中国語文字は 3 バイトを占めます)。
mb_strlen 関数を使用すると、この問題をより適切に解決できます。 mb_strlen の使用法は strlen と似ていますが、文字エンコーディングを指定する 2 番目のオプションのパラメーターがある点が異なります。たとえば、UTF-8 文字列 $str の長さを取得するには、mb_strlen($str,'UTF-8') を使用できます。
2 番目のパラメータを省略した場合は、PHP の内部エンコーディングが使用されます。内部エンコーディングは、mb_internal_encoding() 関数を通じて取得できます。
mb_strlen は PHP のコア関数ではないことに注意してください。これを使用する前に、php_mbstring.dll が php.ini にロードされていることを確認する必要があります。つまり、「extension」行が=php_mbstring.dll」が存在し、コメントアウトされていません。そうしないと、関数が未定義になる問題が発生します。
以上がPHP の strlen と mb_strlen の違いの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。