ホームページ >バックエンド開発 >PHPチュートリアル >PHPのstrlenとmb_strlenの違いを詳しく解説

PHPのstrlenとmb_strlenの違いを詳しく解説

WBOY
WBOYオリジナル
2016-06-20 13:03:081273ブラウズ

PHP では、文字列の長さを見つけるために 2 つの関数 strlenmb_strlen が使用され、One の日常業務でよく使用されます。機能自体は難しくないのですが、初心者の方にとってはマニュアルを読まないと違いが分からない方もいるかもしれません。

わかりました。これ以上ナンセンスではありません。例を通して 2 つの違いを説明しましょう。

<?php
/* 测试时文件的编码方式注意一定要是UTF8  */
$str=&#39;中文a字1符&#39;;
echo strlen($str).&#39;<br>';//14
echo mb_strlen($str,'utf8').'<br>';//6
echo mb_strlen($str,'gbk').'<br>';//8
echo mb_strlen($str,'gb2312').'<br>';//10
?>

結果の分析により、strlen で計算すると、エンコード形式 UTF8 の中国語の文字の長さは 3 であることがわかります。したがって、「中国語の 1 文字 1 文字」の長さは 3*4+2=14 となります。また、mb_strlen の計算時に内部コードを UTF8 に選択した場合、中国語の文字の長さは 1 として計算されるため、「中国語の 1 文字 1 文字」の長さは 6 になります。

これら 2 つの関数を使用すると、中国語と英語が混在した文字列の占有率を共同で計算できます (中国語の文字の占有率は 2、英語の文字の占有率は 1)

echo (strlen($str) + mb_strlen($str,'UTF8')) / 2;

例:

「漢字 a」の strlen($str) 値は 14、

mb_strlen($str) の値は 6、

すると、「漢字a 1文字」が占めるスペースは10と計算できます。

echo mb_internal_encoding();

PHP の組み込みの文字列長関数 strlen は、中国語の文字列を正しく処理できません。取得できるのは、文字列が占めるバイト数だけです。 GB2312 の中国語エンコードの場合、strlen で得られる値は中国語の文字数の 2 倍になります。UTF-8 エンコードの中国語で見ると、その差は 3 倍になります (UTF-8 エンコードでは、1 つの中国語文字が 3 バイトを占めます)。

mb_strlen 関数を使用すると、この問題をより適切に解決できます。 mb_strlen の使用法は strlen と似ていますが、文字エンコーディングを指定する 2 番目のオプションのパラメーターがある点が異なります。たとえば、UTF-8 文字列 $str の長さを取得するには、mb_strlen($str,'UTF-8') を使用できます。 2 番目のパラメータを省略した場合は、PHP の内部エンコーディングが使用されます。内部エンコーディングは、mb_internal_encoding() 関数を通じて取得できます。

注: mb_strlen は PHP のコア関数ではありません。これを使用する前に、php_mbstring.dll が php.ini にロードされていること、つまり、「extension=php_mbstring.dll」という行が存在することを確認する必要があります。コメントアウトされていない場合、未定義関数の問題が発生します。この機能は使用できません。 mb_substr() 関数など、mb_ で始まるいくつかの関数が含まれます。


声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。