ホームページ  >  記事  >  バックエンド開発  >  php strlen mb_strlen は中国語と英語が混在した文字列の長さを計算します

php strlen mb_strlen は中国語と英語が混在した文字列の長さを計算します

高洛峰
高洛峰オリジナル
2017-01-05 11:41:521242ブラウズ

strlenとmb_strlenを比較
文字がすべて英語の場合、2つは同じです。ここでは主に中国語と英語が混在した場合の 2 つの計算結果を比較します。 (テスト時のエンコード方式はUTF8でした)

<?php 
$str=‘中文a字1符‘; 
echo strlen($str); 
echo ‘<br />‘; 
echo mb_strlen($str,‘UTF8‘); 
//输出结果 
//14 
//6 
?>

結果分析: strlenを計算する際、UTF8の漢字は3文字として扱われるため、「漢字1文字」の長さは3*4+2=14となります。
mb_strlenで計算する際、内部コードをUTF8に選択した場合、漢字1文字の長さは1として計算されるため、「中国語1文字1文字」の長さは6となります
中国語混在時のプレースホルダの計算についてと英語の文字列:
これを使用します。 2 つの関数は、中国語と英語が混在した文字列の占有率を共同で計算できます (中国語の文字の占有率は 2、英語の文字の占有率は 1)。計算方法は次のとおりです。混合文字列には中国語、英語があり、プレースホルダーは次のとおりです:

<?php 
$str=‘中文a字1符‘; 
//计算如下 
echo (strlen($str) + mb_strlen($str,‘UTF8‘)) / 2; 
echo 
//输出结果 
//10 
?>

たとえば、「中国語 a 文字 1 文字」の strlen($str) 値は 14、mb_strlen($str) 値は 6 です。 「中国語の 1 文字を 1 文字」と計算できます。「プレースホルダーは 10 です。
ウェブサイトの記事を添付します。
中国語についてまだ質問です。 PHP の組み込みの文字列長関数 strlen は、中国語の文字列を正しく処理できません。文字列が占有するバイト数のみを取得します。 GB2312 中国語エンコードの場合、strlen によって取得される値は中国語の文字数の 2 倍ですが、UTF-8 エンコードされた中国語の場合、その差は 3 倍になります (UTF-8 エンコードでは、1 つの中国語文字は 3 バイトを占めます)。

mb_strlen 関数を使用すると、この問題をより適切に解決できます。 mb_strlen の使用法は strlen と似ていますが、文字エンコーディングを指定する 2 番目のオプションのパラメーターがある点が異なります。たとえば、UTF-8 文字列 $str の長さを取得するには、mb_strlen($str,'UTF-8') を使用できます。 2 番目のパラメータを省略した場合は、PHP の内部エンコーディングが使用されます。内部エンコーディングは、mb_internal_encoding() 関数を通じて取得できます。 mb_strlen は PHP のコア関数ではないことに注意してください。使用する前に、php_mbstring.dll が php.ini にロードされていること、つまり「extension=php_mbstring.dll」という行が存在することを確認する必要があります。コメントアウトされていない場合は、関数の問題が未定義になります。

中国語と英語の混合文字列の長さを計算する php strlen mb_strlen に関連するその他の記事については、PHP 中国語 Web サイトに注目してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。