ホームページ  >  記事  >  バックエンド開発  >  PHP は文字化けを発生させずに中国語の文字列インターセプトを実装します

PHP は文字化けを発生させずに中国語の文字列インターセプトを実装します

(*-*)浩
(*-*)浩オリジナル
2019-09-27 09:57:473469ブラウズ

PHP は文字化けを発生させずに中国語の文字列インターセプトを実装します

Substr は文字列をインターセプトするために PHP でよく使用されますが、これを中国語の文字をインターセプトするために使用すると、文字化けが発生します。例: (推奨学習: PHP プログラミング入門から熟練度まで )

<?php
$mystring="今天天气真好";
$mysubstring=substr($mystring,0,2);
echo $mysubstring;
?>

出力結果は �;

原因分析:substr 関数プロトタイプは次のとおりです: string substr ( string $string , int $start [, int $length ] ), $length は返されるバイト長を表し、1 つの中国語文字は 2 バイトを占めます。UTF-8 中国語文字の場合、3 バイトとして扱われます。

<?php
$length=strlen($mystring);echo $length;//输出结果为18
?>

つまり、$length を 3 にすると、「Jin」という単語が正常に返されます。この場合、中国語と英語が混在している場合は、$length を慎重に計算する必要があります。

では、もっと良い解決策はあるのでしょうか?

#Php には、追加関数 mb_strlen および mb_substr

<?php
$length=mb_strlen($mystring);
$mysub=mb_substr($mystring,0,4);
echo "the length is:$length,","the substr is:$mysub";
?>
が用意されています。出力結果は次のとおりです。長さは 6、部分文字列は次のとおりです。今日の天気

## mb_strlen 関数のプロトタイプは int mb_strlen(string string_input, string encode); エンコードのデフォルトは UTF-8 であり、UTF-8 でエンコードされた中国語の文字は 1 つとしてカウントされます


注: mb_strlen と mb_substrこれらは PHP のコア関数ではありません。使用する前に、php.ini で extension=php_mbstring.dll を開く必要があります。

以上がPHP は文字化けを発生させずに中国語の文字列インターセプトを実装しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。