ホームページ >バックエンド開発 >PHPチュートリアル >substr を使用して UTF-8 中国語文字列をインターセプトし、文字化けを引き起こす問題を解析する_PHP チュートリアル

substr を使用して UTF-8 中国語文字列をインターセプトし、文字化けを引き起こす問題を解析する_PHP チュートリアル

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル: 2016-07-21 15:04:551156ブラウズ

UTF-8 中国語文字列をインターセプトするために substr を使用すると、文字化けが頻繁に発生することがあります。なぜこのような問題が発生するのでしょうか? この記事ではその答えを説明します。
このコードを見てください (文字エンコーディングは UTF-8):

コードをコピーしますコードは次のとおりです:

$str = '誰もがそれを知っています strlenと mb_strlen は文字列を探しています長さ関数';
echo strlen($str)'.
'.mb_strlen($str,'utf-8');
?>

上記を実行しますコードと戻り値は次のとおりです:
66
34
はどうでしょうか? strlen では、中国語の長さは 3 バイト、英語の長さは 1 バイトです。 mb_strlen では、これらはすべて 1 バイトの長さとして計算されます。そのため、substr を使用して UTF-8 中国語文字列をインターセプトすると、文字化けが頻繁に発生します。これが原因です。
以下は UTF-8 文字列をインターセプトする関数を提供します:

コードをコピーするコードは次のとおりです:

function Cutstr($sourcestr,$cutlength){
$returnstr = '';
$i = 0; 
$n = 0;
$str_length = strlen($sourcestr);
$mb_str_length = mb_strlen($sourcestr,'utf-8');
while(($n < $cutlength) && ($i <= $str_length)){
$temp_str = substr($sourcestr,$i,1);
$ascnum = ord($temp_str);
if($ascnum >= 224){
$returnstr = $returnstr .substr( $sourcestr,$i,3);
$i = $i + 3;
$n++;
}
elseif($ascnum >= 192){
$returnstr = $returnstr.substr($sourcestr, $i, 2);
$i = $i + 2;
$n++;
}
elseif(($ascnum >= 65) && ($ascnum <= 90)){
$returnstr = $returnstr. substr($sourcestr,$i,1);
$i = $i + 1;
$n++;
}
else{
$returnstr = $returnstr.substr($sourcestr,$i,1);
$i = $i + 1;
$n = $n + 0.5;
}
}
if ($mb_str_length > $cutlength){
$returnstr = $returnstr . "...";
}
return $returnstr; 
}
 

使用例:

コードをコピーコードは次のとおりです:

$str = '有効期間は最大 3 か月です。このメッセージを自動的に削除します';
//echo strlen( $str);
//echo ''.mb_strlen($str,'utf-8');
echo ' '.$str;
echo ''.cutstr($str,24);
?>

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：php_screw 1.5:php暗号化: インストールと使用方法の詳細な説明_PHPチュートリアル次の記事：php_screw 1.5:php暗号化: インストールと使用方法の詳細な説明_PHPチュートリアル

続きを見る

substr を使用して UTF-8 中国語文字列をインターセプトし、文字化けを引き起こす問題を解析する_PHP チュートリアル

関連記事