ホームページ  >  記事  >  バックエンド開発  >  substr を使用して UTF-8 中国語文字列をインターセプトし、文字化けを引き起こす問題を解析する_PHP チュートリアル

substr を使用して UTF-8 中国語文字列をインターセプトし、文字化けを引き起こす問題を解析する_PHP チュートリアル

WBOY
WBOYオリジナル
2016-07-21 15:04:551065ブラウズ

UTF-8 中国語文字列をインターセプトするために substr を使用すると、文字化けが頻繁に発生することがあります。なぜこのような問題が発生するのでしょうか? この記事ではその答えを説明します。
このコードを見てください (文字エンコーディングは UTF-8):

コードをコピーします コードは次のとおりです:

$str = '誰もがそれを知っています strlenと mb_strlen は文字列を探しています長さ関数';
echo strlen($str)'.
'.mb_strlen($str,'utf-8');
?>

上記を実行しますコードと戻り値は次のとおりです:
66
34
はどうでしょうか? strlen では、中国語の長さは 3 バイト、英語の長さは 1 バイトです。 mb_strlen では、これらはすべて 1 バイトの長さとして計算されます。そのため、substr を使用して UTF-8 中国語文字列をインターセプトすると、文字化けが頻繁に発生します。これが原因です。
以下は UTF-8 文字列をインターセプトする関数を提供します:
コードをコピーする コードは次のとおりです:

function Cutstr($sourcestr,$cutlength){
$returnstr = '';
$i = 0;
$n = 0;
$str_length = strlen($sourcestr);
$mb_str_length = mb_strlen($sourcestr,'utf-8');
while(($n < $cutlength) && ($i <= $str_length)){
$temp_str = substr($sourcestr,$i,1);
$ascnum = ord($temp_str);
if($ascnum >= 224){
$returnstr = $returnstr .substr( $sourcestr,$i,3);
$i = $i + 3;
$n++;
}
elseif($ascnum >= 192){
$returnstr = $returnstr.substr($sourcestr, $i, 2);
$i = $i + 2;
$n++;
}
elseif(($ascnum >= 65) && ($ascnum <= 90)){
$returnstr = $returnstr. substr($sourcestr,$i,1);
$i = $i + 1;
$n++;
}
else{
$returnstr = $returnstr.substr($sourcestr,$i,1);
$i = $i + 1;
$n = $n + 0.5;
}
}
if ($mb_str_length > $cutlength){
$returnstr = $returnstr . "...";
}
return $returnstr;
}

使用例:
コードをコピー コードは次のとおりです:

$str = '有効期間は最大 3 か月です。このメッセージを自動的に削除します';
//echo strlen( $str);
//echo '
'.mb_strlen($str,'utf-8');
echo '
'.$str;
echo '
'.cutstr($str,24);
?>

www.bkjia.comtru​​ehttp://www.bkjia.com/PHPjc/327744.html技術記事 UTF-8 中国語文字列をインターセプトするために substr を使用すると、文字化けが頻繁に発生することがあります。なぜこのような問題が発生するのでしょうか? この記事ではその答えを説明します。 このコードを見てください...
声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。