ホームページ  >  記事  >  バックエンド開発  >  PHP インターセプト文字列インターセプト UTF8 または gbk でエンコードされた中国語と英語の文字列の例_PHP チュートリアル

PHP インターセプト文字列インターセプト UTF8 または gbk でエンコードされた中国語と英語の文字列の例_PHP チュートリアル

WBOY
WBOYオリジナル
2016-07-13 10:36:031079ブラウズ

Weiboのコメントには文字数制限があり、漢字は2文字、英語は1文字、全角は2文字、半角は1文字とカウントされます。
php の組み込み strlen は返されるバイト数です。utf8 でエンコードされた中国語の場合、3 が返されますが、これはニーズを満たしません。
mb_strlen は文字セットに従って長さを計算できます。たとえば、utf8 の中国語のカウントは 1 ですが、これは Weibo の文字数制限の要件を満たしていません。
Googleで調べたところ、さまざまなエンコードされた文字をインターセプトするクラスがdiscuzに見つかりました。それを変更したところ、パラメータ$charsetはgbkとutf-8のみをサポートしました。

コードをコピーします コードは次のとおりです:

$a = "s@@Hello";
var_dump(strlen_weibo($a,'utf-8'));

結果出力は8で、文字sは1、全角@は2、半角@は1、漢字2文字は4とカウントされます。ソースコードは次のとおりです:

コードをコピーします コードは次のとおりです:

function strlen_weibo($string, $charset='utf-8')
{
$n = $count = 0;
$length = strlen($string);
if (strto lower($charset) == 'utf -8')
{
while ($n < $length)
{
$currentByte = ord($string[$n]);
if ($currentByte == 9 ||
$現在のバイト == 10 ||
(32 {
$n++;
$count++;
} elseif (194 {
$n += 2;
$count += 2;
} elseif (224 {
$n += 3;
$count += 2;
} elseif (240 <= $currentByte && $currentByte <= 247)
{
$n += 4;
$count += 2;
} elseif (248 <= $currentByte & & $currentByte {
$n += 5;
$count += 2;
} elseif ($currentByte == 252 || $currentByte == 253)
{
$n += 6;
$count += 2;
} else
{
$n++;
$count++;
}
if ($count >= $length)
{
Break;
}
}
return $count;
} else
{
for ($i = 0; $i {
if (ord($string[$i]) > ; 127)
{
$i++;
$count++;
}
$count++;
}
return $count;
}
}

www.bkjia.comtru​​ehttp://www.bkjia.com/PHPjc/740663.html技術記事 Weiboのコメントには文字数制限があり、漢字は2文字、英語は1文字、全角は2文字、半角は1文字とカウントされます。 PHP の組み込み strlen は、返されるバイト数です...
声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。