PHP にはいくつかの文字列インターセプト関数が付属しており、その中で、substr と mb_substr がよく使用されます。前者が中国語を処理する場合、GBK は 2 長さ単位、UTF は 3 長さ単位になります。後者がエンコーディングを指定すると、1 つの中国語文字が 1 長さ単位になります。
mb_substr 使用法
string mb_substr( string$str, int$start[, int$length[, string$encoding]] );
mb_substr 文字数に基づいてマルチバイトセーフな substr() 操作を実行します。 strの開始位置から計算されます。最初の文字は位置 0 にあります。 2 番目の文字の位置は 1 であり、以下同様です。
str はインターセプトされた親文字列です。
開始位置。
length 返される文字列の最大長。省略した場合は、str の末尾まで切り取られます。
encodingパラメータは文字エンコーディングです。省略した場合は、内部文字エンコーディングが使用されます。
次に、次のコードを使用してこの問題を完了します。
$mess=mb_substr($message,0,19,'gb2312');
gb2312 は中国語のエンコード形式です。
mb_substr は中国語と英語の混合文字列を処理します
substr は中国語の 1/3 または半分が切り取られ、文字化けして表示されることがあります。比較的、mb_substr の方が使いやすいです。しかし、mb_substr があまり役に立たないと思われる場合もあります。たとえば、小さな画像の簡単な情報を表示したい場合は、漢字 5 文字がちょうどよく、それ以上の場合は、最初の 4 文字を切り取って「...」を追加するだけで問題ありません。中国語ですが、英語や数字を処理する場合、このインターセプトは短すぎます。この問題は、次の関数を使用して解決できます:
<?php /** * 字符串截取 * * @author gesion * @param string $str 原始字符串 * @param int $len 截取长度(中文/全角符号默认为 2 个单位,英文/数字为 1。 * 例如:长度 12 表示 6 个中文或全角字符或 12 个英文或数字) * @param bool $dot 是否加点(若字符串超过 $len 长度,则后面加 "...") * @return string */ class Onens { public static function g_substr($str, $len = 12, $dot = true) { $i = 0; $l = 0; $c = 0; $a = array(); while ($l < $len) { $t = substr($str, $i, 1); if (ord($t) >= 224) { $c = 3; $t = substr($str, $i, $c); $l += 2; } elseif (ord($t) >= 192) { $c = 2; $t = substr($str, $i, $c); $l += 2; } else { $c = 1; $l++; } // $t = substr($str, $i, $c); $i += $c; if ($l > $len) break; $a[] = $t; } $re = implode('', $a); if (substr($str, $i, 1) !== false) { array_pop($a); ($c == 1) and array_pop($a); $re = implode('', $a); $dot and $re .= '...'; } return $re; } }