ホームページ  >  記事  >  バックエンド開発  >  PHP は mb_substr() を使用して中国語文字列のインターセプトと文字化けの問題を解決します

PHP は mb_substr() を使用して中国語文字列のインターセプトと文字化けの問題を解決します

伊谢尔伦
伊谢尔伦オリジナル
2016-11-26 14:43:093959ブラウズ

PHP にはいくつかの文字列インターセプト関数が付属しており、その中で、substr と mb_substr がよく使用されます。前者が中国語を処理する場合、GBK は 2 長さ単位、UTF は 3 長さ単位になります。後者がエンコーディングを指定すると、1 つの中国語文字が 1 長さ単位になります。

mb_substr 使用法

string mb_substr( string$str, int$start[, int$length[, string$encoding]] );

mb_substr 文字数に基づいてマルチバイトセーフな substr() 操作を実行します。 strの開始位置から計算されます。最初の文字は位置 0 にあります。 2 番目の文字の位置は 1 であり、以下同様です。

str はインターセプトされた親文字列です。

開始位置。

length 返される文字列の最大長。省略した場合は、str の末尾まで切り取られます。

encodingパラメータは文字エンコーディングです。省略した場合は、内部文字エンコーディングが使用されます。

次に、次のコードを使用してこの問題を完了します。

$mess=mb_substr($message,0,19,'gb2312');

gb2312 は中国語のエンコード形式です。

mb_substr は中国語と英語の混合文字列を処理します

substr は中国語の 1/3 または半分が切り取られ、文字化けして表示されることがあります。比較的、mb_substr の方が使いやすいです。しかし、mb_substr があまり役に立たないと思われる場合もあります。たとえば、小さな画像の簡単な情報を表示したい場合は、漢字 5 文字がちょうどよく、それ以上の場合は、最初の 4 文字を切り取って「...」を追加するだけで問題ありません。中国語ですが、英語や数字を処理する場合、このインターセプトは短すぎます。この問題は、次の関数を使用して解決できます:

<?php
/**
* 字符串截取
*
* @author gesion
* @param string $str 原始字符串
* @param int    $len 截取长度(中文/全角符号默认为 2 个单位,英文/数字为 1。
*                    例如:长度 12 表示 6 个中文或全角字符或 12 个英文或数字)
* @param bool   $dot 是否加点(若字符串超过 $len 长度,则后面加 "...")
* @return string
*/
class Onens {
   public static function g_substr($str, $len = 12, $dot = true) {
       $i = 0;
       $l = 0;
       $c = 0;
       $a = array();
       while ($l < $len) {
           $t = substr($str, $i, 1);
           if (ord($t) >= 224) {
               $c = 3;
               $t = substr($str, $i, $c);
               $l += 2;
           } elseif (ord($t) >= 192) {
               $c = 2;
               $t = substr($str, $i, $c);
               $l += 2;
           } else {
               $c = 1;
               $l++;
           }
           // $t = substr($str, $i, $c);
           $i += $c;
           if ($l > $len) break;
           $a[] = $t;
       }
       $re = implode(&#39;&#39;, $a);
       if (substr($str, $i, 1) !== false) {
           array_pop($a);
           ($c == 1) and array_pop($a);
           $re = implode(&#39;&#39;, $a);
           $dot and $re .= &#39;...&#39;;
       }
       return $re;
   }
}


声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。