ホームページ >バックエンド開発 >PHPチュートリアル >PHP substr が文字列をインターセプトするときに発生する中国語文字化けの問題を解決する

PHP substr が文字列をインターセプトするときに発生する中国語文字化けの問題を解決する

WBOY
WBOYオリジナル
2016-07-29 09:15:351267ブラウズ

PHP プログラムの開発では、文字列のインターセプト操作が頻繁に実行されます。たとえば、情報リストを出力する場合、タイトルが長すぎないようにする必要があります。また、一連の文字列インターセプト操作も実行する必要があります。こうしたニーズに遭遇したとき、私たちはそれを実現するために substr() メソッドを使用することをよく考えます。 substr は中国語で文字化けします。中国語の UTF-8 エンコーディングのため、GB2312 は 2 バイトを占有し、英語は 1 バイトを占有します。substr() は中国語を突然「認識」します。文字. " を半分にすると、壊れた文字が後続の .. をまとめて 1 つの単語を作成するため、PHP substr 中国語の文字化けが発生します。

substr --- 文字列の一部を取得します


構文: string substr (string string, int start [, int length])

説明:

substr() は、パラメータ start とパラメータによって渡された文字列の一部を返します。長さが指定されています。
start が正の数の場合、返される文字列は string の開始文字から始まります。
例:

<?php
$rest = substr ("abcdef", 1); // returns "bcdef"
$rest = substr ("abcdef", 1, 3); // returns "bcd"
?>


start が負の数の場合、返される文字列は文字列の末尾の開始文字から始まります。

例:


<?php
$rest = substr ("abcdef", -1); // returns "f"
$rest = substr ("abcdef", -2); // returns "ef"
$rest = substr ("abcdef", -3, 1); // returns "d"
?>


パラメーターの長さが指定され、それが正の数である場合、返される文字列は先頭からの長さの文字になります。

パラメータの長さが指定され、それが負の数値である場合、返される文字列は文字列の末尾から length 番目の文字で終了します。

例:

<?php
$rest = substr ("abcdef", 1, -1); // returns "bcde"
?>


英語は問題ありません、中国語をテストします

例:


<?php
$rest = substr ("中国人", 1, -1); // returns "fdsafsda" 就是乱码了
?>


この種の文字インターセプトの結果は、間違いなく私たちが望む結果ではありません、この種のPHP substr 中国語 文字化けがあると、プログラムが正常に動作しなくなる可能性があります。解決策は主に2つあります:

1. mbstring拡張ライブラリのmb_substr()を使用してインターセプトし、文字化けが発生しないようにします。


関数 mb_substr()/mb_strcut() を使用できます。mb_substr()/mb_strcut() の使用法は、設定するパラメーターが mb_substr()/mb_strcut の最後に 1 つ追加されることを除いて、substr() と似ています。文字列のエンコーディングですが、ほとんどのサーバーは php_mbstring.dll を開きません。php.ini で php_mbstring.dll を開く必要があります。

例:


<?php
    echo mb_substr("php中文字符encode",0,4,"utf-8");
?>


最後のエンコーディングパラメータが指定されていない場合、utf-8 文字セットを追加すると、漢字 1 文字に対して 3 バイトになります。説明、つまり 1 文字単位で切り取られます。


ご利用の際はphpファイルのエンコードとWebページ表示時のエンコードにご注意ください。この mb_substr メソッドを使用するには、文字列のエンコードを事前に知っておく必要があります。エンコードがわからない場合は、mbstring ライブラリにも文字列のエンコードをチェックするための mb_check_encoding が用意されていますが、まだ完全ではありません。 。


PHP にはいくつかの文字列インターセプト関数が付属しており、その中でよく使用されるのが substr と mb_substr です。前者が中国語を処理する場合、GBK は 2 長さ単位、UTF は 3 長さ単位になります。後者がエンコーディングを指定すると、1 つの中国語文字が 1 長さ単位になります。


substr は時々中国語の 1/3 または半分が切り取られ、文字化けして表示されます。比較的、mb_substr の方が使いやすいです。しかし、mb_substr があまり役に立たないと思われる場合もあります。たとえば、小さな画像の簡単な情報を表示したい場合は、漢字 5 文字がちょうどよく、それ以上の場合は、最初の 4 文字を切り取って「...」を追加するだけで問題ありません。中国語ですが、英語や数字を処理する場合、このインターセプトは短すぎます。

2 番目に、インターセプト関数を自分で作成しますが、効率は mbstring 拡張ライブラリを使用するほど高くありません。以下は、UTF-8 でエンコードされた文字列をインターセプトする ecshop の関数です。


例:


function sub_str($str, $length = 0, $append = true)
{
    $str = trim($str);
    $strlength = strlen($str);
 
    if ($length == 0 || $length >= $strlength)
    {
        return $str;  //截取长度等于0或大于等于本字符串的长度,返回字符串本身
    }
    elseif ($length < 0)  //如果截取长度为负数
    {
        $length = $strlength + $length;//那么截取长度就等于字符串长度减去截取长度
        if ($length < 0)
        {
            $length = $strlength;//如果截取长度的绝对值大于字符串本身长度,则截取长度取字符串本身的长度
        }
    }
 
    if (function_exists('mb_substr'))
    {
        $newstr = mb_substr($str, 0, $length, EC_CHARSET);
    }
    elseif (function_exists('iconv_substr'))
    {
        $newstr = iconv_substr($str, 0, $length, EC_CHARSET);
    }
    else
    {
        //$newstr = trim_right(substr($str, 0, $length));
        $newstr = substr($str, 0, $length);
    }
 
    if ($append && $str != $newstr)
    {
        $newstr .= '...';
    }
 
    return $newstr;
}

上記は、PHP substr で文字列をインターセプトするときに発生する中国語文字化けの問題の解決策を、関連する内容も含めて紹介しました。PHP チュートリアルに興味のある友人の役に立てば幸いです。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。