文字エンコーディングが異なると、メモリ内で占有するバイト数が異なることは誰もが知っています。たとえば、ASCII エンコードされた文字は 1 バイト、UTF-8 でエンコードされた中国語文字は 3 バイト、GBK は 2 バイトを占めます。 PHP にはいくつかの文字列インターセプト関数も付属しており、その中で、substr と mb_substr がよく使用されます。
substr を使用して漢字をインターセプトすると文字化けが発生します。これは、substr がバイトによってインターセプトされるためです。つまり、UTF-8 でエンコードされた中国語は、substr を使用してインターセプトしても、中国語の 1/3 しかインターセプトされず、当然文字化けが発生します。
mb_substr ( string $str , int $start [, int $length [, string $encoding ]] ) パラメータ $encoding は、省略した場合、内部文字エンコーディングが使用されます。
文字列のエンコード形式がわからない場合は、mb_detect_encoding を使用して確認できます:
$encoding = mb_detect_encoding($string, array("ASCII",'UTF-8',"GB2312',"GBK) ",'BIG5' ); この関数は
ord(substr($str, $i, 1)) > 0xa0)
ord($string) を使用して、文字列の最初の文字の ASC コードを返します。たとえば、gb2312 でエンコードされたテキストは 2 バイトで、utf8 は 3 バイトであるため、インターセプトされた文字列の最初の文字を決定するために使用されます。これは中国語の文字です。
通常の文字:
中国語の文字と一致する: preg_match_all('/[x80-xff ]?./', $string, $match);
英語と一致する: preg_match_all("/[/x01) -/x7f]+/", $string, $match);
エンコーディング変換
iconv ( string $ in_charset , string $out_charset , string $str )
GB2312 から UTF-8 など: iconv("GB2312" ,"UTF-8",$text)
url エンコードの urlencode
エンコード後に返される文字列。ただし、_ を除くすべての非英数字はパーセント記号 (%) とそれに続く 2 つの 16 進数に置き換えられます。プラス記号 (+) でエンコードされます。このエンコードは次と同じです。 WWWフォームのPOSTデータのエンコード方法は同じであり、application/x-www-form-urlencodedのメディアタイプのエンコード方法も同じです。
ただし、エンコード時に URL の一部のみをエンコードする必要があることに注意してください。エンコードしないと、URL 内のコロンとバックスラッシュもエスケープされます。
URLEncode には一般に 2 つの方法があり、1 つは GB2312 に基づいた従来の Encode で、もう 1 つは UTF-8 に基づいた Encode です。例:
$url = '中国'; echo urlencode($url ); //UTF-8: %E4%B8%AD%E5%9B%BD //GB2312:%D6%D0%B9%FA
たとえば、ブラウザを使用して Baidu を開き、アドレス バーに「中国」を検索すると、次のように表示されます:
http://www.baidu.com/s?wd=%E4% B8%AD%E5%9B %BD&rsv_bp=0&ch=&tn=baidu&bar=&rsv_spt=3&ie=utf-8&rsv_sug3=16&rsv_sug=0&rsv_sug4=302&rsv_sug1=11&inputT=22928
つまり、「中国」がブラウザによって自動的に変換されていることがわかります。から: %E4%B8%AD%E5 %9B%BD。
urlencode と rawurlencode の違い: urlencode はスペースをプラス記号「+」としてエンコードし、rawurlencode はスペースをプラス記号「%20」としてエンコードします。
URL デコード urldecode と rawurldecode
1. デコードするときは、対応するものを使用できます。 したがって、urldecode() と rawurldecode() は、正符号 ('+') をスペースにデコードしませんが、urldecode() はデコードします。
2. urldecode() および rawurldecode() によってデコードされた文字列は UTF-8 形式でエンコードされます。URL に非 UTF-8 エンコードの中国語が含まれている場合は、デコードされた文字列を変換する必要があります。
以下のように、まずphpファイルをgb2312エンコードに設定します。一部は文字化けしており、一部は正常であることがわかります。
$url = '中国'; echo $a = urldecode(urlencode($url)) ,' '; echo iconv('gb2312', 'utf-8', $a);
関連する推奨事項:
PHP文字列エンコード変換 PHP文字列エンコード問題分析以上がPHP 文字列エンコードの問題の詳細な説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。