ホームページ >バックエンド開発 >PHPチュートリアル >PHP 文字列エンコードの問題の分析
次に: mb_substr ( string $str , int $start [, int $length [, string $encoding ]] ) mb_substr を自分で実装する場合、効率はあまり良くありません。 エンコード関連のPHP関数の使用法 ord(substr($str, $i, 1)) > 0xa0) ord($string) は、文字列の最初の文字の ASC コードを返します。これは、インターセプトされた文字列の最初の文字が中国語かどうかを判断するために使用できます。たとえば、gb2312 でエンコードされたテキストは 2 バイトであるためです。 utf8 は 3 文字です。つまり、256 を超えるコードはすべて漢字です。 通常のキャラクター:
エンコーディング変換
URL エンコード urlencode エンコード後に返される文字列内の -_ を除くすべての非英数字は、パーセント記号 (%) とその後に続く 2 つの 16 進数に置き換えられ、スペースはプラス記号 (+) としてエンコードされます。このエンコーディングは、WWW フォーム POST データのエンコーディングと同じであり、application/x-www-form-urlencoded メディア タイプと同じエンコーディングです。 注: エンコード時には URL の一部のみをエンコードする必要があります。そうでない場合は、URL 内のコロンとバックスラッシュもエスケープされます。 URLEncode には一般的に 2 つの方式があり、1 つは GB2312 に基づいた従来の Encode で、もう 1 つは UTF-8 に基づいた Encode です。 例えば:
たとえば、ブラウザを使用して Baidu を開き、アドレス バーに「中国」を検索します。 http://www.baidu.com/s?wd=%E4%B8%AD%E5%9B%BD&rsv_bp=0&ch=&tn=baidu&bar=&rsv_spt=3&ie=utf-8&rsv_sug3=16&rsv_sug=0&rsv_sug4=302&rsv_sug1=11&inputT=22928 つまり、「中国」はブラウザによって自動的に %E4%B8%AD%E5%9B%BD に変換されることがわかります。 urlencode と rawurlencode の違い: urlencode はスペースをプラス記号 "+" としてエンコードし、rawurlencode はスペースをプラス記号 "%20" としてエンコードします。 URLデコードurldecodeとrawurldecode 1. デコードするときは、対応する urldecode() と rawurldecode() を使用できます。同様に、rawurldecode() はプラス記号 ('+') をスペースにデコードできません。 2. urldecode() および rawurldecode() によってデコードされた文字列は UTF-8 形式でエンコードされます。URL に UTF-8 以外でエンコードされた中国語が含まれている場合は、デコードされた文字列を変換する必要があります。 以下のように、まずphpファイルをgb2312エンコーディングに設定します。一部は文字化けしており、一部は正常であることがわかります。
|