ホームページ  >  記事  >  バックエンド開発  >  PHP 文字列エンコードの問題の詳細な説明

PHP 文字列エンコードの問題の詳細な説明

小云云
小云云オリジナル
2018-03-22 15:42:391821ブラウズ

文字エンコーディングが異なると、メモリ内で占有するバイト数が異なることは誰もが知っています。たとえば、ASCII エンコードされた文字は 1 バイト、UTF-8 でエンコードされた中国語文字は 3 バイト、GBK は 2 バイトを占めます。 PHP にはいくつかの文字列インターセプト関数も付属しており、その中で、substr と mb_substr がよく使用されます。

substr を使用して漢字をインターセプトすると文字化けが発生します。これは、substr がバイトによってインターセプトされるためです。つまり、UTF-8 でエンコードされた中国語は、substr を使用してインターセプトしても、中国語の 1/3 しかインターセプトされず、当然文字化けが発生します。

mb_substr ( string $str , int $start [, int $length [, string $encoding ]] ) パラメータ $encoding は、省略した場合、内部文字エンコーディングが使用されます。

文字列のエンコード形式がわからない場合は、mb_detect_encoding を使用して確認できます:

$encoding = mb_detect_encoding($string, array("ASCII",'UTF-8',"GB2312',"GBK) ",'BIG5' ); この関数は

ord(substr($str, $i, 1)) > 0xa0)

ord($string) を使用して、文字列の最初の文字の ASC コードを返します。たとえば、gb2312 でエンコードされたテキストは 2 バイトで、utf8 は 3 バイトであるため、インターセプトされた文字列の最初の文字を決定するために使用されます。これは中国語の文字です。

通常の文字:

中国語の文字と一致する: preg_match_all('/[x80-xff ]?./', $string, $match);

英語と一致する: preg_match_all("/[/x01) -/x7f]+/", $string, $match);

エンコーディング変換

iconv ( string $ in_charset , string $out_charset , string $str )

GB2312 から UTF-8 など: iconv("GB2312" ,"UTF-8",$text)

url エンコードの urlencode

エンコード後に返される文字列。ただし、_ を除くすべての非英数字はパーセント記号 (%) とそれに続く 2 つの 16 進数に置き換えられます。プラス記号 (+) でエンコードされます。このエンコードは次と同じです。 WWWフォームのPOSTデータのエンコード方法は同じであり、application/x-www-form-urlencodedのメディアタイプのエンコード方法も同じです。

ただし、エンコード時に URL の一部のみをエンコードする必要があることに注意してください。エンコードしないと、URL 内のコロンとバックスラッシュもエスケープされます。

URLEncode には一般に 2 つの方法があり、1 つは GB2312 に基づいた従来の Encode で、もう 1 つは UTF-8 に基づいた Encode です。例:

$url = '中国';
echo urlencode($url );
//UTF-8: %E4%B8%AD%E5%9B%BD
//GB2312:%D6%D0%B9%FA

たとえば、ブラウザを使用して Baidu を開き、アドレス バーに「中国」を検索すると、次のように表示されます:

http://www.baidu.com/s?wd=%E4% B8%AD%E5%9B %BD&rsv_bp=0&ch=&tn=baidu&bar=&rsv_spt=3&ie=utf-8&rsv_sug3=16&rsv_sug=0&rsv_sug4=302&rsv_sug1=11&inputT=22928

つまり、「中国」がブラウザによって自動的に変換されていることがわかります。から: %E4%B8%AD%E5 %9B%BD。

urlencode と rawurlencode の違い: urlencode はスペースをプラス記号「+」としてエンコードし、rawurlencode はスペースをプラス記号「%20」としてエンコードします。

URL デコード urldecode と rawurldecode

1. デコードするときは、対応するものを使用できます。 したがって、urldecode() と rawurldecode() は、正符号 ('+') をスペースにデコードしませんが、urldecode() はデコードします。

2. urldecode() および rawurldecode() によってデコードされた文字列は UTF-8 形式でエンコードされます。URL に非 UTF-8 エンコードの中国語が含まれている場合は、デコードされた文字列を変換する必要があります。

以下のように、まずphpファイルをgb2312エンコードに設定します。一部は文字化けしており、一部は正常であることがわかります。

$url = '中国';
echo $a = urldecode(urlencode($url)) ,' ';
echo iconv('gb2312', 'utf-8', $a);

関連する推奨事項:

PHP文字列エンコード変換

PHP文字列エンコード問題分析

PHP正規判定文字列エンコード_PHPチュートリアル

以上がPHP 文字列エンコードの問題の詳細な説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。