utf8 でエンコードされた中国語の文字は 3 バイトを占めます。 UTF-8 エンコードでは、1 つの中国語文字は 3 バイトに相当し、1 つの中国語の句読点は 3 バイトを占めますが、Unicode エンコードでは、1 つの中国語文字 (繁体字中国語を含む) は 2 バイトに相当します。 UTF-8 は各文字のエンコードに 1 ~ 4 バイトを使用します。1 つの US-ASCIl 文字のエンコードには 1 バイトのみが必要です。ラテン語、ギリシャ語、キリル文字、アルメニア語、および発音区別符号付きのヘブライ語。アラビア語、シリア語およびその他の文字は 2 バイトが必要です。エンコーディング。
このチュートリアルの動作環境: Windows 7 システム、Dell G3 コンピューター。
utf-8 でエンコードされた中国語の文字は何バイトを占めますか?
UTF-8 エンコードでは、1 つの中国語文字は 3 バイトに相当し、中国語の句読点は 3 バイトを占めます。
英語の 1 文字は 1 バイトに相当し、英語の句読点は 1 バイトを占めます。
Unicode エンコード: 1 つの英語コードは 2 バイトに相当し、1 つの中国語文字 (繁体字中国語を含む) は 2 バイトに相当します。中国語の句読点は 2 バイトを占め、英語の句読点は 2 バイトを占めます。
UTF-8 は、各文字のエンコードに 1 ~ 4 バイトを使用します:
1. 1 つの US-ASCIl 文字は 1 バイトのエンコードのみが必要です (Unicode 範囲はU 0000〜U 007F)。
2. ラテン語、ギリシャ語、キリル文字、アルメニア語、ヘブライ語、アラビア語、シリア語、および発音区別符号が付いたその他の文字には 2 バイトのエンコードが必要です (Unicode 範囲は U 0080 ~ U 07FF で表されます)。
3. 他の言語の文字 (中国語、日本語、韓国語の文字、東南アジアの文字、中東の文字など) には、最も一般的に使用される文字が含まれており、3 バイトのエンコーディングが使用されます。
4. まれに使用されるその他の言語文字は 4 バイト エンコードを使用します。
拡張知識:
UTF-8 (8 ビット、ユニバーサル文字セット/Unicode 変換形式) は、Unicode の可変長文字エンコーディングです。 Unicode 標準の任意の文字を表すために使用でき、そのエンコードの最初のバイトは依然として ASCII と互換性があるため、ASCII 文字を処理する元のソフトウェアは、変更なし、またはわずかな変更のみで引き続き使用できます。したがって、電子メール、Web ページ、およびテキストを保存または送信するその他のアプリケーションでは、このエンコーディングが徐々に推奨されるようになりました。
文字セット:
UTF-8 エンコード規則: 1 バイトのみの場合、値は 0x00 ~ 0x7F です。残りのバイトは、長さに応じて次のように展開されます。
UTF-8 は、UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4 という 4 つのエンコード方式で実装されます。その中には:
##UTF8-1 | 0x00- 0x7F |
0xC2-0xDF | 0x80-0xBF |
0xE0 | 0xA0-0xBF 0x80-0xBF
0xE1- 0xEC 0x80-0xBF 0x80-0xBF
0xED 0x80-0x9F 0x80-0xBF
0xEE-0xEF 0x80-0xBF 0x80-0xBF |
0xF0 | 0x90-0xBF 0x80-0xBF 0x80 -0xBF0xF1-0xF3 0x80-0xBF 0x80-0xBF 0x80-0xBF0xF4 0x80- 0x8F 0x80-0xBF 0x80-0xBF
|
FAQ
列をご覧ください。以上がutf8 でエンコードされた中国語の文字は何バイトを占めますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。