ホームページ >よくある問題 >UTF8 エンコードでは中国語の文字は何バイトを占めますか?

UTF8 エンコードでは中国語の文字は何バイトを占めますか?

醉折花枝作酒筹
醉折花枝作酒筹オリジナル
2021-05-21 16:47:5229024ブラウズ

UTF-8 エンコードでは、1 つの中国語文字は 3 バイトに相当し、1 つの中国語の句読点は 3 バイトを占め、1 つの英語文字は 1 バイトに相当し、1 つの英語の句読点は 1 バイトを占め、1 つの数字記号は 1 バイトに相当します。 1バイト。

UTF8 エンコードでは中国語の文字は何バイトを占めますか?

#この記事の動作環境: Windows 10 システム、DELL G3 コンピューター。

UTF-8 エンコードでは、1 つの中国語文字は 3 バイトに相当し、中国語の句読点は 3 バイトを占めます。

英語の 1 文字は 1 バイトに相当し、英語の句読点は 1 バイトを占めます。

Unicode エンコード: 1 つの英語コードは 2 バイトに相当し、1 つの中国語文字 (繁体字中国語を含む) は 2 バイトに相当します。中国語の句読点は 2 バイトを占め、英語の句読点は 2 バイトを占めます。

拡張情報:

UTF-8 は、各文字をエンコードするために 1 ~ 4 バイトを使用します:

1. US-ASCIl 文字は 1 つだけ必要です 1 つ必要ですバイトエンコーディング (Unicode 範囲は U 0000 ~ U 007F)。

2. ラテン語、ギリシャ語、キリル文字、アルメニア語、ヘブライ語、アラビア語、シリア語、および発音区別符号が付いたその他の文字には 2 バイトのエンコードが必要です (Unicode 範囲は U 0080 ~ U 07FF で表されます)。

3. 他の言語の文字 (中国語、日本語、韓国語の文字、東南アジアの文字、中東の文字など) には、最も一般的に使用される文字が含まれており、3 バイトのエンコーディングが使用されます。

4. まれに使用されるその他の言語文字は 4 バイト エンコードを使用します。

コンピュータ関連の知識について詳しくは、

FAQ 列をご覧ください。

以上がUTF8 エンコードでは中国語の文字は何バイトを占めますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。