utf8 でエンコードされた中国語の文字は何バイトを占めますか?-よくある問題-php.cn

ホームページ

よくある問題

utf8 でエンコードされた中国語の文字は何バイトを占めますか?

青灯夜游

Feb 21, 2023 am 11:40 AM

コーディングバイトutf8

utf8 でエンコードされた中国語の文字は 3 バイトを占めます。 UTF-8 エンコードでは、1 つの中国語文字は 3 バイトに相当し、1 つの中国語の句読点は 3 バイトを占めますが、Unicode エンコードでは、1 つの中国語文字 (繁体字中国語を含む) は 2 バイトに相当します。 UTF-8 は各文字のエンコードに 1 ～ 4 バイトを使用します。1 つの US-ASCIl 文字のエンコードには 1 バイトのみが必要です。ラテン語、ギリシャ語、キリル文字、アルメニア語、および発音区別符号付きのヘブライ語。アラビア語、シリア語およびその他の文字は 2 バイトが必要です。エンコーディング。

utf8 でエンコードされた中国語の文字は何バイトを占めますか?

このチュートリアルの動作環境: Windows 7 システム、Dell G3 コンピューター。

utf-8 でエンコードされた中国語の文字は何バイトを占めますか?

UTF-8 エンコードでは、1 つの中国語文字は 3 バイトに相当し、中国語の句読点は 3 バイトを占めます。

英語の 1 文字は 1 バイトに相当し、英語の句読点は 1 バイトを占めます。

Unicode エンコード: 1 つの英語コードは 2 バイトに相当し、1 つの中国語文字 (繁体字中国語を含む) は 2 バイトに相当します。中国語の句読点は 2 バイトを占め、英語の句読点は 2 バイトを占めます。

utf8 でエンコードされた中国語の文字は何バイトを占めますか?

UTF-8 は、各文字のエンコードに 1 ～ 4 バイトを使用します:

1. 1 つの US-ASCIl 文字は 1 バイトのエンコードのみが必要です (Unicode 範囲はU 0000〜U 007F）。

2. ラテン語、ギリシャ語、キリル文字、アルメニア語、ヘブライ語、アラビア語、シリア語、および発音区別符号が付いたその他の文字には 2 バイトのエンコードが必要です (Unicode 範囲は U 0080 ～ U 07FF で表されます)。

3. 他の言語の文字 (中国語、日本語、韓国語の文字、東南アジアの文字、中東の文字など) には、最も一般的に使用される文字が含まれており、3 バイトのエンコーディングが使用されます。

4. まれに使用されるその他の言語文字は 4 バイトエンコードを使用します。

拡張知識:

UTF-8 (8 ビット、ユニバーサル文字セット/Unicode 変換形式) は、Unicode の可変長文字エンコーディングです。 Unicode 標準の任意の文字を表すために使用でき、そのエンコードの最初のバイトは依然として ASCII と互換性があるため、ASCII 文字を処理する元のソフトウェアは、変更なし、またはわずかな変更のみで引き続き使用できます。したがって、電子メール、Web ページ、およびテキストを保存または送信するその他のアプリケーションでは、このエンコーディングが徐々に推奨されるようになりました。

文字セット:

UTF-8 エンコード規則: 1 バイトのみの場合、値は 0x00 ～ 0x7F です。残りのバイトは、長さに応じて次のように展開されます。

UTF-8 は、UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4 という 4 つのエンコード方式で実装されます。その中には:

UTF8-20xC2-0xDF #UTF8-30xA0-0xBFUTF8-40x90-0xBF注: 各エンコードには複数のエンコード範囲があり、各エンコード範囲のスペースがそれぞれの区切り文字として使用される場合があります。バイト。たとえば、UTF8-3 の最初のエンコードでは、最初のバイトの値が 0xE0、2 番目のバイトの範囲が 0xA0 ～ 0xBF、3 番目のバイトの範囲が 0x80 ～ 0xBF である必要があります。

UTF8、16 進エンコーディングテーブル
##UTF8-1	0x00- 0x7F
	0x80-0xBF
0xE0	0x80-0xBF 0xE1- 0xEC 0x80-0xBF 0x80-0xBF 0xED 0x80-0x9F 0x80-0xBF 0xEE-0xEF 0x80-0xBF 0x80-0xBF
0xF0	0x80-0xBF 0x80 -0xBF0xF1-0xF3 0x80-0xBF 0x80-0xBF 0x80-0xBF0xF4 0x80- 0x8F 0x80-0xBF 0x80-0xBF

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SublimeText3 中国語版

中国語版、とても使いやすい

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。