ホームページ  >  記事  >  Unicode 文字セットは、文字を表すために複数のバイトを使用します。

Unicode 文字セットは、文字を表すために複数のバイトを使用します。

青灯夜游
青灯夜游オリジナル
2021-05-07 16:43:2614168ブラウズ

Unicode 文字セットは 2 バイトを使用して文字を表します。 Unicode は、言語間およびプラットフォーム間でのテキスト変換および処理の要件を満たすために、各言語の各文字に統一された一意のバイナリ エンコーディングを設定します。2 バイト コーディングを使用して世界中のすべてのテキストを統一できます。

Unicode 文字セットは、文字を表すために複数のバイトを使用します。

このチュートリアルの動作環境: Windows 7 システム、Dell G3 コンピューター。

Unicode 文字セットは 2 バイトを使用して文字を表します。

Unicode(ユニコード、ユニバーサルコード、Unicode)とは、コンピュータで使用される文字コードの一つです。各言語の各文字に統一された一意のバイナリ エンコーディングを設定し、言語間およびプラットフォーム間のテキスト変換と処理の要件を満たします。

さまざまなテキストエンコーディングが各地の方言であるとすれば、Unicode は世界中の国々が協力して開発した言語です。

この言語環境では、言語エンコーディングの競合がなくなり、どの言語のコンテンツも同じ画面に表示できるようになります。これが Unicode の最大の利点です。これは、世界中のすべてのテキストが 2 バイトを使用して一律にエンコードされることを意味します。このように、このように統一されたエンコーディングを使用すると、世界中のすべての言語のほとんどのテキストを 2 バイトで十分に収容できます。

Unicode の学名は「Universal Multiple-Octet Coded Character Set」で、UCS と呼ばれます。

初期の Unicode 標準は、UCS-2 および UCS-4 と呼ばれていました。 UCS-2 は 2 バイトでエンコードされ、UCS-4 は 4 バイトでエンコードされます。現在使用されているのは 2 バイトのエンコードである UCS-2 ですが、将来的に 2 バイトが不足しないようにするために開発されたのが UCS-4 です。

UCS-4 は、最上位ビットに応じて 2^7=128 のグループに分割され、最上位ビットは 0 になります。各グループは、次に高いバイトに従って 256 プレーンに分割されます。各プレーンは 3 番目のバイトに従って 256 行に分割され、各行には 256 個のコード ポイント (セル) があります。グループ0のプレーン0はBMP(Basic Multilingual Plane)と呼ばれる。 UCS-2 は、UCS-4 の BMP の最初の 2 つのゼロ バイトを削除することによって取得されます。

さらに関連する知識については、FAQ 列をご覧ください。

以上がUnicode 文字セットは、文字を表すために複数のバイトを使用します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。