Unicode 文字セットは 2 バイトを使用して文字を表します。 Unicode は、言語間およびプラットフォーム間でのテキスト変換および処理の要件を満たすために、各言語の各文字に統一された一意のバイナリ エンコーディングを設定します。2 バイト コーディングを使用して世界中のすべてのテキストを統一できます。
このチュートリアルの動作環境: Windows 7 システム、Dell G3 コンピューター。
Unicode 文字セットは 2 バイトを使用して文字を表します。
Unicode(ユニコード、ユニバーサルコード、Unicode)とは、コンピュータで使用される文字コードの一つです。各言語の各文字に統一された一意のバイナリ エンコーディングを設定し、言語間およびプラットフォーム間のテキスト変換と処理の要件を満たします。
さまざまなテキストエンコーディングが各地の方言であるとすれば、Unicode は世界中の国々が協力して開発した言語です。
この言語環境では、言語エンコーディングの競合がなくなり、どの言語のコンテンツも同じ画面に表示できるようになります。これが Unicode の最大の利点です。これは、世界中のすべてのテキストが 2 バイトを使用して一律にエンコードされることを意味します。このように、このように統一されたエンコーディングを使用すると、世界中のすべての言語のほとんどのテキストを 2 バイトで十分に収容できます。
Unicode の学名は「Universal Multiple-Octet Coded Character Set」で、UCS と呼ばれます。
初期の Unicode 標準は、UCS-2 および UCS-4 と呼ばれていました。 UCS-2 は 2 バイトでエンコードされ、UCS-4 は 4 バイトでエンコードされます。現在使用されているのは 2 バイトのエンコードである UCS-2 ですが、将来的に 2 バイトが不足しないようにするために開発されたのが UCS-4 です。
UCS-4 は、最上位ビットに応じて 2^7=128 のグループに分割され、最上位ビットは 0 になります。各グループは、次に高いバイトに従って 256 プレーンに分割されます。各プレーンは 3 番目のバイトに従って 256 行に分割され、各行には 256 個のコード ポイント (セル) があります。グループ0のプレーン0はBMP(Basic Multilingual Plane)と呼ばれる。 UCS-2 は、UCS-4 の BMP の最初の 2 つのゼロ バイトを削除することによって取得されます。
さらに関連する知識については、FAQ 列をご覧ください。
以上がUnicode 文字セットは、文字を表すために複数のバイトを使用します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。