ホームページ  >  記事  >  ウェブフロントエンド  >  ユニコードとは何ですか

ユニコードとは何ですか

清浅
清浅オリジナル
2019-01-26 10:56:1439230ブラウズ

Unicode は、言語間およびプラットフォーム間のテキスト変換と処理要件を達成するために、各言語の各文字に統一された一意のバイナリ エンコーディングを設定する文字エンコーディング スキームです

#Unicode の意味

Unicode は、プラットフォーム、プログラム、言語に関係なく、各文字に一意の番号を提供します。 1994 年に正式に発表され、文字セットやエンコーディング スキームなどを含むコンピュータ分野の業界標準です。 Unicode は、従来の文字エンコーディング スキームの制限を解決するために作成され、言語間およびプラットフォーム間のテキスト変換と処理の要件を達成するために、各言語の各文字に統一された一意のバイナリ エンコーディングを設定します。

ユニコードとは何ですか

Unicode エンコーディングの開発

コンピュータを設計する場合、1 バイトとして 8 ビットが使用されるため、1 バイトで表現できます。初期の頃、英語を使用していた西欧諸国では、1 バイトに大文字と小文字の英字、数学、一部の記号を格納できたため、1 バイトをコード テーブル (ASCII) の作成に使用していました。その後、コンピューターが他の国にも普及し、多くの国が中国語、日本語、韓国語などの独自の言語を使用しました。この問題を解決するために、各国が独自のコード表を策定しました。 1980 年に GB2312 を策定 中国語の文字エンコード文字セットでは、英語よりもはるかに多くの漢字が存在するため、1 バイトでは明らかに不十分であるため、2 バイトがエンコードに使用されます。ただし、さまざまな国で定義されている文字エンコーディングを使用することはできますが、国間では互換性がないことがよくあります。コンピューターが複数の言語環境 (中国語または他の言語を使用) を処理したい場合、複数の言語環境を同時にサポートできない場合があります。すべてのテキストのエンコードを統一するために、文字化けが起こらないよう、すべての言語を 1 つのエンコードに統一する Unicode が作成されました。

ユニコードとは何ですか

Unicode エンコード表現

Unicode 文字を表すときは、通常、U の後に一連の 16 進数が続きます。文字を表します。 U 0000 から U FFFF までのエンコードで、合計 60,000 を超える文字をサポートします。BMP

以外の文字は 5 桁または 6 桁の 16 進数を使用して表現する必要があります。

現在、Unicode 文字は 0x0000 から 0x10FFFF までの 17 のグループに分割されており、各グループは 65536 個のコード ポイントを持ち、合計 1114112 個あります。

Unicode はテーブルに似ており、各文字はコード ポイントと呼ばれる番号に対応します。この番号は通常は直接使用されません。異なるエンコード方式を使用する


UTF-8、UTF-16、および UTF-32 は、数値をプログラム データに変換するためのエンコード スキームです。 UTFとは「UnicodeTransformation Format」の略で、ユニコードとは何ですか

Unicode文字セット変換形式、つまりUnicodeで定義された数値をプログラムデータに変換する方法

に翻訳できます。

##10 進数 #Unicode エンコード0 ~ 127 ビット0x000000-0x00007F0xxxxxxx(7 桁)0x000080- 0x0007FF2048-65535 桁0x000800-0x00FFFF1110xxxx 10xxxxxx 10xxxxxx (16 桁) )#65536-1114111 ビット##11110xxx 10xxxxxx 10xxxxxx 10xxxxxx(21 ビット)

UTF-8 バイト ストリーム

128-2047 桁
110xxxxx 10xxxxxx (11 桁)

0x010000-0x10FFFF

以上がユニコードとは何ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。