ホームページ  >  記事  >  gbkエンコードの範囲はどこまでですか?

gbkエンコードの範囲はどこまでですか?

青灯夜游
青灯夜游オリジナル
2019-06-12 16:04:4119394ブラウズ

GBK エンコーディングは GB2312 エンコーディングの拡張であるため、GB2312-80 標準と完全な互換性があります。 GBK エンコードでは依然として 2 バイト エンコード スキームが使用されており、そのエンコード範囲は 8140-FEFE (上位バイト 81 から FE、下位バイト 40 から FE) で、xx7F コード ポイントを除き、合計 23940 コード ポイントになります。

gbkエンコードの範囲はどこまでですか?

GBK エンコードには、21,003 個の漢字 (部首とコンポーネントを含む) と 883 個のグラフィック シンボルを含む、合計 21,886 個の漢字とグラフィック シンボルが含まれています。 GBK エンコードは、国際標準 ISO/IEC10646-1 および国家標準 GB13000-1 のすべての中国語、日本語、および韓国語の中国語文字をサポートし、BIG5 エンコードのすべての中国語文字を含みます。 GBK エンコード方式は、1995 年 12 月 15 日に正式にリリースされました。GBK 仕様のこのバージョンはバージョン 1.0 です。

1. コード ポイントの割り当てとシーケンス

GBK も 2 バイト表現を使用し、全体のコード範囲は 8140- です。 FEFE. 最初のバイトは 81 ~ FE の間、最後のバイトは 40 ~ FE の間にあり、xx7F の行は除外されます。合計 23,940 のコード ポイントがあり、21,003 の漢字 (部首と構成要素を含む) と 883 の図形記号を含む、合計 21,886 の漢字と図形記号が含まれています。

すべてのコードは 3 つの部分に分かれています:

1. 漢字領域。

内容:

a. GB 2312 漢字領域。それが GBK/2: B0A1-F7FE です。 6763 GB 2312 個の漢字がオリジナルの順序で配置されています。

b. GB 13000.1 漢字エリアを拡大します。含まれるもの:

(1)、GBK/3: 8140-A0FE。 GB 13000.1 に 6080 の CJK 漢字が含まれています。

(2)、GBK/4:AA40-FEA0。 8160 の CJK 漢字と補足漢字が含まれています。 CJK 漢字は UCS コード サイズに従って配置され、先頭に配置され、補助漢字 (部首およびコンポーネントを含む) は末尾にあり、『康煕字典』のページ番号/文字位置に従って配置されています。 #####(3)図記号領域GBK/5:A996に漢字「〇」を配置する。

2. グラフィック シンボル領域。

内容:

a. GB 2312 非漢字シンボル領域。それが GBK/1: A1A1 ~ A9FE です。 GB 2312 の記号に加えて、GB 12345 によって補足された 10 個の小文字のローマ数字と記号があります。シンボルは全部で 717 個あります。

b. GB 13000.1 非漢字領域を拡張します。それがGBK/5:A840-A9A0です。 BIG-5 漢字以外の文字記号、構造記号、「〇」が配置されています。シンボルは全部で 166 個あります。

3. ユーザー定義エリア:

は 3 つのエリア (1) (2) (3) に分かれています。

(1)、AAA1-AFFE、564 コード ポイント。

(2)、F8A1-FEFE、658 コード ポイント。

(3)、A140-A7A0、672 コード ポイント。

エリア(3)は公開しておりますが、今後新たなキャラクターが追加される可能性が否定できないため、利用を制限させていただきます。

2. グリフGBK にはグリフについて次の規定があります:

1. 原則として、次のとおりです。 GB 13000.1 G 列の下のグリフ/ストローク (つまり、中国本土の法的標準に由来する漢字) は一貫性を保ちます。

2. CJK 漢字認識規則の一般的な枠組み内で、すべての GBK コード化漢字に対して「非重複コーディング正書法」 (「GB 化」) を実装します。つまり、コーディングの重複を生じさせずに、中国語の新しいグリフを使用してみてください。

3. CJK 漢字認識ルールを超える漢字、または認識ルールが明確に規定されていない漢字については、古いグリフが GBK コード ポイントに一時的に配置されます。このように、多くの場合、GBK には同じ漢字の新旧両方のグリフが含まれています。

4. GB 2312 に既に含まれている非中国語記号のグリフは GB 2312 と一致するものとし、GB 2312 を超える部分は GB 13000.1 と一致するものとします。

5.声調付きのピンイン文字は半角です。

以上がgbkエンコードの範囲はどこまでですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。