Heim  >  Artikel  >  Welchen Umfang hat die GBK-Codierung?

Welchen Umfang hat die GBK-Codierung?

青灯夜游
青灯夜游Original
2019-06-12 16:04:4119391Durchsuche

GBK-Kodierung ist eine Erweiterung der GB2312-Kodierung und daher vollständig kompatibel mit dem GB2312-80-Standard. Die GBK-Kodierung verwendet immer noch ein Doppelbyte-Kodierungsschema und ihr Kodierungsbereich ist: 8140-FEFE (hohes Byte von 81 bis FE, niedriges Byte von 40 bis FE), ohne den xx7F-Codepunkt, insgesamt 23940 Codepunkte.

Welchen Umfang hat die GBK-Codierung?

Die GBK-Kodierung enthält insgesamt 21.886 chinesische Schriftzeichen und grafische Symbole, darunter 21.003 chinesische Schriftzeichen (einschließlich Radikale und Komponenten) und 883 grafische Symbole. Die GBK-Kodierung unterstützt alle chinesischen, japanischen und koreanischen chinesischen Zeichen im internationalen Standard ISO/IEC10646-1 und im nationalen Standard GB13000-1 und umfasst alle chinesischen Zeichen in der BIG5-Kodierung. Das GBK-Codierungsschema wurde am 15. Dezember 1995 offiziell veröffentlicht. Diese Version der GBK-Spezifikation ist Version 1.0.

1. Codepunktzuordnung und -sequenz

GBK verwendet auch die Doppelbyte-Darstellung und der Gesamtcodierungsbereich beträgt 8140- FEFE. Das erste Byte liegt zwischen 81-FE, das letzte Byte liegt zwischen 40-FE und eine Zeile von xx7F ist ausgeschlossen. Es gibt insgesamt 23.940 Codepunkte und insgesamt sind 21.886 chinesische Schriftzeichen und Grafiksymbole enthalten, darunter 21.003 chinesische Schriftzeichen (einschließlich Radikale und Komponenten) und 883 Grafiksymbole.

Die gesamte Codierung ist in drei Teile unterteilt:

1.

Enthält:

a. Das ist GBK/2: B0A1-F7FE. Enthält 6763 GB 2312 chinesische Schriftzeichen, in Originalreihenfolge angeordnet.

b. GB 13000.1 Erweitern Sie den Bereich für chinesische Schriftzeichen. Beinhaltet:

(1), GBK/3: 8140-A0FE. Enthält 6080 chinesische CJK-Schriftzeichen in GB 13000.1.

(2) , GBK/4: AA40-FEA0. Enthält 8160 chinesische CJK-Schriftzeichen und ergänzte chinesische Schriftzeichen. Die chinesischen CJK-Schriftzeichen stehen vorne und sind nach der Größe des UCS-Codes angeordnet. Zusätzliche chinesische Schriftzeichen (einschließlich Radikale und Komponenten) stehen am Ende und sind nach der Seitenzahl/Zeichenposition des „Kangxi-Wörterbuchs“ geordnet.

(3) Das chinesische Schriftzeichen „〇“ ist im Grafiksymbolbereich GBK/5: A996 angeordnet.

2. Grafischer Symbolbereich.

umfasst:

a. Das ist GBK/1: A1A1-A9FE. Zusätzlich zu den Symbolen von GB 2312 gibt es 10 kleine römische Ziffern und Symbole, ergänzt durch GB 12345. Insgesamt gibt es 717 Symbole.

b. GB 13000.1 Erweitern Sie den Bereich für nicht-chinesische Zeichen. Das ist GBK/5: A840-A9A0. BIG-5 Nicht-chinesische Zeichensymbole, Struktursymbole und „〇“ sind in diesem Bereich angeordnet. Insgesamt gibt es 166 Symbole.

3. Benutzerdefinierter Bereich:

ist in drei Bereiche unterteilt (1) (2) (3).

(1), AAA1-AFFE, 564 Codepunkte.

(2), F8A1-FEFE, 658 Codepunkte.

(3), A140-A7A0, 672 Codepunkte.

Der Bereich (3) ist zwar für Benutzer zugänglich, seine Nutzung ist jedoch eingeschränkt, da nicht ausgeschlossen werden kann, dass diesem Bereich in Zukunft neue Charaktere hinzugefügt werden.

2. Glyphen

GBK hat die folgenden Bestimmungen für Glyphen:

1 GB 13000.1 G Die Glyphen/Striche unter den Spalten (d. h. chinesische Schriftzeichen, die von den rechtlichen Standards des chinesischen Festlandes abgeleitet sind) bleiben konsistent.

2. Implementieren Sie im Rahmen der CJK-Regeln zur Erkennung chinesischer Zeichen eine „nicht duplizierte Code-Orthographie“ („GB-isierung“) für alle GBK-codierten chinesischen Zeichen so viel wie möglich, ohne dass es zu Duplikaten von Codes kommt.

3. Für chinesische Schriftzeichen, die über die CJK-Erkennungsregeln für chinesische Schriftzeichen hinausgehen oder deren Erkennungsregeln nicht klar festgelegt wurden, werden die alten Glyphen vorübergehend in den GBK-Codepunkten platziert. Auf diese Weise enthält GBK in vielen Fällen sowohl alte als auch neue Glyphen desselben chinesischen Schriftzeichens.

4. Die Glyphen nicht-chinesischer Symbole, die bereits in GB 2312 enthalten sind, müssen mit GB 2312 übereinstimmen.

5. Pinyin-Buchstaben mit Tönen sind in halber Breite.

Das obige ist der detaillierte Inhalt vonWelchen Umfang hat die GBK-Codierung?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn