>일반적인 문제 >gbk 인코딩 범위는 어떻게 되나요?

gbk 인코딩 범위는 어떻게 되나요?

青灯夜游
青灯夜游원래의
2019-06-12 16:04:4119548검색

GBK 인코딩은 GB2312 인코딩의 확장이므로 GB2312-80 표준과 완벽하게 호환됩니다. GBK 인코딩은 여전히 ​​2바이트 인코딩 방식을 사용하며 인코딩 범위는 8140-FEFE(81에서 FE까지의 상위 바이트, 40에서 FE까지의 하위 바이트)이며, xx7F 코드 포인트를 제외하면 총 23940개의 코드 포인트입니다.

gbk 인코딩 범위는 어떻게 되나요?

GBK 인코딩에는 21,003개의 한자(부수 및 구성 요소 포함)와 883개의 그래픽 기호를 포함하여 총 21,886개의 한자와 그래픽 기호가 포함되어 있습니다. GBK 인코딩은 국제 표준 ISO/IEC10646-1 및 국가 표준 GB13000-1의 모든 중국어, 일본어 및 한국어 중국어 문자를 지원하며 BIG5 인코딩의 모든 중국어 문자를 포함합니다. GBK 인코딩 체계는 1995년 12월 15일에 공식적으로 출시되었습니다. 이 GBK 사양 버전은 버전 1.0입니다.

1. 코드 포인트 할당 및 순서

GBK도 더블 바이트 표현을 사용하며 전체 코딩 범위는 8140-FEFE, 첫 번째 바이트는 81-FE, 마지막 바이트는 40-FE입니다. FE 시간, xx7F 라인을 제거합니다. 총 23,940개의 코드포인트가 있으며, 한자(부수 및 구성요소 포함) 21,003개와 그래픽 기호 883개를 포함하여 총 21,886개의 한자와 그래픽 기호가 포함되어 있습니다.

모든 코딩은 세 부분으로 나뉩니다:

1.

포함:

a. GB 2312 한자 영역. GBK/2: B0A1-F7FE입니다. 원래 순서대로 정렬된 6763GB 2312개의 한자가 포함되어 있습니다.

b. GB 13000.1 한자 영역이 확장되었습니다. 포함:

 (1), GBK/3: 8140-A0FE. GB 13000.1에는 6080개의 CJK 중국어 문자가 포함되어 있습니다.

 (2) , GBK/4: AA40-FEA0. 8160개의 CJK 한자와 보충 한자가 포함되어 있습니다. CJK 한자는 앞에 UCS 코드 크기에 따라 배열되고 보조 한자(부수 및 구성 요소 포함)는 끝에 "강희사전"의 페이지 번호/문자 위치에 따라 배열됩니다.

 (3) 그래픽 기호 영역 GBK/5: A996에는 한자 "〇"가 배열되어 있습니다.

2. 그래픽 기호 영역.

포함:

a. GB 2312 비한자 기호 영역. GBK/1: A1A1-A9FE입니다. GB 2312의 기호 외에 10개의 소문자 로마 숫자와 GB 12345로 보충된 기호가 있습니다. 총 717개의 기호가 있습니다.

b. GB 13000.1 한자가 아닌 문자 영역을 확장합니다. GBK/5: A840-A9A0입니다. BIG-5 비한자 기호, 구조 기호 및 "〇"가 이 영역에 배열됩니다. 총 166개의 기호가 있습니다.

3. 사용자 정의 영역:

은 (1) (2) (3)의 세 영역으로 구분됩니다.

(1), AAA1-AFFE, 564 코드 포인트.

(2), F8A1-FEFE, 658 코드 포인트.

(3), A140-A7A0, 672 코드 포인트.

(3) 영역은 사용자에게 개방되어 있지만 향후 이 영역에 새로운 캐릭터가 추가될 가능성도 배제할 수 없기 때문에 사용이 제한됩니다.

2. 글리프

GBK는 글리프에 대해 다음과 같은 규정을 두고 있습니다.

1 원칙적으로 GB 13000.1 G열의 글리프/획과 일치합니다(예: 중국 본토의 법적 표준에서 유래한 한자). ).

2. CJK 중국어 문자 인식 규칙의 일반적인 틀 내에서 GBK로 인코딩된 모든 중국어 문자는 "코드 중복 없이 준수"("GB-ization")되어야 합니다. 즉, 중복을 일으키지 않고 새로운 중국어 글꼴을 사용하도록 노력해야 합니다. 코드.

3. CJK 한자 인식 규칙을 초과하거나 인식 규칙이 명확하게 규정되지 않은 한자의 경우 이전 글리프가 일시적으로 GBK 코드 포인트에 배치됩니다. 이러한 방식으로 GBK에는 동일한 한자의 이전 문자와 새 문자가 모두 포함되는 경우가 많습니다.

4. 이미 GB 2312에 포함된 비중국어 기호의 문자 모양은 GB 2312와 일치해야 하며 GB 2312 이외의 부분은 GB 13000.1과 일치해야 합니다.

5. 성조가 있는 병음 문자는 반각 형식입니다.

위 내용은 gbk 인코딩 범위는 어떻게 되나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.