>  기사  >  utf8로 인코딩된 중국어 문자는 몇 바이트를 차지합니까?

utf8로 인코딩된 중국어 문자는 몇 바이트를 차지합니까?

青灯夜游
青灯夜游원래의
2023-02-21 11:40:5216391검색

UTF8로 인코딩된 한자는 3바이트를 차지합니다. UTF-8 인코딩에서는 한자 1개가 3바이트이고, 중국어 구두점 1개가 3바이트를 차지하는 반면, 유니코드 인코딩에서는 한자 1개(중국어 번체 포함)가 2바이트에 해당합니다. UTF-8은 각 문자를 인코딩하는 데 1~4바이트를 사용합니다. 하나의 US-ASCIl 문자는 인코딩하는 데 1바이트만 필요합니다. 발음 구별 부호가 있는 라틴어, 그리스어, 아르메니아어 및 기타 문자는 2바이트가 필요합니다. 부호화.

utf8로 인코딩된 중국어 문자는 몇 바이트를 차지합니까?

이 튜토리얼의 운영 환경: Windows 7 시스템, Dell G3 컴퓨터.

UTF-8로 인코딩된 중국어 문자는 몇 바이트를 차지합니까?

UTF-8 인코딩에서 한자는 3바이트이고, 중국어 구두점은 3바이트를 차지합니다.

영문 문자 1개가 1바이트이고, 영문 구두점이 1바이트를 차지합니다.

유니코드 인코딩: 영어 단어 하나는 2바이트이고, 한자(중국어 번체 포함) 하나는 2바이트입니다. 중국어 구두점은 2바이트, 영어 구두점은 2바이트를 차지합니다.

utf8로 인코딩된 중국어 문자는 몇 바이트를 차지합니까?

UTF-8은 각 문자를 인코딩하는 데 1~4바이트를 사용합니다.

1. 하나의 US-ASCIl 문자는 인코딩하는 데 1바이트만 필요합니다(유니코드 범위는 U+0000~U+007F).

2. 라틴어, 그리스어, 키릴 문자, 아르메니아어, 히브리어, 아랍어, 시리아어 및 발음 구별 부호가 있는 기타 문자에는 2바이트 인코딩이 필요합니다(유니코드 범위는 U+0080~U +07FF).

3. 기타 언어(중국어, 일본어, 한국어 문자, 동남아 문자, 중동 문자 등)의 문자에는 가장 일반적으로 사용되는 문자가 포함되며 3바이트 인코딩을 사용합니다.

4. 거의 사용되지 않는 기타 언어 문자는 4바이트 인코딩을 사용합니다.

추가 지식:

UTF-8(8비트, 범용 문자 집합/유니코드 변환 형식)은 유니코드용 가변 길이 문자 인코딩입니다. 유니코드 표준의 모든 문자를 나타내는 데 사용할 수 있으며 인코딩의 첫 번째 바이트는 여전히 ASCII와 호환되므로 ASCII 문자를 처리하는 원래 소프트웨어는 약간의 수정 없이 또는 약간의 수정만으로 계속 사용할 수 있습니다. 따라서 점차 이메일, 웹 페이지 및 텍스트를 저장하거나 전송하는 기타 응용 프로그램에서 선호되는 인코딩이 되었습니다.

문자 집합:

UTF-8 인코딩 규칙: 바이트가 1개인 경우 값은 0x00-0x7F입니다. 나머지 바이트는 길이에 따라 다음과 같이 확장됩니다.

UTF-8은 UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4의 4가지 인코딩 방법으로 구현됩니다. 그중:

UTF8, 16진수 인코딩 테이블
UTF8-1
0x00-0x7F
UTF8-2
0 xC 2-0xDF 0x80-0xBF
UTF8-3
0xE0 0xA0-0xBF 0x80-0xBF
0xE1-0xEC 0x80-0xBF 0x80-0xBF
0 xED 0x80-0x9F 0x80-0xBF
0xEE-0xEF 0x80-0xBF 0x80-0xBF
UTF8-4
0xF0 0x90-0xBF 0x80-0xBF 0x80-0xBF
0xF1-0xF3 0x80-0xBF 0x80-0xBF 0x80 - 0xBF
0xF4 0x80-0x8F 0x80-0xBF 0x80-0xBF

각 인코딩에는 여러 인코딩 범위가 있을 수 있습니다. 각 인코딩 범위 사이에는 공백이 각 바이트 구분 기호로 사용됩니다. 예를 들어, UTF8-3의 첫 번째 인코딩은 첫 번째 바이트에 대해 0xE0 값, 두 번째 바이트에 대해 0xA0-0xBF 범위, 세 번째 바이트에 대해 0x80-0xBF 범위를 가져야 합니다.

관련 지식이 더 궁금하시다면 FAQ 칼럼을 방문해 주세요!

위 내용은 utf8로 인코딩된 중국어 문자는 몇 바이트를 차지합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.