UTF8 인코딩에서 한자는 몇 바이트를 차지합니까?-일반적인 문제-php.cn

UTF8 인코딩에서 한자는 몇 바이트를 차지합니까?

May 21, 2021 pm 04:47 PM

UTF-8 인코딩에서는 한자 1개가 3바이트이고, 중국어 구두점 1개가 1바이트를 차지하고, 영어 구두점 1개가 1바이트를 차지합니다. 한마디로 축제.

UTF8 인코딩에서 한자는 몇 바이트를 차지합니까?

이 기사의 운영 환경: Windows 10 시스템, DELL G3 컴퓨터.

UTF-8 인코딩에서는 한자 1개가 3바이트이고, 중국어 구두점은 3바이트를 차지합니다.

영문 문자 1개가 1바이트이고, 영문 구두점이 1바이트를 차지합니다.

유니코드 인코딩: 영어 단어 하나는 2바이트이고, 한자(중국어 번체 포함) 하나는 2바이트입니다. 중국어 구두점은 2바이트, 영어 구두점은 2바이트를 차지합니다.

확장 정보:

UTF-8은 각 문자를 인코딩하는 데 1~4바이트를 사용합니다.

1. 하나의 US-ASCIl 문자는 인코딩하는 데 1바이트만 필요합니다(유니코드 범위는 U+0000~U+007F).

2. 라틴어, 그리스어, 키릴 문자, 아르메니아어, 히브리어, 아랍어, 시리아어 및 발음 구별 부호가 있는 기타 문자에는 2바이트 인코딩이 필요합니다(유니코드 범위는 U+0080~U +07FF).

3. 기타 언어(중국어, 일본어, 한국어 문자, 동남아 문자, 중동 문자 등)의 문자에는 가장 일반적으로 사용되는 문자가 포함되며 3바이트 인코딩을 사용합니다.

4. 거의 사용되지 않는 기타 언어 문자는 4바이트 인코딩을 사용합니다.

더 많은 컴퓨터 관련 지식을 알고 싶으시면 FAQ 칼럼을 방문해주세요!

위 내용은 UTF8 인코딩에서 한자는 몇 바이트를 차지합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

7488

1377