문자 소개:
js에서는 중국어가 2자를 차지하고 영어는 1자를 차지합니다.
PHP에서는 GBK/GB2312 인코딩에서 중국어가 2자를 차지합니다. UTF-8/유니코드 인코딩, 한자는 3자를 차지합니다.
권장: "PHP Tutorial"
php 바이트 및 문자
php UTF-8 인코딩에서는 한자가 3자를 차지합니다. 바이트, 2개만 차지합니다. gbk 인코딩의 바이트입니다.
zìfú(문자)
문자는 다양한 문자 구성표나 코드 페이지를 사용하여 표현할 수 있는 추상 개체입니다. 예를 들어, 유니코드 UTF-16 인코딩은 문자를 16비트 정수 시퀀스로 나타내는 반면, 유니코드 UTF-8 인코딩은 동일한 문자를 8비트 바이트 시퀀스로 나타냅니다. 공용 언어 런타임은 유니코드 UTF-16(유니코드 변환 형식, 16비트 인코딩)을 사용하여 문자를 나타냅니다.
공용 언어 런타임을 대상으로 하는 응용 프로그램은 인코딩을 사용하여 기본 문자 체계의 문자표 형식을 다른 체계로 매핑합니다. 애플리케이션은 디코딩을 사용하여 기본이 아닌 구성표의 문자를 기본 구성표로 매핑합니다.
zìjié(바이트)
바이트(바이트): 바이트는 네트워크를 통해 정보를 전송하는(또는 하드 디스크나 메모리에 정보를 저장하는) 단위입니다.
영문(대소문자 상관없음)은 1바이트, 한자는 2바이트를 차지합니다.
기호: 영어 구두점은 1바이트, 중국어 구두점은 2바이트를 차지합니다.
컴퓨터의 디지털 단위인 이진수 시퀀스는 일반적으로 8비트 이진수입니다. 예를 들어 ASCII 코드는 바이트입니다.
인코딩을 이해하는 열쇠입니다. 문자와 바이트의 개념을 정확하게 이해하는 것입니다. 이 두 개념은 혼동되기 쉽기 때문에 여기서는 구별합니다.
개념 설명 예
문자 사람이 사용하는 표시, 추상적인 의미의 상징입니다. '1', '中', 'a', '$', '옌', ...
Byte 컴퓨터에서 데이터를 저장하는 단위인 8비트 이진수는 매우 구체적인 저장 공간입니다. 0x01, 0x45, 0xFA, ...
ANSI
문자열이 메모리에 있습니다. "문자"가 ANSI 인코딩 형식으로 존재하는 경우 문자는 1바이트 또는 여러 바이트로 표시될 수 있으며 이를 A라고 합니다. string은 ANSI 문자열 또는 멀티바이트 문자열입니다. "중국어 123"
(7바이트 점유)
UNICODE
문자열이 메모리에 있습니다. "문자"가 UNICODE의 일련 번호로 존재하는 경우 이 문자열을 UNICODE 문자열 또는 와이드 바이트 문자열이라고 부릅니다. L"中文123"
(10바이트를 차지함)
다양한 ANSI 인코딩에 의해 지정된 표준이 다르기 때문에 특정 멀티바이트 문자열에 대해 어떤 인코딩을 사용하는지 알아야 합니다. 인코딩 규칙을 통해서만 알 수 있습니다. 어떤 "문자"가 포함되어 있는지. UNICODE 문자열의 경우 환경에 관계없이 그것이 나타내는 "문자" 내용은 항상 동일합니다.
위 내용은 PHP의 한자는 몇 바이트입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!