UTF-8은 유니코드용 가변 길이 문자 인코딩입니다. 유니코드 표준의 모든 문자를 나타내는 데 사용할 수 있으며 인코딩의 첫 번째 바이트는 여전히 ASCII와 호환되므로 ASCII 문자를 원래대로 처리할 수 있습니다. 약간의 수정 없이 또는 약간의 수정만으로 계속 사용할 수 있습니다.
UTF-8(8비트, 범용 문자 집합/유니코드 변환 형식)은 유니코드용 가변 길이 문자 인코딩입니다. 유니코드 표준의 모든 문자를 나타내는 데 사용할 수 있으며 인코딩의 첫 번째 바이트는 여전히 ASCII와 호환되므로 ASCII 문자를 처리하는 원래 소프트웨어는 약간의 수정 없이 또는 약간의 수정만으로 계속 사용할 수 있습니다. 따라서 점차 이메일, 웹 페이지 및 텍스트를 저장하거나 전송하는 기타 응용 프로그램에서 선호되는 인코딩이 되었습니다.
기본 기능
UCS 문자 U+0000 ~ U+007F(ASCII)는 0×00 ~ 0x7F(ASCIII 호환) 바이트로 인코딩됩니다. 이는 7비트 ASCII 문자만 포함하는 파일이 ASCII 및 UTF-8 인코딩 모두에서 동일하다는 것을 의미합니다.
0x007F보다 큰 모든 UCS 문자는 여러 바이트의 문자열로 인코딩되며 각 바이트에는 플래그 비트 세트가 있습니다. 따라서 ASCIl 바이트(0x00-0x7F)가 다른 문자의 일부가 될 수 없습니다. 비ASCII 문자를 나타내는 멀티바이트 문자열의 첫 번째 바이트는 항상 0xC0 ~ 0XFD 범위에 있으며 문자에 포함된 바이트 수를 나타냅니다. 멀티바이트 문자열의 나머지 바이트는 0x80에서 0xBF 범위에 있습니다. 이를 통해 재동기화가 매우 쉬워지고 인코딩에 경계가 생기지 않으며 바이트 누락으로 인해 영향을 받는 경우가 거의 없습니다.
UTF-8로 인코딩된 문자의 길이는 이론적으로 최대 6바이트일 수 있습니다. 그러나 16비트 BMP 문자의 길이는 최대 3바이트까지만 가능합니다. Bigendian UCS-4 바이트 문자열의 배열 순서는 미리 결정됩니다. 바이트는 0xFE 및 OxFF입니다. UTF-8 인코딩에는 사용되지 않습니다.
인코딩 바이트 수
UTF-8은 각 문자를 인코딩하는 데 1~4바이트를 사용합니다.
·하나의 US-ASCIl 문자는 1바이트 인코딩만 필요합니다(유니코드 범위는 U+0000~U+007F ).
·라틴어, 그리스어, 키릴 문자, 아르메니아어, 히브리어, 아랍어, 시리아어 및 발음 구별 부호가 있는 기타 문자는 2바이트 인코딩이 필요합니다(유니코드 범위는 U+0080~U+ 07FF).
·다른 언어의 문자(중국어, 일본어, 한국어 문자, 동남아 문자, 중동 문자 등 포함)에는 가장 일반적으로 사용되는 문자가 포함되며 3바이트 인코딩을 사용합니다.
·기타 거의 사용되지 않는 언어 문자는 4바이트 인코딩을 사용합니다.
UTF-8 인코딩 규칙:
바이트가 하나만 있는 경우 가장 높은 이진 비트는 0입니다. 여러 바이트인 경우 첫 번째 바이트는 가장 높은 비트에서 시작하고 연속 이진 비트는 다음과 같은 값을 갖습니다. 1 숫자는 인코딩된 바이트 수를 결정하며 나머지 바이트는 10으로 시작합니다.
위 내용은 utf-8은 어떤 인코딩인가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!