>  기사  >  백엔드 개발  >  C에서 UTF-8 문자열의 실제 길이를 계산하는 방법은 무엇입니까?

C에서 UTF-8 문자열의 실제 길이를 계산하는 방법은 무엇입니까?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-10-26 01:26:28619검색

How to Calculate the Actual Length of a UTF-8 String in C  ?

UTF-8 문자열의 실제 길이 계산

UTF-8로 인코딩된 std::string 객체로 작업하는 동안 개발자는 종종 다음과 같은 문제에 직면합니다. str.length()에서 반환된 값과 문자열의 실제 문자 수 사이의 불일치. 이는 str.length()가 UTF-8 문자를 나타내는 데 사용되는 멀티바이트 인코딩을 고려하지 않고 단순히 문자열의 바이트 수를 계산하기 때문입니다.

UTF-8 인코딩은 바이트 시퀀스 집합을 정의합니다. 유니코드 문자를 나타내는 데 사용됩니다. 각 문자는 유니코드 코드 포인트에 따라 1~4바이트로 표시될 수 있습니다. 이러한 바이트 시퀀스는 다음과 같이 구성됩니다.

  • 1바이트 시퀀스(0x00-0x7F): ASCII 문자를 직접 나타냅니다.
  • 2바이트 시퀀스(0x80-0xBF): 0x0080부터 0x07FF까지의 코드 포인트가 있는 문자를 나타냅니다.
  • 3바이트 시퀀스(0xC0-0xDF): 0x0800부터 0x07FF까지의 코드 포인트가 있는 문자를 나타냅니다. 0xFFFF.
  • 4바이트 시퀀스(0xE0-0xFF): 0x10000부터 0x10FFFF까지의 코드 포인트가 있는 문자를 나타냅니다.

실제 길이 계산

UTF-8로 인코딩된 문자열의 실제 길이는 문자열의 첫 번째 바이트 수(10xxxxxx 패턴과 일치하지 않는 바이트)를 계산하여 확인할 수 있습니다. 이 패턴은 다중 바이트 시퀀스를 나타내는 데 사용되는 연속 바이트를 나타냅니다.

코드 조각

<code class="cpp">int len = 0;
while (*s) len += (*s++ & 0xc0) != 0x80;</code>

이 코드에서 while 루프는 문자열을 반복합니다. , 첫 번째 바이트마다 길이 len count를 1씩 증가시킵니다.

위 내용은 C에서 UTF-8 문자열의 실제 길이를 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.