>  기사  >  백엔드 개발  >  C에서 UTF-8로 인코딩된 문자열의 길이를 정확하게 결정하는 방법은 무엇입니까?

C에서 UTF-8로 인코딩된 문자열의 길이를 정확하게 결정하는 방법은 무엇입니까?

Barbara Streisand
Barbara Streisand원래의
2024-10-26 05:58:02551검색

How to Accurately Determine the Length of a UTF-8 Encoded String in C  ?

UTF-8로 인코딩된 문자열 길이 결정

C에서는 std::string 인코딩이 다를 수 있으며, 길이() 함수를 사용하면 UTF-8로 인코딩된 문자열은 실제 길이를 부정확하게 표현할 수 있습니다. 올바른 길이를 확인하려면 다음 바이트 시퀀스 패턴을 고려하십시오.

0x00000000 - 0x0000007F:
       0xxxxxxx

0x00000080 - 0x000007FF:
       110xxxxx 10xxxxxx

0x00000800 - 0x0000FFFF:
       1110xxxx 10xxxxxx 10xxxxxx

0x00010000 - 0x001FFFFF:
       11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-8로 인코딩된 문자열의 실제 길이를 계산하려면:

  1. 변수 len을 0으로 초기화합니다. .
  2. 문자열을 문자별로 반복합니다.
  3. 각 문자에 대해 단일 바이트 문자(0xxxxxxx)에 대한 바이트 시퀀스 패턴을 따르는지 확인합니다.
  4. 경우 len을 1씩 증가시킵니다.
  5. 그렇지 않으면 현재 및 다음 바이트를 건너뜁니다.

다음 코드 조각은 구현을 보여줍니다.

<code class="cpp">int len = 0;
const char *s = str.c_str(); // convert to C-style string
while (*s) len += (*s++ & 0xc0) != 0x80;</code>

위 내용은 C에서 UTF-8로 인코딩된 문자열의 길이를 정확하게 결정하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.