UTF-8 문자열의 실제 길이 계산
UTF-8로 인코딩된 std::string 객체로 작업하는 동안 개발자는 종종 다음과 같은 문제에 직면합니다. str.length()에서 반환된 값과 문자열의 실제 문자 수 사이의 불일치. 이는 str.length()가 UTF-8 문자를 나타내는 데 사용되는 멀티바이트 인코딩을 고려하지 않고 단순히 문자열의 바이트 수를 계산하기 때문입니다.
UTF-8 인코딩은 바이트 시퀀스 집합을 정의합니다. 유니코드 문자를 나타내는 데 사용됩니다. 각 문자는 유니코드 코드 포인트에 따라 1~4바이트로 표시될 수 있습니다. 이러한 바이트 시퀀스는 다음과 같이 구성됩니다.
실제 길이 계산
UTF-8로 인코딩된 문자열의 실제 길이는 문자열의 첫 번째 바이트 수(10xxxxxx 패턴과 일치하지 않는 바이트)를 계산하여 확인할 수 있습니다. 이 패턴은 다중 바이트 시퀀스를 나타내는 데 사용되는 연속 바이트를 나타냅니다.
코드 조각
<code class="cpp">int len = 0; while (*s) len += (*s++ & 0xc0) != 0x80;</code>
이 코드에서 while 루프는 문자열을 반복합니다. , 첫 번째 바이트마다 길이 len count를 1씩 증가시킵니다.
위 내용은 C에서 UTF-8 문자열의 실제 길이를 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!