Rumah >pembangunan bahagian belakang >C++ >Bagaimana untuk Menentukan Panjang Sebenar Rentetan Dikodkan UTF-8 dalam C?

Bagaimana untuk Menentukan Panjang Sebenar Rentetan Dikodkan UTF-8 dalam C?

Susan Sarandon
Susan Sarandonasal
2024-10-28 17:15:02612semak imbas

 How to Determine the Actual Length of UTF-8 Encoded Strings in C  ?

Menentukan Panjang Sebenar Rentetan Dikodkan UTF-8 dalam C

UTF-8 ialah skema pengekodan aksara lebar berubah-ubah, yang bermaksud bahawa panjang rentetan dalam bait tidak semestinya sepadan dengan bilangan aksara yang terkandung di dalamnya. Ini boleh menjadi isu apabila bekerja dengan rentetan UTF-8 dalam C , kerana kaedah str.length() mengembalikan bilangan bait dalam rentetan, bukan bilangan aksara.

Untuk menentukan dengan tepat panjang rentetan yang dikodkan UTF-8 dalam C , anda boleh menggunakan pendekatan berikut:

Kira bilangan bait pertama dalam rentetan. Bait pertama ialah bait yang tidak sepadan dengan 10xxxxxx, kerana bait ini menunjukkan permulaan jujukan aksara berbilang bait.

Berikut ialah contoh pelaksanaan:

<code class="cpp">int len = 0;
while (*s) len += (*s++ & 0xc0) != 0x80;</code>

Dalam kod ini, penuding s berulang melalui rentetan, dan operasi & 0xc0 menutup dua bit pertama setiap bait. Jika dua bit pertama ialah 0b10 (menunjukkan bait kesinambungan), kiraan tidak ditambah. Jika tidak, ia dinaikkan, dan penuding dimajukan ke bait seterusnya. Proses ini berterusan sehingga penghujung rentetan dicapai, di mana len akan mengandungi panjang aksara sebenar rentetan itu.

Atas ialah kandungan terperinci Bagaimana untuk Menentukan Panjang Sebenar Rentetan Dikodkan UTF-8 dalam C?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn