aksara Cina yang dikodkan utf8 menduduki 3 bait. Dalam pengekodan UTF-8, satu aksara Cina bersamaan dengan tiga bait, dan satu tanda baca bahasa Cina menduduki tiga bait manakala dalam pengekodan Unicode, satu aksara Cina (termasuk bahasa Cina tradisional) adalah sama dengan dua bait; UTF-8 menggunakan 1~4 bait untuk mengekod setiap aksara Satu aksara AS-ASCIl hanya memerlukan 1 bait untuk mengekod Latin, Yunani, Cyrillic, Armenia dan Ibrani dengan tanda diakritik , Arab, Syria dan huruf lain pengekodan.
Persekitaran pengendalian tutorial ini: sistem Windows 7, komputer Dell G3.
Berapa banyak bait yang diduduki oleh aksara Cina yang dikodkan UTF-8?
Dalam pengekodan UTF-8: satu aksara Cina bersamaan dengan tiga bait dan tanda baca Cina menduduki tiga bait.
Satu aksara Inggeris bersamaan dengan satu bait dan tanda baca bahasa Inggeris menduduki satu bait.
Pengekodan Unikod: Satu perkataan Inggeris bersamaan dengan dua bait dan satu aksara Cina (termasuk bahasa Cina tradisional) bersamaan dengan dua bait. Tanda baca bahasa Cina menduduki dua bait, dan tanda baca bahasa Inggeris menggunakan dua bait.
UTF-8 menggunakan 1~4 bait untuk mengekod setiap aksara:
1 Satu aksara AS-ASCIl hanya memerlukan 1 bait pengekodan (julat Unicode ialah U+0000~U+007F).
2. Latin, Greek, Cyrillic, Armenia, Hebrew, Arab, Syriac dan huruf lain dengan tanda diakritik memerlukan pengekodan 2-bait (julat Unicode ialah U +0080~U+07FF).
3. Aksara dalam bahasa lain (termasuk aksara Cina, Jepun dan Korea, aksara Asia Tenggara, aksara Timur Tengah, dll.) termasuk aksara yang paling biasa digunakan dan menggunakan pengekodan 3-bait.
4. Aksara bahasa lain yang jarang digunakan menggunakan pengekodan 4-bait.
Pengetahuan lanjutan:
UTF-8 (8-bit, Set Aksara Universal/Format Transformasi Unikod) ialah pengekodan aksara panjang boleh ubah untuk Unicode. Ia boleh digunakan untuk mewakili mana-mana aksara dalam standard Unicode, dan bait pertama dalam pengekodannya masih serasi dengan ASCII, supaya perisian asal yang memproses aksara ASCII boleh terus digunakan tanpa atau dengan hanya beberapa pengubahsuaian. Oleh itu, ia secara beransur-ansur menjadi pengekodan pilihan untuk e-mel, halaman web dan aplikasi lain yang menyimpan atau menghantar teks.
Set aksara:
Peraturan pengekodan UTF-8: Jika hanya terdapat satu bait, nilainya ialah 0x00-0x7F. Baki bait dikembangkan seperti berikut mengikut panjang:
UTF-8 dilaksanakan dengan 4 kaedah pengekodan, iaitu UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4. Antaranya:
0x00-0x7F |
|||||||||
UTF8-2 |
0xC2-0xDF
|
||||||||
UTF8-3 |
0xE0 0xA0-0xBF
0x80-0xBF 0xE1-0xEC 0x80- 0xBF 0x80-0xBF
0xED 0x80-0x9F 0x80-0xBF
0xEE-0xEF 0x80-0xBF 0x80-0xBF
|
||||||||
UTF8-4 |
0xF0 0x90-0xBF 0x80-0xBF 0x80-0xBF
0xF1-0xF3 0x80-0xBF 0x80-0xBF 0x80-0xBF
0xF4 0x80- 0x8F 0x80-0xBF 0x80-0xBF
|
Atas ialah kandungan terperinci Berapa banyak bait yang diduduki oleh aksara Cina yang dikodkan utf8?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!