Rumah >masalah biasa >Berapa banyak bait yang diduduki oleh aksara Cina yang dikodkan utf8?

Berapa banyak bait yang diduduki oleh aksara Cina yang dikodkan utf8?

青灯夜游
青灯夜游asal
2023-02-21 11:40:5216589semak imbas

aksara Cina yang dikodkan utf8 menduduki 3 bait. Dalam pengekodan UTF-8, satu aksara Cina bersamaan dengan tiga bait, dan satu tanda baca bahasa Cina menduduki tiga bait manakala dalam pengekodan Unicode, satu aksara Cina (termasuk bahasa Cina tradisional) adalah sama dengan dua bait; UTF-8 menggunakan 1~4 bait untuk mengekod setiap aksara Satu aksara AS-ASCIl hanya memerlukan 1 bait untuk mengekod Latin, Yunani, Cyrillic, Armenia dan Ibrani dengan tanda diakritik , Arab, Syria dan huruf lain pengekodan.

Berapa banyak bait yang diduduki oleh aksara Cina yang dikodkan utf8?

Persekitaran pengendalian tutorial ini: sistem Windows 7, komputer Dell G3.

Berapa banyak bait yang diduduki oleh aksara Cina yang dikodkan UTF-8?

Dalam pengekodan UTF-8: satu aksara Cina bersamaan dengan tiga bait dan tanda baca Cina menduduki tiga bait.

Satu aksara Inggeris bersamaan dengan satu bait dan tanda baca bahasa Inggeris menduduki satu bait.

Pengekodan Unikod: Satu perkataan Inggeris bersamaan dengan dua bait dan satu aksara Cina (termasuk bahasa Cina tradisional) bersamaan dengan dua bait. Tanda baca bahasa Cina menduduki dua bait, dan tanda baca bahasa Inggeris menggunakan dua bait.

Berapa banyak bait yang diduduki oleh aksara Cina yang dikodkan utf8?

UTF-8 menggunakan 1~4 bait untuk mengekod setiap aksara:

1 Satu aksara AS-ASCIl hanya memerlukan 1 bait pengekodan (julat Unicode ialah U+0000~U+007F).

2. Latin, Greek, Cyrillic, Armenia, Hebrew, Arab, Syriac dan huruf lain dengan tanda diakritik memerlukan pengekodan 2-bait (julat Unicode ialah U +0080~U+07FF).

3. Aksara dalam bahasa lain (termasuk aksara Cina, Jepun dan Korea, aksara Asia Tenggara, aksara Timur Tengah, dll.) termasuk aksara yang paling biasa digunakan dan menggunakan pengekodan 3-bait.

4. Aksara bahasa lain yang jarang digunakan menggunakan pengekodan 4-bait.

Pengetahuan lanjutan:

UTF-8 (8-bit, Set Aksara Universal/Format Transformasi Unikod) ialah pengekodan aksara panjang boleh ubah untuk Unicode. Ia boleh digunakan untuk mewakili mana-mana aksara dalam standard Unicode, dan bait pertama dalam pengekodannya masih serasi dengan ASCII, supaya perisian asal yang memproses aksara ASCII boleh terus digunakan tanpa atau dengan hanya beberapa pengubahsuaian. Oleh itu, ia secara beransur-ansur menjadi pengekodan pilihan untuk e-mel, halaman web dan aplikasi lain yang menyimpan atau menghantar teks.

Set aksara:

Peraturan pengekodan UTF-8: Jika hanya terdapat satu bait, nilainya ialah 0x00-0x7F. Baki bait dikembangkan seperti berikut mengikut panjang:

UTF-8 dilaksanakan dengan 4 kaedah pengekodan, iaitu UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4. Antaranya:

UTF8-1
UTF8, jadual pengekodan heksadesimal
0x00-0x7F
UTF8-2
0xC2-0xDF
UTF8, 16进制编码表
UTF8-1
0x00-0x7F
UTF8-2
0xC2-0xDF 0x80-0xBF
UTF8-3
0xE0 0xA0-0xBF 0x80-0xBF
0xE1-0xEC 0x80-0xBF 0x80-0xBF
0xED 0x80-0x9F 0x80-0xBF
0xEE-0xEF 0x80-0xBF 0x80-0xBF
UTF8-4
0xF0 0x90-0xBF 0x80-0xBF 0x80-0xBF
0xF1-0xF3 0x80-0xBF 0x80-0xBF 0x80-0xBF
0xF4 0x80-0x8F 0x80-0xBF 0x80-0xBF
0x80-0xBF

UTF8-3
0xE0 0xA0-0xBF

0x80-0xBF

0xE1-0xEC 0x80- 0xBF 0x80-0xBF
0xED 0x80-0x9F 0x80-0xBF
0xEE-0xEF 0x80-0xBF 0x80-0xBF
UTF8-4
0xF0 0x90-0xBF 0x80-0xBF 0x80-0xBF
0xF1-0xF3 0x80-0xBF 0x80-0xBF 0x80-0xBF
0xF4 0x80- 0x8F 0x80-0xBF 0x80-0xBF
Nota: Setiap pengekodan mungkin mempunyai berbilang julat pengekodan , antara setiap julat pengekodan, gunakan ruang sebagai pemisah untuk setiap bait. Sebagai contoh, pengekodan pertama UTF8-3 mesti mempunyai nilai 0xE0 untuk bait pertama, julat 0xA0-0xBF untuk bait kedua dan julat 0x80-0xBF untuk bait ketiga. Untuk lebih banyak pengetahuan berkaitan, sila lawati ruangan Soalan Lazim!

Atas ialah kandungan terperinci Berapa banyak bait yang diduduki oleh aksara Cina yang dikodkan utf8?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn