Rumah >hujung hadapan web >html tutorial >Cara memilih gbk utf8 Memahami dan menggunakan pengekodan halaman web GBK dan UTF-8 dengan betul_HTML/Xhtml_pengeluaran halaman web

Cara memilih gbk utf8 Memahami dan menggunakan pengekodan halaman web GBK dan UTF-8 dengan betul_HTML/Xhtml_pengeluaran halaman web

WBOY
WBOYasal
2016-05-16 16:40:451885semak imbas

Pengekodan halaman web diterjemahkan ke dalam bahasa Inggeris sebagai pengekodan halaman web, iaitu perpustakaan yang menentukan format pengekodan aksara khususnya dalam halaman web.
GBK ialah standard yang serasi dengan GB2312 selepas pengembangan berdasarkan standard nasional GB2312. Pengekodan teks GBK diwakili oleh bait berganda, iaitu, kedua-dua aksara Cina dan Inggeris diwakili oleh bait berganda Untuk membezakan aksara Cina, bit tertinggi ditetapkan kepada 1. GBK mengandungi semua aksara Cina dan merupakan pengekodan nasional Ia kurang serba boleh berbanding UTF8, tetapi UTF8 menduduki pangkalan data yang lebih besar daripada GBK.

UTF-8: Unicode TransformationFormat-8bit, BOM dibenarkan, tetapi BOM biasanya tidak disertakan. Ia ialah pengekodan berbilang bait yang digunakan untuk menyelesaikan aksara antarabangsa Ia menggunakan 8 bit (iaitu, satu bait) untuk bahasa Inggeris dan 24 bit (tiga bait) untuk bahasa Cina. UTF-8 mengandungi aksara yang digunakan oleh semua negara di dunia Ia adalah pengekodan antarabangsa dan mempunyai fleksibiliti yang kuat. Teks yang dikodkan UTF-8 boleh dipaparkan pada pelayar di pelbagai negara yang menyokong set aksara UTF8. Jika pengekodan UTF8, bahasa Cina juga boleh dipaparkan pada IE Inggeris warga asing, dan mereka tidak perlu memuat turun pakej sokongan bahasa Cina IE.
Walaupun versi UTF-8 mempunyai keserasian antarabangsa yang baik, versi Cina memerlukan 50% lebih ruang storan pangkalan data daripada versi GBK/BIG5, jadi ia tidak disyorkan dan hanya boleh digunakan oleh pengguna dengan keperluan khas untuk keserasian antarabangsa. Ringkasnya: Untuk tapak web dengan lebih banyak aksara Cina, adalah sesuai untuk menggunakan pengekodan GBK untuk menjimatkan ruang pangkalan data. Untuk tapak web dengan lebih banyak bahasa Inggeris, adalah sesuai untuk menggunakan UTF-8 untuk menjimatkan ruang pangkalan data.

Bagaimana untuk menukar GBK, GB2312, dll. kepada UTF8? Pengekodan Unikod mesti digunakan untuk menukar GBK, GB2312, dsb. kepada UTF8: GBK, GB2312—Unicode—UTF8—Unicode—GBK, GB2312; Menggunakan "Save As" dalam Windows Notepad, anda boleh menukar antara kaedah pengekodan GBK, Unicode, Unicode big endian dan UTF-8.

Bagaimana untuk membuat penyemak imbas mengenal pasti pengekodan halaman web dengan betul? Secara amnya, mesti ada ayat berikut dalam halaman web: , menunjukkan bahawa pengekodan set aksara halaman web ini ialah GB2312. (Atau UTF-8)
Mengapa halaman kadangkala menyatakan pengekodan dan kadangkala kelihatan bercelaru? Ini mungkin disebabkan oleh pengekodan pengisytiharan halaman yang tidak konsisten dengan pengekodan fail itu sendiri Lebih kerap, halaman dibuka dengan pengekodan yang salah dan kemudian disimpan, atau beberapa perisian FTP digunakan untuk mengubah suai fail secara langsung dalam talian, seperti CuteFTP. . Ralat penukaran berlaku kerana konfigurasi pengekodan perisian yang salah. Pada masa ini, gunakan Windows Notepad untuk membukanya dan gunakan "Save As" untuk menyimpannya sebagai pengekodan yang sepadan untuk menyelesaikan masalah.

Apabila menggunakan IE sebagai penyemak imbas pada sistem pengendalian Windows, masalah ini sering berlaku: apabila menyemak imbas halaman web yang dikodkan dalam UTF-8, penyemak imbas tidak boleh secara automatik mengenal pasti pengekodan yang digunakan untuk halaman tersebut, walaupun halaman web mempunyai telah Format pengekodan diisytiharkan: , yang menyebabkan beberapa halaman yang mengandungi pengekodan UTF-8 Cina menghasilkan output kosong. Jika anda menggunakan pelayar Firefox atau Sarafi, ini tidak akan menyebabkan masalah ini. Ini kerana apabila IE menghuraikan pengekodan halaman web, ia mengutamakan teg dalam HTML, dan kemudian maklumat dalam pengepala HTTP, manakala siri pelayar Mozilla melakukan sebaliknya.

Kerana UTF-8 menggunakan 3 bait untuk mewakili satu aksara, manakala GB2312 atau BIG5 biasa menggunakan dua. Apabila halaman dikeluarkan, atas sebab di atas, apabila penyemak imbas menghuraikan dan mengeluarkan kandungan

, jika terdapat bilangan ganjil aksara lebar penuh sebelum , IE akan merawat UTF-8 sebagai dua bait apabila menghuraikannya Dalam kes separuh aksara Cina, separuh aksara Cina akan digabungkan dengan untuk membentuk perkataan bercelaru, menyebabkan IE tidak dapat membaca bahagian
Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn