Maison > Article > interface Web > Les débutants doivent faire attention au jeu de caractères d'encodage du langage HTML (à lire absolument)
Ce que cet article vous apporte, c'est que les novices doivent faire attention au jeu de caractères de codage du langage HTML (à lire absolument). Les amis dans le besoin peuvent s'y référer.
Faites attention à l'importance de l'encodage du langage HTML
1. Importance du codage
L'encodage peut provoquer des pages Web tronquées lorsque les internautes utilisent IE, et peut également conduire à des piratages de compatibilité p+css.
2. Emplacement de codage
Généralement, cet encodage de page Web est placé entre
et3. Style de codage HTML
Vous pouvez modifier l'encodage de la page Web en changeant utf-8 dans charset=utf- 8.
Généralement, lorsque nous écrivons des fichiers CSS, nous devons également utiliser @charset "utf-8" en haut du fichier CSS pour définir le type d'encodage de ce fichier CSS. Généralement, le code source HTML et l'encodage des fichiers CSS doivent être unifiés. S'ils ne le sont pas, cela entraînera des problèmes de compatibilité tels que des piratages CSS, des pages tronquées et une mise en page chaotique.
4. Types d'encodage HTML couramment utilisés
Les deux formats les plus couramment utilisés en Chine sont utf-8 et gb2312. Généralement, ces deux types peuvent répondre aux besoins nationaux en matière de codage de pages Web. Bien entendu, ces deux types de codage sont également utilisés dans les programmes et les bases de données pour traiter les pages Web et stocker les types de données.
5. UTF-8 a les caractéristiques suivantes :
Les caractères UCS U+0000 à U+007F (ASCII) sont codés sous forme d'octets 0x00 à 0x7F (compatible ASCII). Cela signifie que les fichiers contenant uniquement des caractères ASCII 7 bits sont les mêmes dans les codages ASCII et UTF-8.
Tous les caractères UCS >U+007F sont codés sous la forme d'une chaîne de plusieurs octets, chacun avec un ensemble de bits d'indicateur. Par conséquent, les octets ASCII (0x00-0x7F) ne peuvent faire partie d'aucun autre caractère.
Le premier octet d'une chaîne multi-octets représentant un caractère non-ASCII est toujours compris entre 0xC0 et 0xFD et indique le nombre d'octets que contient le caractère. Les octets restants de la chaîne multi-octets sont compris entre 0x80 et 0xBF . facile et rend les encodages sans frontières et rarement affectés par les octets manquants.
Peut programmer tous les 231 codes UCS possibles
Les caractères codés en UTF-8 peuvent théoriquement mesurer jusqu'à 6 octets, alors que les caractères BMP 16 bits ne peuvent avoir qu'une longueur maximale de 3 octets.
L'ordre des chaînes d'octets Bigendian UCS-4 est prédéterminé.
Les octets 0xFE et 0xFF ne sont jamais utilisés dans le codage UTF-8.
6. Le GB2312 présente les caractéristiques suivantes
La norme GB2312 comprend un total de 6 763 caractères chinois, dont 3 755 caractères chinois de premier niveau et 3 008 caractères chinois de deuxième niveau. Dans le même temps, le GB2312 comprend 682 caractères, dont des lettres latines, des lettres grecques, des lettres japonaises hiragana et katakana et du russe. Lettres cyrilliques.
L'émergence du GB2312 répond essentiellement aux besoins de traitement informatique des caractères chinois. Les caractères chinois qu'il contient ont couvert 99,75 % de la fréquence d'utilisation. Dans GB2312, les caractères chinois collectés sont « partitionnés » et chaque zone contient 94 caractères/symboles chinois. Cette représentation est également appelée code de localisation.
Les zones 01 à 09 sont des symboles spéciaux.
Les zones 16 à 55 sont des caractères chinois de premier niveau, triés par pinyin.
Les zones 56 à 87 sont des caractères chinois de deuxième niveau, triés par radical/trait.
Les zones 10-15 et 88-94 ne sont pas codées.
Par exemple, le caractère « ah » est le premier caractère chinois du GB2312 et son code de localisation est 1601. Dans les programmes utilisant GB2312, la structure d'octets utilise généralement la méthode de stockage EUC pour être compatible avec ASCII. Chaque caractère et symbole chinois est représenté par deux octets. Le premier octet est appelé « octet de poids fort » et le deuxième octet est appelé « octet de poids faible ». L'"octet de poids fort" utilise 0xA1-0xF7 (ajoutez 0xA0 à l'indicatif régional de la zone 01-87) et "l'octet de poids faible" utilise 0xA1-0xFE (ajoutez 01-94 à 0xA0). Par exemple, le mot « Ah » sera stocké sous la forme 0xB0A1 dans la plupart des programmes. (Comparez avec le code de localisation : 0xB0=0xA0+16, 0xA1=0xA0+1).
Par conséquent, le système décimal de l'indicatif régional des caractères chinois dans le codage GB2312 est de 176 à 247 et le code binaire est de 161 à 255. La raison pour laquelle le 6763 stocké est inférieur à 82*94=6768 est que l'indicatif régional est 215 et le code binaire est compris entre 250 et 254. Il y a cinq codes au total sans codes de caractères chinois, donc 6768-5=6763.
Le codage GB2312 peut être compris comme un langage commun en Chine.
7. Encodage recommandé pour le jeu de caractères
UTF-8 peut être facilement compris par le chinois simplifié et traditionnel. Par exemple, Taiwan et la Chine continentale utilisent cet encodage.
8. Erreurs de compatibilité des pages Web causées par l'encodage
Si le codage est mixte, la page Web sera tronquée, ce qui est également appelé incompatibilité. Surtout si le codage est utilisé dans les commentaires CSS, cela entraînera un piratage CSS.
Ce qui précède est une introduction complète au jeu de caractères d'encodage du langage HTML (un incontournable) auquel les novices doivent prêter attention. Si vous souhaitez en savoir plus sur les didacticiels HTML, veuillez prêter attention au site Web PHP chinois.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!