Maison >interface Web >tutoriel HTML >Quels sont les encodages de langage HTML ?
En HTML, l'encodage peut provoquer des pages Web tronquées lorsque les téléspectateurs utilisent IE, et peut également provoquer des hacks de compatibilité dans div+css. L'encodage est généralement très important. La position d'encodage est placée dans l'en-tête <. Page HTML. Entre > et . Aujourd'hui, nous allons présenter quelques connaissances sur le codage.
Généralement, cet encodage de page Web est placé entre
etstyle d'encodage HTML
Pass Changer l'utf-8 dans charset=utf-8 peut modifier l'encodage de la page Web.
Généralement, lorsque nous écrivons des fichiers CSS, nous devons également utiliser @charset "utf-8" en haut du fichier CSS pour définir le type d'encodage de ce fichier CSS. Généralement, le code source HTML et l'encodage des fichiers CSS doivent être unifiés. S'ils ne le sont pas, cela entraînera des problèmes de compatibilité tels que des piratages CSS, des pages tronquées et une mise en page chaotique.
Types d'encodage HTML couramment utilisés
Les deux types d'encodage HTML les plus couramment utilisés en Chine sont utf-8 et gb2312. Généralement, ces deux types peuvent répondre aux besoins nationaux d’encodage de pages Web. Bien entendu, ces deux types d'encodage sont également utilisés dans les programmes et les bases de données pour traiter les pages Web et stocker les types de données.
UTF-8 a les propriétés suivantes
Les caractères UCS U+0000 à U+007F (ASCII) sont codés sous forme d'octets 0x00 à 0x7F (compatibles ASCII). Les fichiers de caractères ASCII inclus sont les mêmes dans les méthodes de codage ASCII et UTF-8.
Tous les caractères UCS>U+007F sont codés sous la forme d'une chaîne multi-octets, chaque octet comporte donc un ensemble de bits d'indicateur. , les octets ASCII (0x00-0x7F) ne peuvent faire partie d'aucun autre caractère
Le premier octet d'une chaîne multi-octets représentant un caractère non-ASCII est toujours compris entre 0xC0 et est dans la plage 0xFD, et indique. combien d'octets ce caractère contient. Les octets restants d'une chaîne multi-octets sont compris entre 0x80 et 0xBF. Cela rend la resynchronisation très facile et rend l'encodage sans bordure et moins sensible aux mots manquants.
peut encoder tout ce qui est possible. 231 codes UCS
Les caractères codés en UTF-8 peuvent théoriquement mesurer jusqu'à 6 octets, cependant, les caractères BMP 16 bits ne peuvent mesurer que 3 octets.
L'ordre du Bigendian UCS-4 les chaînes d'octets sont prédéterminées.
Les octets 0xFE et 0xFF ne sont jamais utilisés dans l'encodage UTF-8.
GB2312 a les caractéristiques suivantes
La norme GB2312 contient un total de 6763 caractères chinois , comprenant 3 755 caractères chinois de premier niveau et 3 008 caractères chinois de deuxième niveau en même temps, GB2312 comprend des lettres latines, des lettres grecques et des hiragana japonais et 682 caractères pleine chasse, dont des lettres katakana et des lettres cyrilliques russes.
L'émergence du GB2312 répond essentiellement aux besoins de traitement informatique des caractères chinois. Les caractères chinois qu'il contient ont couvert 99,75% de la fréquence d'utilisation. Dans GB2312, les caractères chinois collectés sont « partitionnés » et chaque zone contient 94 caractères/symboles chinois. Cette représentation est également appelée code de localisation.
Les zones 01-09 sont des symboles spéciaux.
Les zones 16 à 55 sont des caractères chinois de premier niveau, triés par pinyin.
Les zones 56 à 87 sont des caractères chinois de deuxième niveau, triés par radical/trait.
Les districts 10-15 et 88-94 ne sont pas codés.
Par exemple, le caractère « ah » est le premier caractère chinois du GB2312 et son code de localisation est 1601. Dans les programmes utilisant GB2312, la structure d'octets utilise généralement la méthode de stockage EUC pour être compatible avec ASCII. Chaque caractère et symbole chinois est représenté par deux octets. Le premier octet est appelé « octet de poids fort » et le deuxième octet est appelé « octet de poids faible ». L'"octet de poids fort" utilise 0xA1-0xF7 (ajoutez 0xA0 à l'indicatif régional de la zone 01-87) et "l'octet de poids faible" utilise 0xA1-0xFE (ajoutez 01-94 à 0xA0). Par exemple, le mot « Ah » sera stocké sous la forme 0xB0A1 dans la plupart des programmes. (Comparez avec le code d'emplacement : 0xB0=0xA0+16, 0xA1=0xA0+1).
Ainsi, la décimale de l'indicatif régional des caractères chinois dans l'encodage GB2312 est de 176 à 247, et le code binaire est de 161 à 255. La raison pour laquelle 6763 est stocké est inférieure à 82*94=6768, car l'indicatif régional est 215 et le code binaire est 215. Il existe cinq codes entre 250 et 254 sans codage de caractères chinois, donc 6768-5=6763.
Le codage GB2312 peut être facilement compris comme un langage commun en Chine.
Encodage du jeu de caractères recommandé
UTF-8 peut être facilement compris. Le chinois simplifié et traditionnel peut utiliser cet encodage, comme à Taiwan et en Chine continentale.
Erreurs de compatibilité des pages Web causées par l'encodage
Si le mélange d'encodage rend la page Web tronquée, cela est également appelé incompatibilité, surtout si le mélange d'encodage est utilisé dans CSScommentaires Provoque un piratage CSS.
J'espère que vous n'oublierez jamais de déclarer l'encodage de la page Web lors de la création de pages Web à l'avenir.
Ce qui précède est la connaissance de l'encodage du langage HTML. Pour des informations plus intéressantes, veuillez prêter attention au site Web php chinois autres articles liés !
Contenu associé :
Comment savoir quel style d'attribut CSS est défini pour DIV ?
Pourquoi devez-vous définir des styles CSS pour DIV ?
Comment utiliser la balise
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!