Maison > Article > interface Web > Explication détaillée du codage linguistique du jeu de caractères en HTML
Faites attention à l'importance de l'encodage du langage HTML
Table des matières
Importance du codage du jeu de caractères
Où est le jeu de caractères en HTML
balise charset
Type d'encodage
introduction charset utf-8
Introduction au jeu de caractères GB2312
Encodage de page Web recommandé
Compatibilité des pages Web grâce à l'encodage
L'encodage peut provoquer des pages Web tronquées lorsque les internautes utilisent IE, et peut également conduire à un piratage de compatibilité p+css.
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
Vous peut changer l'encodage de la page Web en changeant utf-8 dans charset=utf-8.
Généralement, lorsque nous écrivons des fichiers CSS, nous devons également utiliser @charset "utf-8" en haut du fichier CSS pour définir le type d'encodage de ce fichier CSS. Généralement, le code source HTML et l'encodage des fichiers CSS doivent être unifiés. S'ils ne le sont pas, cela entraînera des problèmes de compatibilité tels que des piratages CSS, des pages tronquées et une mise en page chaotique.
Les deux types d'encodage HTML les plus couramment utilisés en Chine sont utf-8 et gb2312. Généralement, ces deux types peuvent répondre aux besoins nationaux d’encodage de pages Web. Bien entendu, ces deux types de codage sont également utilisés dans les programmes et les bases de données pour traiter les pages Web et stocker les types de données.
Les caractères UCS U+0000 à U+007F (ASCII) sont codés. en octets 0x00 à 0x7F (compatible ASCII). Cela signifie que les fichiers contenant uniquement des caractères ASCII 7 bits sont les mêmes dans les encodages ASCII et UTF-8.
Tous> Le caractère UCS ; U+007F est codé sous la forme d'une chaîne de plusieurs octets, chacun avec un ensemble de bits d'indicateur. Par conséquent, les octets ASCII (0x00-0x7F) ne peuvent faire partie d'aucun autre caractère.
. Le premier octet d'une chaîne multi-octets représentant un caractère non-ASCII est toujours compris entre 0xC0 et 0xFD et indique le nombre d'octets que contient le caractère. Le reste de la chaîne multi-octets est tous compris entre 0x80 et 0xBF. . Cela rend la resynchronisation très facile et rend l'encodage sans frontières et rarement affecté par les octets manquants
peut être codé dans tous les possibles. Les 231 codes UCS
La norme GB2312 contient un total de 6763 caractères chinois, dont 3755 caractères chinois de premier niveau et des caractères chinois de deuxième niveau. Il y a 3008 caractères chinois en même temps, GB2312 en comprend 682 ; caractères pleine chasse, y compris les lettres latines, les lettres grecques, les lettres japonaises hiragana et katakana et les lettres cyrilliques russes.
L'émergence du GB2312 répond essentiellement aux besoins de traitement informatique des caractères chinois. Les caractères chinois qu'il contient ont couvert 99,75% de la fréquence d'utilisation. Dans GB2312, les caractères chinois collectés sont « partitionnés » et chaque zone contient 94 caractères/symboles chinois. Cette représentation est également appelée code de localisation.
Les zones 01-09 sont des symboles spéciaux.
Les zones 16 à 55 sont des caractères chinois de premier niveau, triés par pinyin.
Les zones 56 à 87 sont des caractères chinois de deuxième niveau, triés par radical/trait.
Les districts 10-15 et 88-94 ne sont pas codés.
Par exemple, le caractère « ah » est le premier caractère chinois du GB2312 et son code de localisation est 1601. Dans les programmes utilisant GB2312, la structure d'octets utilise généralement la méthode de stockage EUC afin que Compatible avec ASCII. Chaque caractère et symbole chinois est représenté par deux octets. Le premier octet est appelé « octet de poids fort » et le deuxième octet est appelé « octet de poids faible ». L'"octet de poids fort" utilise 0xA1-0xF7 (ajoutez 0xA0 à l'indicatif régional de la zone 01-87) et "l'octet de poids faible" utilise 0xA1-0xFE (ajoutez 01-94 à 0xA0). Par exemple Le mot « ah » est stocké sous la forme 0xB0A1 dans la plupart des programmes. (Comparez avec le code d'emplacement : 0xB0=0xA0+16, 0xA1=0xA0+1).
Ainsi, la décimale de l'indicatif régional des caractères chinois dans l'encodage GB2312 est de 176 à 247, et le code binaire est de 161 à 255. La raison pour laquelle 6763 est stocké est inférieure à 82*94=6768, car l'indicatif régional est 215 et le code binaire est 215. Il existe cinq codes entre 250 et 254 sans codage de caractères chinois, donc 6768-5=6763.
Le codage GB2312 peut être facilement compris comme un langage commun en Chine.UTF-8 peut être facilement compris et le chinois traditionnel peut utiliser cet encodage. La Chine continentale utilise ce codage.
Si l'encodage est mixte, la page Web sera tronquée, ce qui est également appelé incompatible, surtout en cas de mélange d'encodage. est utilisé dans la ligne de commentaires CSS entraînera un hack CSS.
J'espère que vous n'oublierez jamais de déclarer l'encodage de la page Web lors de la création de pages Web à l'avenir.
Les utilisateurs qui ont consulté cette page ont également consulté le contenu suivant :
1. Les différences et les relations entre UTF-8 GBK UTF8 GB2312
2. Comment choisir l'encodage html
3. paramètres
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!