Heim > Artikel > Web-Frontend > Detaillierte Erläuterung der Sprachkodierung von Zeichensätzen in HTML
Achten Sie auf die Bedeutung der HTML-Sprachkodierung
Inhaltsverzeichnis
Bedeutung der Zeichensatzkodierung
Wo ist der Zeichensatz in HTML
Zeichensatz-Tag
Codierungstyp
Einführung in den Zeichensatz utf-8
Einführung in den Zeichensatz GB2312
Empfohlene Webseitenkodierung
Webseitenkompatibilität aufgrund der Kodierung
Kodierung kann zu verstümmelten Webseiten führen, wenn Betrachter den IE verwenden, und kann auch zu einem P+CSS-Kompatibilitäts-Hack führen.
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
Sie Sie können die Kodierung der Webseite ändern, indem Sie utf-8 in charset=utf-8 ändern.
Im Allgemeinen müssen wir beim Schreiben von CSS-Dateien auch @charset "utf-8" am Anfang der CSS-Datei verwenden, um den Codierungstyp dieser CSS-Datei zu definieren. Im Allgemeinen müssen der HTML-Quellcode und die CSS-Dateikodierung vereinheitlicht werden. Wenn sie nicht vereinheitlicht werden, führt dies zu Kompatibilitätsproblemen wie CSS-Hacks, verstümmelten Seiten und chaotischem Seitenlayout.
Die beiden in China am häufigsten verwendeten sind utf-8 und gb2312. Im Allgemeinen können diese beiden Typen die inländischen Anforderungen an die Webseitenkodierung erfüllen. Natürlich werden diese beiden Kodierungsarten auch in Programmen und Datenbanken verwendet, um Webseiten zu verarbeiten und Datentypen zu speichern.
UCS-Zeichen U+0000 bis U+007F (ASCII) sind codiert als Bytes 0x00 bis 0x7F (ASCII-kompatibel). Dies bedeutet, dass Dateien, die nur 7-Bit-ASCII-Zeichen enthalten, sowohl in der ASCII- als auch in der UTF-8-Kodierung gleich sind.
Alle> Das UCS-Zeichen ; U+007F wird als Zeichenfolge aus mehreren Bytes codiert, jedes mit einem Satz von Flag-Bits. Daher können die ASCII-Bytes (0x00-0x7F) nicht Teil eines anderen Zeichens sein.
Das erste Byte einer Multibyte-Zeichenfolge, die ein Nicht-ASCII-Zeichen darstellt, liegt immer im Bereich 0xC0 bis 0xFD und gibt an, wie viele Bytes das Zeichen enthält. Die restlichen Bytes der Multibyte-Zeichenfolge liegen alle im Bereich 0x80 bis 0xBF . Dies macht die Resynchronisierung sehr einfach und macht die Kodierung grenzenlos und selten durch fehlende Bytes beeinträchtigt.
kann in allen möglichen 231 UCS-Codes kodiert werden
UTF-8-kodierte Zeichen können theoretisch bis zu 6 Byte lang sein, aber 16-Bit-BMP-Zeichen sind nur bis zu 3 Byte lang.
Die Reihenfolge der Bigendian UCS-4-Byte Zeichenfolgen sind vorbestimmt.
Bytes 0xFE und 0xFF werden niemals in der UTF-8-Codierung verwendet.
Der GB2312-Standard enthält insgesamt 6763 chinesische Schriftzeichen, darunter 3755 chinesische Schriftzeichen der ersten und zweiten Stufe. Gleichzeitig gibt es 3008 chinesische Schriftzeichen Zeichen in voller Breite, einschließlich lateinischer Buchstaben, griechischer Buchstaben, japanischer Hiragana- und Katakana-Buchstaben sowie russischer kyrillischer Buchstaben.
Das Aufkommen von GB2312 erfüllt im Wesentlichen die Computerverarbeitungsanforderungen chinesischer Schriftzeichen. Die darin enthaltenen chinesischen Schriftzeichen decken 99,75 % der Verwendungshäufigkeit ab. In GB2312 sind die gesammelten chinesischen Schriftzeichen „partitioniert“ und jede Zone enthält 94 chinesische Schriftzeichen/Symbole. Diese Darstellung wird auch Standortcode genannt.
Die Bereiche 01-09 sind Sondersymbole.
Die Bereiche 16–55 sind chinesische Schriftzeichen der ersten Ebene, sortiert nach Pinyin.
Die Bereiche 56–87 sind chinesische Schriftzeichen der zweiten Ebene, sortiert nach Radikal/Strich.
Bezirke 10-15 und 88-94 sind nicht kodiert.
Zum Beispiel ist das Zeichen „Ah“ das erste chinesische Zeichen in GB2312 und sein Standortcode ist 1601. In Programmen, die GB2312 verwenden, verwendet die Bytestruktur normalerweise die EUC-Speichermethode, sodass Kompatibel mit ASCII. Jedes chinesische Zeichen und Symbol wird durch zwei Bytes dargestellt. Das erste Byte wird als „High-Byte“ und das zweite Byte als „Low-Byte“ bezeichnet. Das „High-Byte“ verwendet 0xA1-0xF7 (fügen Sie 0xA0 zur Vorwahl des Bereichs 01-87 hinzu), und das „Low-Byte“ verwendet 0xA1-0xFE (fügen Sie 01-94 zu 0xA0 hinzu). Zum Beispiel Das Wort „ah“ wird in den meisten Programmen als 0xB0A1 gespeichert. (Vergleiche mit Standortcode: 0xB0=0xA0+16, 0xA1=0xA0+1).
Das Dezimalsystem des chinesischen Zeichenbereichscodes in der GB2312-Kodierung reicht also von 176 bis 247 und der Bitcode von 161 bis 255. Der Grund, warum 6763 gespeichert wird, ist kleiner als 82*94=6768, weil Die Vorwahl ist 215 und der Bitcode ist 215. Es gibt fünf Codes zwischen 250 und 254 ohne chinesische Zeichenkodierung, also 6768-5 = 6763.
GB2312-Kodierung kann in China leicht als gemeinsame Sprache verstanden werden.
UTF-8 kann diese Kodierung leicht verstehen Festlandchina verwendet diese Kodierung.
Wenn die Kodierung gemischt ist, wird die Webseite verstümmelt, was auch als inkompatibel bezeichnet wird, insbesondere wenn die Kodierung gemischt ist Wird in der CSS-Kommentarzeile verwendet, führt dies zu einem CSS-Hack.
Ich hoffe, Sie werden in Zukunft nie vergessen, die Webseitenkodierung anzugeben, wenn Sie Webseiten erstellen.
Benutzer, die diese Seite angesehen haben, haben sich auch den folgenden Inhalt angesehen:
1. Die Unterschiede und Beziehungen zwischen UTF-8 GBK UTF8 GB2312
2. So wählen Sie die HTML-Kodierung aus Einstellungen
Das obige ist der detaillierte Inhalt vonDetaillierte Erläuterung der Sprachkodierung von Zeichensätzen in HTML. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!