Heim > Artikel > Web-Frontend > Neulinge müssen auf den HTML-Sprachkodierungszeichensatz achten (muss gelesen werden)
Was dieser Artikel Ihnen zeigt, ist, dass Anfänger auf den Zeichensatz für die Sprachcodierung von HTML achten müssen. Er hat einen gewissen Referenzwert. Ich hoffe, er wird für Sie hilfreich sein.
Achten Sie auf die Bedeutung der HTML-Sprachkodierung
1. Bedeutung der Codierung
Die Codierung kann zu verstümmelten Webseiten führen, wenn Betrachter den IE verwenden, und kann auch zu P+CSS-Kompatibilitäts-Hacks führen.
2. Codierungsort
Im Allgemeinen wird diese Webseitenkodierung zwischen
und platziert.3. HTML-Codierungsstil
Sie können die Codierung der Webseite ändern, indem Sie utf-8 in charset=utf ändern -8.
Im Allgemeinen müssen wir beim Schreiben von CSS-Dateien auch @charset "utf-8" am Anfang der CSS-Datei verwenden, um den Codierungstyp dieser CSS-Datei zu definieren. Im Allgemeinen müssen der HTML-Quellcode und die CSS-Dateikodierung vereinheitlicht werden. Wenn sie nicht vereinheitlicht werden, führt dies zu Kompatibilitätsproblemen wie CSS-Hacks, verstümmelten Seiten und chaotischem Seitenlayout.
4. Häufig verwendete HTML-Codierungstypen
Die beiden in China am häufigsten verwendeten sind utf-8 und gb2312. Im Allgemeinen können diese beiden Typen die inländischen Anforderungen an die Webseitenkodierung erfüllen. Natürlich werden diese beiden Kodierungsarten auch in Programmen und Datenbanken verwendet, um Webseiten zu verarbeiten und Datentypen zu speichern.
5. UTF-8 hat die folgenden Eigenschaften:
Die UCS-Zeichen U+0000 bis U+007F (ASCII) werden als Bytes 0x00 bis 0x7F (ASCII-kompatibel) codiert. Dies bedeutet, dass Dateien, die nur 7-Bit-ASCII-Zeichen enthalten, sowohl in der ASCII- als auch in der UTF-8-Codierung gleich sind.
Alle UCS-Zeichen >U+007F werden als Zeichenfolge aus mehreren Bytes codiert, jedes mit einem Satz von Flag-Bits. Daher können ASCII-Bytes (0x00-0x7F) nicht Teil eines anderen Zeichens sein.
Das erste Byte einer Multibyte-Zeichenfolge, die ein Nicht-ASCII-Zeichen darstellt, liegt immer im Bereich 0xC0 bis 0xFD und gibt an, wie viele Bytes das Zeichen enthält. Die verbleibenden Bytes der Multibyte-Zeichenfolge liegen im Bereich 0x80 bis 0xBF einfach und macht Kodierungen randlos und selten von fehlenden Bytes betroffen.
Kann alle möglichen 231 UCS-Codes programmieren
UTF-8-kodierte Zeichen können theoretisch bis zu 6 Byte lang sein, während 16-Bit-BMP-Zeichen nur bis zu 3 Byte lang sein können.
Die Reihenfolge der Bigendian UCS-4-Byte-Strings ist vorbestimmt.
Die Bytes 0xFE und 0xFF werden bei der UTF-8-Codierung niemals verwendet.
6. GB2312 hat die folgenden Eigenschaften
Der GB2312-Standard umfasst insgesamt 6763 chinesische Zeichen, darunter 3755 chinesische Zeichen der ersten Ebene und 3008 chinesische Zeichen der zweiten Ebene. Gleichzeitig umfasst GB2312 682 Zeichen, darunter lateinische Buchstaben, griechische Buchstaben, japanische Hiragana- und Katakana-Buchstaben sowie russische Kyrillische Buchstaben in voller Breite.
Das Aufkommen von GB2312 erfüllt im Wesentlichen die Computerverarbeitungsanforderungen chinesischer Schriftzeichen. Die darin enthaltenen chinesischen Schriftzeichen decken 99,75 % der Verwendungshäufigkeit ab. In GB2312 sind die gesammelten chinesischen Schriftzeichen „partitioniert“ und jede Zone enthält 94 chinesische Schriftzeichen/Symbole. Diese Darstellung wird auch Standortcode genannt.
Die Bereiche 01-09 sind Sondersymbole.
Die Bereiche 16–55 sind chinesische Schriftzeichen der ersten Ebene, sortiert nach Pinyin.
Die Bereiche 56–87 sind chinesische Schriftzeichen der zweiten Ebene, sortiert nach Radikal/Strich.
Die Bereiche 10-15 und 88-94 sind nicht kodiert.
Beispielsweise ist das Zeichen „ah“ das erste chinesische Zeichen in GB2312 und sein Standortcode ist 1601. In Programmen, die GB2312 verwenden, verwendet die Bytestruktur normalerweise die EUC-Speichermethode, um mit ASCII kompatibel zu sein. Jedes chinesische Zeichen und Symbol wird durch zwei Bytes dargestellt. Das erste Byte wird als „High-Byte“ und das zweite Byte als „Low-Byte“ bezeichnet. Das „High-Byte“ verwendet 0xA1-0xF7 (0xA0 zur Vorwahl des Bereichs 01-87 hinzufügen) und das „Low-Byte“ verwendet 0xA1-0xFE (01-94 zu 0xA0 hinzufügen). Beispielsweise wird das Wort „Ah“ in den meisten Programmen als 0xB0A1 gespeichert. (Vergleiche mit Standortcode: 0xB0=0xA0+16, 0xA1=0xA0+1).
Daher reicht das Dezimalsystem des chinesischen Schriftzeichen-Vorwahlcodes in der GB2312-Codierung von 176 bis 247 und der Bitcode von 161 bis 255. Der Grund, warum der gespeicherte 6763 kleiner als 82 * 94 = 6768 ist, liegt darin, dass der Vorwahlcode ist 215 und der Bitcode liegt zwischen 250 und 254. Es gibt insgesamt fünf Codes ohne chinesische Zeichencodes, also 6768-5 = 6763.
GB2312-Kodierung kann in China als gemeinsame Sprache verstanden werden.
7. Empfohlene Kodierung für den Zeichensatz
UTF-8 kann von vereinfachtem und traditionellem Chinesisch leicht verstanden werden. Beispielsweise wird diese Kodierung in Taiwan und Festlandchina verwendet.
8. Durch die Codierung verursachte Webseitenkompatibilitätsfehler
Wenn die Codierung gemischt ist, wird die Webseite verstümmelt, was auch als inkompatibel bezeichnet wird. Insbesondere wenn die Codierung in CSS-Kommentaren gemischt ist, führt dies zu einem CSS-Hack.
Das Obige ist eine vollständige Einführung in den HTML-Sprachkodierungszeichensatz (ein Muss) für Anfänger. Wenn Sie mehr über HTML-Tutorials erfahren möchten, schauen Sie sich bitte die chinesische PHP-Website an.
Das obige ist der detaillierte Inhalt vonNeulinge müssen auf den HTML-Sprachkodierungszeichensatz achten (muss gelesen werden). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!