Heim >Web-Frontend >HTML-Tutorial >HTML interpretieren: Namespaces und Zeichenkodierungen
Bei der Arbeit an Projekten legen wir häufig verschiedene Spezifikationen fest, um eine bessere Zusammenarbeit zwischen Teams zu ermöglichen und das Projekt besser abzuschließen. Ebenso hören wir häufig verschiedene Vereinbarungen. Beispielsweise verwendet die IM-Software Gtalk von Google das offene XMPP-Protokoll Solange andere IM-Software ebenfalls dem XMPP-Protokoll folgt, kann sie mit Gtalk zusammenarbeiten. Die Informationen selbst sind jedoch unabhängig voneinander vorhanden Benutzer müssen Sie das HTTP-Protokoll verwenden.
Da Browser unterschiedliche Kernel haben und Standardstile unterschiedlich darstellen, ist eine Reihe von Regeln erforderlich, die von jedem Browser befolgt werden, um sicherzustellen, dass dasselbe Webseitendokument in verschiedenen Browsern angezeigt wird Die auf dem Server präsentierte Regel ist die DOCTYPE-Anweisung.
Da das Internet miteinander verbunden ist, können zwei oder mehr Webseitendokumente einen Datenaustausch beinhalten, und da die XML-Sprache es Benutzern ermöglicht, Tags anzupassen, können in zwei beliebigen ausgetauschten Dokumenten dieselben Tags angezeigt werden, was zu einem Konflikt führt das gleiche Tag, daher ist ein Namespace erforderlich, um das gleiche Tag zu unterscheiden, das möglicherweise im Austauschdokument vorhanden ist.
XHTML kann als Sprache, die von HTML zu XML übergeht, keine benutzerdefinierten Tags in der XML-Sprache implementieren, daher sind die Namespaces in XHMTL-Dokumenten dieselben:
xmlns ist XHTML Die Abkürzung für Namespace ist der sogenannte „Namespace“. Wie die DOCTYPE-Deklaration ist auch xmlns ein Deklarationstyp. Im Gegensatz zur DOCTYPE-Anweisung, die in HTML-Dokumenten noch vorhanden ist, ist XMLNs in HTML-Dokumenten nicht vorhanden. Die XMLNs, die wir normalerweise sehen, erscheinen in XHTML-Dokumenten.
Wenn Sie eine Webseite erstellen, müssen Sie zusätzlich zur Deklaration von DOCTYPE (Dokumenttyp) am Anfang, wenn es sich um ein XHTML-Dokument handelt, auch einen Namespace deklarieren, und das dritte, was deklariert werden muss, ist die Zeichenkodierung des Webseitendokuments Typ:
Um von Browsern korrekt interpretiert und vom W3C überprüft zu werden, sollte jedes XHTML-Dokument die verwendete Zeichenkodierung angeben. Verstümmelte Zeichen in Webdokumenten werden oft durch eine falsche Zeichenkodierung verursacht.
utf-8 ist ein Kodierungsausdruck variabler Länge von Unicode. Als globale Zeichenkodierung wird es von immer mehr Webdokumenten verwendet, die die Zeichenkodierung utf-8 verwenden Am stärksten betroffen sind die verstümmelten Zeichen, die durch unterschiedliche Zeichenkodierungen verursacht werden, wenn Benutzer aus unterschiedlichen Regionen auf dieselbe Webseite zugreifen.
Aber wenn wir die meisten inländischen Websites, insbesondere große Portal-Websites, öffnen, lautet die Aussage zur Zeichenkodierung nicht utf-8, sondern gb2312:
Natürlich außer gb2312 gibt es Auch einige Websites verwenden die Kodierung gbk oder gb18030. Diese drei Zeichenkodierungen gehören zum vereinfachten chinesischen Zeichensatz. Mit anderen Worten: Wenn auf einem Computer der Zeichensatz für vereinfachtes Chinesisch nicht installiert ist, werden beim Zugriff auf eine chinesische Webseite mit der Zeichenkodierung gb2312 verstümmelte Zeichen angezeigt.
Da die Zeichenkodierung gb2312 aufgrund des Benutzerzugriffs aus verschiedenen Regionen zu verstümmelten Zeichen führen kann, warum nicht utf-8 verwenden?
Einer der Gründe können historische Gründe sein, und der andere, wichtigere Grund dürfte die unterschiedliche Dokumentgröße sein, die durch die unterschiedlichen Speichermethoden der beiden Kodierungen verursacht wird.
Bei Verwendung des Zeichenkodierungssatzes gb2312 belegt ein chinesisches Zeichen 2 Bytes, während die Anzahl der von einem chinesischen Zeichen in der UTF-8-Kodierung belegten Bytes häufig 3 Bytes oder sogar mehr als 3 Bytes beträgt. Daher ist für dasselbe chinesische Dokument das Speichervolumen bei Verwendung der Zeichenkodierung gb2312 kleiner als die Dokumentgröße, die bei Verwendung der Kodierung utf-8 gespeichert wird.
Bei chinesischen Websites mit viel Text und hohem Datenverkehr kann die Verwendung von gb2312-codierten Webdokumenten viel Datenverkehr beim Herunterladen und Senden einsparen. Darüber hinaus sind die Benutzergruppen chinesischer Websites grundsätzlich gesperrt. Dies sind die Gründe, warum viele Websites die GB2312-Kodierung anstelle der UTF-8-Kodierung verwenden.
Allerdings gibt es in China nicht viele Websites mit viel Text und hohem Datenverkehr. Darüber hinaus kann es zu Problemen mit verstümmelten Zeichenpaaren kommen, daher wird empfohlen, bei der Weberstellung die UTF-8-Kodierung zu verwenden Seiten.
Unabhängig davon, welche Codierung verwendet wird, ist es natürlich am wichtigsten, dass die von der gesamten Website verwendete Codierung konsistent ist.
Zusätzlich zu der oben genannten Methode zur Deklaration der Zeichenkodierung sehen Sie möglicherweise auch eine andere Deklarationsmethode:
Diese Art von Deklaration Diese Methode ist für ältere Browserversionen vorgesehen. Da Browser heute allgemein aktualisiert wurden, wird diese Deklarationsmethode nicht mehr empfohlen.
Das Obige ist die Interpretation von HTML: Namespace und Zeichenkodierung Weitere verwandte Artikel finden Sie auf der chinesischen PHP-Website (www.php.cn)!