Heim  >  Artikel  >  Web-Frontend  >  Detaillierte Einführung in die korrekte Verwendung der GBK- und UTF-8-Kodierung

Detaillierte Einführung in die korrekte Verwendung der GBK- und UTF-8-Kodierung

黄舟
黄舟Original
2017-07-26 13:28:092519Durchsuche

Webseitenkodierung, im Englischen als Webseitenkodierung übersetzt, ist eine Bibliothek, die ihr spezifisches Zeichenkodierungsformat in Webseiten angibt.

GBK ist ein Standard, der auf dem nationalen Standard GB2312 basiert und erweitert wurde, um mit GB2312 kompatibel zu sein. Die Textkodierung von GBK wird durch Doppelbytes dargestellt, das heißt, sowohl chinesische als auch englische Zeichen werden durch Doppelbytes dargestellt. Um chinesische Zeichen zu unterscheiden, werden die höchsten Bits auf 1 gesetzt. GBK enthält alle chinesischen Zeichen und ist eine nationale Kodierung. Es ist weniger vielseitig als UTF8, belegt jedoch eine größere Datenbank als GBK.

UTF-8: Unicode TransformationFormat-8bit, BOM ist zulässig, BOM ist jedoch normalerweise nicht enthalten. Es handelt sich um eine Multibyte-Kodierung zur Lösung internationaler Zeichen. Sie verwendet 8 Bit (d. h. ein Byte) für Englisch und 24 Bit (drei Byte) für Chinesisch. UTF-8 enthält Zeichen, die von allen Ländern der Welt benötigt werden. Es handelt sich um eine internationale Kodierung und eine große Vielseitigkeit. UTF-8-codierter Text kann in Browsern in verschiedenen Ländern angezeigt werden, die den UTF8-Zeichensatz unterstützen. Wenn es sich um eine UTF8-Codierung handelt, kann Chinesisch auch im englischen IE von Ausländern angezeigt werden, und sie müssen das chinesische Sprachunterstützungspaket des IE nicht herunterladen.

Obwohl die UTF-8-Version über eine gute internationale Kompatibilität verfügt, benötigt Chinesisch 50 % mehr Datenbankspeicherplatz als die GBK/BIG5-Version, daher wird sie nicht empfohlen und ist nur für diejenigen gedacht, die besondere Anforderungen an die internationale Kompatibilität haben. Benutzernutzung. Einfach ausgedrückt: Für Websites mit mehr chinesischen Zeichen ist es sinnvoll, die GBK-Codierung zu verwenden, um Datenbankplatz zu sparen. Für Websites mit mehr Englisch ist es sinnvoll, UTF-8 zu verwenden, um Datenbankspeicherplatz zu sparen.

Wie konvertiere ich GBK, GB2312 usw. in UTF8? Zur Konvertierung von GBK, GB2312 usw. in UTF8 muss die Unicode-Kodierung verwendet werden: GBK, GB2312 – Unicode – UTF8; Mit „Speichern unter“ im Windows Notepad können Sie zwischen den Codierungsmethoden GBK, Unicode, Unicode Big Endian und UTF-8 konvertieren.

Wie kann der Browser die Webseitenkodierung korrekt erkennen? Im Allgemeinen muss der folgende Satz in der Webseite enthalten sein: , der den Zeichensatz angibt Die Kodierung dieser Webseite ist GB2312. (oder UTF-8)

Die Seite gibt manchmal die Kodierung an. Warum erscheint die Seite manchmal verstümmelt ? Dies kann daran liegen, dass die Kodierung der Seitendeklaration nicht mit der Kodierung der Datei selbst übereinstimmt. Häufiger wird die Seite mit der falschen Kodierung geöffnet und dann gespeichert, oder es wird eine FTP-Software verwendet, um die Datei direkt online zu ändern, wie etwa CuteFTP . Konvertierungsfehler treten aufgrund einer falschen Software-Kodierungskonfiguration auf. Öffnen Sie es zu diesem Zeitpunkt mit Windows Notepad und speichern Sie es mit „Speichern unter“ in der entsprechenden Codierung, um das Problem zu lösen.

Bei der Verwendung des IE als Browser auf einem Windows-Betriebssystem tritt häufig dieses Problem auf: Beim Durchsuchen einer mit UTF-8 kodierten Webseite kann der Browser die für die Seite verwendete Kodierung nicht automatisch erkennen, selbst wenn die Webseite dies getan hat Das Codierungsformat wurde deklariert: , was dazu führt, dass einige Seiten mit chinesischer UTF-8-Codierung leer sind Ausgabe. . Wenn Sie die Browser Firefox oder Sarafi verwenden, wird dieses Problem nicht auftreten. Dies liegt daran, dass der IE beim Parsen der Webseitenkodierung Tags in HTML und dann Informationen in HTTP-Headern priorisiert, während die Browser der Mozilla-Serie das Gegenteil tun.

Weil UTF-8 3 Bytes zur Darstellung eines Mannes verwendet, während normales GB2312 oder BIG5 zwei verwendet. Wenn die Seite aus den oben genannten Gründen ausgegeben wird, wenn der Browser den Inhalt von http://tbwsy.sinaapp.com/ analysiert und ausgibt, wenn eine ungerade Anzahl vollständiger Seiten vorhanden ist. Breite Zeichen vor , wenn IE UTF-8 als zwei Bytes analysiert, wird das halbe chinesische Zeichen mit dem kombiniert verstümmeltes Wort, was dazu führt, dass der IE den < Titel> nicht lesen kann, wodurch die gesamte Seite leer wird und sie ausgegeben wird Der Browser zeigt den Inhalt nicht an. Die einfachste Lösung besteht darin, vor zu setzen.

Das obige ist der detaillierte Inhalt vonDetaillierte Einführung in die korrekte Verwendung der GBK- und UTF-8-Kodierung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn