Heim  >  Artikel  >  Web-Frontend  >  Welche Beziehung besteht zwischen utf8 und Unicode-Codierung? Was ist der Unterschied?_Basis-Tutorial

Welche Beziehung besteht zwischen utf8 und Unicode-Codierung? Was ist der Unterschied?_Basis-Tutorial

WBOY
WBOYOriginal
2016-05-16 12:09:422046Durchsuche

UTF8 == Unicode-Transformationsformat – 8 Bit
ist das Unicode-Übertragungsformat. Das heißt, Unicode-Dateien in BYTE-Transportströme konvertieren.

UTF8-Stream-Konvertierungsprogramm:
Eingabe: vorzeichenlose Ganzzahl c – der Codepunkt des zu kodierenden Zeichens (einen Unicode-Wert eingeben)
Ausgabe: Byte b1, b2, b3, b4 – das kodierte Folge von Bytes (Ausgabe von vier BYTE-Werten)
Algorithmus:
if (cb1 = c>>0 & 0x7F |. 0x00
b2 = null
b3 = null
b4 = null
else if (cb1 = c>>6 & 0x1F |. 0xC0
b2 = c>>0 & 0x3F |. 0x80
b3 = null
b4 = null
else if (cb1 = c>>12 & 0x0F |. 0xE0
b2 = c>>6 & 0x3F |. 0x80
b3 = c >>0 & 0x3F |. 0x80
b4 = null
else if (cb1 = c>>18 & 0x07 |. 0x80
b3 = c >>6 & 0x3F |. 0x80
b4 = c>>0 & 0x3F |
Unicode ist eine Codierungstabelle, die beispielsweise einen Code für ein chinesisches Schriftzeichen angibt. Ähnlich wie GB2312-1980, GB18030 usw., jedoch mit unterschiedlichen Zeichensätzen.
====================
Ein Unicode-Code kann in UTF8 mit einer Länge von einem BYTE oder zwei, drei oder vier BYTE konvertiert werden Code, hängt vom Wert des Unicode-Codes ab. Da der Wert des englischen Unicode-Codes kleiner als 0x80 ist, muss er nur in UTF8 von einem BYTE übertragen werden, was schneller ist als das Senden von zwei BYTEs Unicode.
UTF8 ist lediglich eine „Neukodierungs“-Methode zur Übertragung von Unicode.
Um UTF8 in Unicode zu konvertieren, verwenden Sie einfach das Programm, das ich oben angegeben habe, um die Rückrechnung durchzuführen.

UTF8 ist eine Übergangslösung vom bestehenden ASCII-System zum Unicode-System. UTF8 stellt die ASCII-Kompatibilität sicher und erweitert sich dann auf große Zeichensätze. Dies ist die von Unicode empfohlene Lösung. Da jedoch der Ansatz zur Lösung des Problems unterschiedlich ist, ist es keine gute Lösung für das bestehende chinesische System. Der folgende Link bietet detaillierte Vorkenntnisse zur UTF8-Kodierung: http://www.acnis.com/modules.php?name=ArticlE&file=article&sid=102 Referenz:
http://www.acnis.com/modules php? name=ArticlE&file=article&sid=102

Was ist Unicode? Das grundlegende Ziel von Unicode besteht darin, alle Kodierungen zu vereinheitlichen, das heißt, es enthält alle Zeichensätze. Solange ein System Unicode unterstützt, kann es diese Zeichensätze verarbeiten. Im Allgemeinen hat Unicode zwei Bytes. Alle aktuellen Windows-Betriebssysteme unterstützen Unicode.
Was ist UTF8? UTF8 ist eine Unicode-Kodierung, das heißt, der kodierte Zeichensatz stimmt mit Unicode überein. Die Kodierungsmethode ist jedoch unterschiedlich. Für englische Zeichen ist die UTF8-Kodierung dieselbe wie normal und verwendet ein Byte. Für Chinesisch muss es jedoch durch drei Bytes dargestellt werden (drei im Speicher).

Der Nachteil von UTF8 und Unicode besteht darin, dass der Algorithmus bei Problemen wie Suche und Suche komplexer und ineffizienter (im Speicher) zu sein scheint.

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn