Heim  >  Artikel  >  Datenbank  >  Was ist der Unterschied zwischen der utf8- und utf8mb4-Codierung in MySQL?

Was ist der Unterschied zwischen der utf8- und utf8mb4-Codierung in MySQL?

不言
不言nach vorne
2019-03-26 11:26:462612Durchsuche

Der Inhalt dieses Artikels befasst sich mit dem Unterschied zwischen utf8- und utf8mb4-Codierung in MySQL? Es hat einen gewissen Referenzwert. Freunde in Not können sich darauf beziehen. Ich hoffe, es wird Ihnen hilfreich sein.

1. Einführung

MySQL hat nach 5.5.3 die utf8mb4-Kodierung hinzugefügt, was bedeutet, dass die meisten Bytes 4 sind und mit 4 Bytes kompatibel sind. Glücklicherweise ist utf8mb4 eine Obermenge von utf8, sodass außer der Änderung der Kodierung in utf8mb4 keine weitere Konvertierung erforderlich ist. Um Platz zu sparen, reicht es natürlich normalerweise aus, utf8 zu verwenden.

2. Inhaltsbeschreibung

Wie oben erwähnt, warum sollten wir utf8mb4 verwenden? Die maximale Zeichenlänge beträgt 3 Byte. Wenn ein 4 Byte breites Zeichen auftritt, wird eine Ausnahme eingefügt. Das maximale Unicode-Zeichen, das von Drei-Byte-UTF-8 codiert werden kann, ist 0xffff, das Basic Multilingual Plane (BMP) in Unicode. Mit anderen Worten: Alle Unicode-Zeichen, die sich nicht in der grundlegenden Multitextebene befinden, können nicht mit dem utf8-Zeichensatz von MySQL gespeichert werden. Einschließlich Emoji-Ausdrücken (Emoji ist eine spezielle Unicode-Kodierung, die auf iOS- und Android-Telefonen üblich ist), vielen ungewöhnlichen chinesischen Zeichen sowie allen neuen Unicode-Zeichen usw.

3. Ursache des Problems

Das ursprüngliche UTF-8-Format verwendet ein bis sechs Bytes und kann bis zu 31 Zeichen kodieren. Die neueste UTF-8-Spezifikation verwendet nur ein bis vier Bytes und kann bis zu 21 Bit kodieren, was gerade ausreicht, um alle 17 Unicode-Ebenen darzustellen.

utf8 ist ein Zeichensatz in MySQL, der nur UTF-8-Zeichen bis zu drei Byte unterstützt, was die grundlegende Multitextebene in Unicode ist.

Warum unterstützt utf8 in Mysql nur UTF-8-Zeichen mit einer maximalen Länge von drei Bytes?
Ich habe eine Weile darüber nachgedacht, vielleicht lag es daran, dass Unicode zu Beginn der Entwicklung von MySQL keine Hilfsebene hatte. Damals träumte das Unicode-Komitee noch davon, dass „65535 Zeichen für die ganze Welt reichen würden“. Die Zeichenfolgenlänge in MySQL wird als Anzahl der Zeichen und nicht als Bytes berechnet. Für den Datentyp CHAR muss eine ausreichende Länge für die Zeichenfolge reserviert werden. Bei Verwendung des UTF8-Zeichensatzes ist die Länge, die reserviert werden muss, die längste Zeichenlänge von UTF8 multipliziert mit der Zeichenfolgenlänge. Daher ist die maximale Länge von UTF8 natürlich auf 3 begrenzt. Beispielsweise wird CHAR (100) von MySQL reserviert 300 Byte. Was den Grund angeht, warum nachfolgende Versionen keine Unterstützung für UTF-8-Zeichen mit einer Länge von 4 Byte bieten, liegt meiner Meinung nach zum einen an Abwärtskompatibilitätsüberlegungen und zum anderen daran, dass Zeichen außerhalb der grundlegenden mehrsprachigen Ebene selten verwendet werden.

Um UTF-8-Zeichen mit einer Länge von 4 Byte in MySQL zu speichern, müssen Sie den Zeichensatz utf8mb4 verwenden, dieser wird jedoch erst nach Version 5.5.3 unterstützt (Version anzeigen: Version auswählen();). Ich denke, um eine bessere Kompatibilität zu erreichen, sollten Sie immer utf8mb4 anstelle von utf8 verwenden. Für Daten vom Typ CHAR wird utf8mb4 gemäß den offiziellen Empfehlungen von MySQL VARCHAR anstelle von CHAR verwenden.


Das obige ist der detaillierte Inhalt vonWas ist der Unterschied zwischen der utf8- und utf8mb4-Codierung in MySQL?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:jouypub. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen