In diesem Artikel erfahren Sie, was die Unterschiede zwischen utf8 und utf8mb4 in MySQL sind. , hat einen bestimmten Referenzwert, Freunde in Not können sich darauf beziehen, ich hoffe, es wird Ihnen hilfreich sein.
MySQL hat nach 5.5.3 die utf8mb4-Kodierung hinzugefügt, was bedeutet, dass die meisten Bytes 4 sind und speziell für die Kompatibilität mit Vier-Byte-Unicode entwickelt wurden. Glücklicherweise ist utf8mb4 eine Obermenge von utf8 und es ist keine weitere Konvertierung erforderlich, außer die Codierung in utf8mb4 zu ändern. Um Platz zu sparen, reicht es natürlich normalerweise aus, utf8 zu verwenden.
Da utf8 die meisten chinesischen Zeichen speichern kann, warum sollten wir utf8mb4 verwenden? Es stellt sich heraus, dass die maximale Zeichenlänge der von MySQL unterstützten utf8-Kodierung 3 beträgt Im Abschnitt „Zeichen“ wird eine Ausnahme eingefügt, wenn ein 4 Byte breites Zeichen auftritt. Das maximale Unicode-Zeichen, das von Drei-Byte-UTF-8 codiert werden kann, ist 0xffff, das Basic Multilingual Plane (BMP) in Unicode. Mit anderen Worten: Alle Unicode-Zeichen, die sich nicht in der grundlegenden Multitextebene befinden, können nicht mit dem utf8-Zeichensatz von MySQL gespeichert werden. Einschließlich Emoji-Ausdrücken (Emoji ist eine spezielle Unicode-Kodierung, die auf iOS- und Android-Telefonen üblich ist), vielen ungewöhnlichen chinesischen Zeichen sowie allen neuen Unicode-Zeichen usw.
Das ursprüngliche UTF-8-Format verwendet ein bis sechs Bytes und kann bis zu 31 Zeichen kodieren. Die neueste UTF-8-Spezifikation verwendet nur ein bis vier Bytes und kann bis zu 21 Bit kodieren, was gerade ausreicht, um alle 17 Unicode-Ebenen darzustellen.
utf8 ist ein Zeichensatz in MySQL, der nur UTF-8-Zeichen bis zu drei Bytes unterstützt, was die grundlegende Multitextebene in Unicode ist.
Warum unterstützt utf8 in Mysql nur UTF-8-Zeichen mit einer maximalen Länge von drei Bytes?
Ich habe eine Weile darüber nachgedacht, vielleicht lag es daran, dass Unicode zu Beginn der Entwicklung von MySQL keine Hilfsebene hatte. Damals träumte das Unicode-Komitee noch davon, dass „65535 Zeichen für die ganze Welt reichen“. Die Zeichenfolgenlänge in MySQL wird als Anzahl der Zeichen und nicht als Anzahl der Bytes berechnet. Für den Datentyp CHAR muss eine ausreichende Länge für die Zeichenfolge reserviert werden. Bei Verwendung des UTF8-Zeichensatzes ist die Länge, die reserviert werden muss, die längste Zeichenlänge von UTF8 multipliziert mit der Zeichenfolgenlänge. Daher ist die maximale Länge von UTF8 natürlich auf 3 begrenzt. Beispielsweise wird CHAR (100) von MySQL reserviert 300 Byte. Was den Grund angeht, warum nachfolgende Versionen keine Unterstützung für UTF-8-Zeichen mit einer Länge von 4 Byte bieten, liegt meiner Meinung nach zum einen an Abwärtskompatibilitätsüberlegungen und zum anderen daran, dass Zeichen außerhalb der grundlegenden mehrsprachigen Ebene selten verwendet werden.
Um UTF-8-Zeichen mit einer Länge von 4 Byte in MySQL zu speichern, müssen Sie den Zeichensatz utf8mb4 verwenden, dieser wird jedoch erst nach Version 5.5.3 unterstützt (Version anzeigen: Version auswählen();). Ich denke, um eine bessere Kompatibilität zu erreichen, sollten Sie immer utf8mb4 anstelle von utf8 verwenden. Für Daten vom Typ CHAR wird utf8mb4 gemäß den offiziellen Empfehlungen von MySQL VARCHAR anstelle von CHAR verwenden.
Verwandte Empfehlungen:
So ändern Sie die Längenbeschränkung der Funktion „group_conca“ in MySQL
Verwendung von count() in großen MySQL-Tabellen und count in MySQL Optimierung von ()Das obige ist der detaillierte Inhalt vonWas sind die Unterschiede zwischen utf8 und utf8mb4 in MySQL?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!