Heim > Artikel > Backend-Entwicklung > Detaillierte Erklärung des Unterschieds zwischen utf8 und utf8mb4
Der Unterschied zwischen utf8 und utf8mb4
1. Einführung
MySQL hat diese utf8mb4-Kodierung nach 5.5.3, mb4, hinzugefügt bedeutet die meisten Bytes 4, was speziell für die Kompatibilität mit Vier-Byte-Unicode entwickelt wurde. utf8mb4 ist eine Obermenge von utf8 und es ist keine weitere Konvertierung erforderlich, außer der Änderung der Codierung in utf8mb4. Um Platz zu sparen, reicht es natürlich normalerweise aus, utf8 zu verwenden.
2. Inhaltsbeschreibung
Da utf8 die meisten chinesischen Zeichen speichern kann, warum sollten wir utf8mb4 verwenden? Es stellt sich heraus, dass die maximale Zeichenlänge der von MySQL unterstützten utf8-Kodierung 3 beträgt Im Abschnitt „Zeichen“ wird eine Ausnahme eingefügt, wenn ein 4 Byte breites Zeichen auftritt. Das maximale Unicode-Zeichen, das von Drei-Byte-UTF-8 codiert werden kann, ist 0xffff, das Basic Multilingual Plane (BMP) in Unicode. Mit anderen Worten: Alle Unicode-Zeichen, die sich nicht in der grundlegenden Multitextebene befinden, können nicht mit dem utf8-Zeichensatz von MySQL gespeichert werden. Einschließlich Emoji-Ausdrücken (Emoji ist eine spezielle Unicode-Kodierung, die auf iOS- und Android-Telefonen üblich ist), vielen ungewöhnlichen chinesischen Zeichen und allen neuen Unicode-Zeichen usw. (Nachteile von utf8).
Wenn Computer Zeichen speichern, weisen sie normalerweise Speicherplatz entsprechend verschiedenen Zeichentypen und Codierungsmethoden zu. Zum Beispiel die folgenden Kodierungsmethoden:
① Bei der ASCII-Kodierung belegt ein englischer Buchstabe (unabhängig von Groß- und Kleinschreibung) ein Byte Platz und ein chinesisches Zeichen zwei Bytes Platz. Eine binäre Zahlenfolge ist, wenn sie als digitale Einheit im Computer gespeichert wird, im Allgemeinen eine 8-Bit-Binärzahl, die in eine Dezimalzahl umgewandelt wird. Der Mindestwert ist 0 und der Höchstwert ist 255.
②Bei der UTF-8-Codierung belegt ein englisches Zeichen ein Byte Speicherplatz und ein chinesisches Zeichen (einschließlich traditionelles Chinesisch) drei Byte Speicherplatz.
③Bei der Unicode-Codierung belegt ein englisches Zeichen zwei Byte Speicherplatz und ein chinesisches Zeichen (einschließlich traditionelles Chinesisch) zwei Byte Speicherplatz.
④Bei der UTF-16-Codierung erfordert die Speicherung eines englischen alphabetischen Zeichens oder eines chinesischen Zeichens 2 Byte Speicherplatz (einige chinesische Zeichen im Unicode-Erweiterungsbereich erfordern 4 Byte zum Speichern).
⑤Bei der UTF-32-Codierung erfordert die Speicherung eines beliebigen Zeichens auf der Welt 4 Byte Speicherplatz.
Da utf8 mit den meisten Zeichen kompatibel ist, warum sollte man utf8mb4 erweitern?
Mit der Entwicklung des Internets sind viele neue Arten von Zeichen entstanden, wie zum Beispiel Emoji-Symbole, die kleinen gelben Gesichtsausdrücke, die wir normalerweise beim Chatten senden. Das Aussehen dieser Zeichen entspricht nicht mehr grundsätzlich dem Da es bei den flachen Unicode-Zeichen nicht möglich war, den utf8-Speicher in MySQL zu verwenden, erweiterte MySQL die utf8-Zeichen und fügte die utf8mb4-Kodierung hinzu.
Wenn Sie Benutzern beim Entwerfen einer Datenbank die Verwendung spezieller Symbole ermöglichen möchten, verwenden Sie daher am besten die utf8mb4-Codierung zum Speichern, damit die Datenbank besser kompatibel ist. Dieses Design verbraucht jedoch mehr Speicherplatz .
Empfohlenes Tutorial: „PHP vom Anfänger bis zum Experten“
Das obige ist der detaillierte Inhalt vonDetaillierte Erklärung des Unterschieds zwischen utf8 und utf8mb4. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!