UTF8-codierte chinesische Zeichen belegen 3 Bytes. Bei der UTF-8-Kodierung entspricht ein chinesisches Zeichen drei Bytes und ein chinesisches Satzzeichen belegt drei Bytes, während bei der Unicode-Kodierung ein chinesisches Zeichen (einschließlich traditionellem Chinesisch) zwei Bytes entspricht. UTF-8 benötigt zur Kodierung jedes Zeichens nur 1 Byte. Für Latein, Griechisch, Kyrillisch und Hebräisch sind 2 Byte erforderlich Codierung.
Die Betriebsumgebung dieses Tutorials: Windows 7-System, Dell G3-Computer.
Wie viele Bytes belegen UTF-8-codierte chinesische Zeichen?
In der UTF-8-Kodierung: Ein chinesisches Zeichen entspricht drei Bytes und chinesische Satzzeichen belegen drei Bytes.
Ein englisches Zeichen entspricht einem Byte und die englische Interpunktion belegt ein Byte.
Unicode-Kodierung: Ein englisches Wort entspricht zwei Bytes und ein chinesisches Zeichen (einschließlich traditionellem Chinesisch) entspricht zwei Bytes. Die chinesische Zeichensetzung belegt zwei Bytes und die englische Zeichensetzung zwei Bytes.
UTF-8 verwendet 1~4 Bytes zum Kodieren jedes Zeichens:
1. Ein US-ASCIL-Zeichen benötigt nur 1 Byte zum Kodieren (Unicode-Bereich ist U+0000~U+007F).
2. Lateinische, griechische, kyrillische, armenische, hebräische, arabische, syrische und andere Buchstaben mit diakritischen Zeichen erfordern eine 2-Byte-Kodierung (Unicode-Bereich ist U+0080~U +07FF).
3. Zeichen in anderen Sprachen (einschließlich chinesischer, japanischer und koreanischer Zeichen, südostasiatischer Zeichen, nahöstlicher Zeichen usw.) umfassen die am häufigsten verwendeten Zeichen und verwenden eine 3-Byte-Kodierung.
4. Andere selten verwendete Sprachzeichen verwenden eine 4-Byte-Kodierung.
Erweiterte Kenntnisse:
UTF-8 (8-Bit, Universal Character Set/Unicode Transformation Format) ist eine Zeichenkodierung variabler Länge für Unicode. Es kann zur Darstellung jedes Zeichens im Unicode-Standard verwendet werden und das erste Byte seiner Kodierung ist weiterhin mit ASCII kompatibel, so dass die ursprüngliche Software, die ASCII-Zeichen verarbeitet, ohne oder mit nur wenigen Modifikationen weiterhin verwendet werden kann. Daher hat es sich nach und nach zur bevorzugten Kodierung für E-Mails, Webseiten und andere Anwendungen entwickelt, die Text speichern oder übertragen.
Zeichensatz:
UTF-8-Kodierungsregeln: Wenn nur ein Byte vorhanden ist, ist der Wert 0x00-0x7F. Die restlichen Bytes werden entsprechend der Länge wie folgt erweitert:
UTF-8 wird durch 4 Kodierungsmethoden implementiert, nämlich UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4. Darunter:
UTF8-1 |
0x00-0x7F |
UTF8-2 |
0xC 2-0xDF 0x80-0xBF
|
UTF8-3 |
0xE0 0xA0-0xBF 0x80-0xBF
0xE1-0xEC 0x80-0xBF 0x80-0xBF
0xED. 0x80-0x9F 0x80-0xBF
0xEE-0xEF 0x80-0xBF 0x80-0xBF
|
UTF8-4 |
0xF0 0x90-0xBF 0x80-0xBF 0 xF1-0xF3 0x80-0xBF 0x80-0xBF 0x80 - 0xBF
0xF4 0x80-0x8F 0x80-0xBF 0x80-0xBF | Hinweis: Zwischen jedem Kodierungsbereich werden Leerzeichen als Byte-Trennzeichen verwendet. Beispielsweise muss die erste Codierung von UTF8-3 einen ersten Bytewert von 0xE0 haben, der zweite Bytebereich ist 0xA0-0xBF und der dritte Bytebereich ist 0x80-0xBF.
Das obige ist der detaillierte Inhalt vonWie viele Bytes belegen utf8-codierte chinesische Zeichen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!