Heim >häufiges Problem >Wie viele Bytes belegen utf8-codierte chinesische Zeichen?

Wie viele Bytes belegen utf8-codierte chinesische Zeichen?

青灯夜游
青灯夜游Original
2023-02-21 11:40:5216566Durchsuche

UTF8-codierte chinesische Zeichen belegen 3 Bytes. Bei der UTF-8-Kodierung entspricht ein chinesisches Zeichen drei Bytes und ein chinesisches Satzzeichen belegt drei Bytes, während bei der Unicode-Kodierung ein chinesisches Zeichen (einschließlich traditionellem Chinesisch) zwei Bytes entspricht. UTF-8 benötigt zur Kodierung jedes Zeichens nur 1 Byte. Für Latein, Griechisch, Kyrillisch und Hebräisch sind 2 Byte erforderlich Codierung.

Wie viele Bytes belegen utf8-codierte chinesische Zeichen?

Die Betriebsumgebung dieses Tutorials: Windows 7-System, Dell G3-Computer.

Wie viele Bytes belegen UTF-8-codierte chinesische Zeichen?

In der UTF-8-Kodierung: Ein chinesisches Zeichen entspricht drei Bytes und chinesische Satzzeichen belegen drei Bytes.

Ein englisches Zeichen entspricht einem Byte und die englische Interpunktion belegt ein Byte.

Unicode-Kodierung: Ein englisches Wort entspricht zwei Bytes und ein chinesisches Zeichen (einschließlich traditionellem Chinesisch) entspricht zwei Bytes. Die chinesische Zeichensetzung belegt zwei Bytes und die englische Zeichensetzung zwei Bytes.

Wie viele Bytes belegen utf8-codierte chinesische Zeichen?

UTF-8 verwendet 1~4 Bytes zum Kodieren jedes Zeichens:

1. Ein US-ASCIL-Zeichen benötigt nur 1 Byte zum Kodieren (Unicode-Bereich ist U+0000~U+007F).

2. Lateinische, griechische, kyrillische, armenische, hebräische, arabische, syrische und andere Buchstaben mit diakritischen Zeichen erfordern eine 2-Byte-Kodierung (Unicode-Bereich ist U+0080~U +07FF).

3. Zeichen in anderen Sprachen (einschließlich chinesischer, japanischer und koreanischer Zeichen, südostasiatischer Zeichen, nahöstlicher Zeichen usw.) umfassen die am häufigsten verwendeten Zeichen und verwenden eine 3-Byte-Kodierung.

4. Andere selten verwendete Sprachzeichen verwenden eine 4-Byte-Kodierung.

Erweiterte Kenntnisse:

UTF-8 (8-Bit, Universal Character Set/Unicode Transformation Format) ist eine Zeichenkodierung variabler Länge für Unicode. Es kann zur Darstellung jedes Zeichens im Unicode-Standard verwendet werden und das erste Byte seiner Kodierung ist weiterhin mit ASCII kompatibel, so dass die ursprüngliche Software, die ASCII-Zeichen verarbeitet, ohne oder mit nur wenigen Modifikationen weiterhin verwendet werden kann. Daher hat es sich nach und nach zur bevorzugten Kodierung für E-Mails, Webseiten und andere Anwendungen entwickelt, die Text speichern oder übertragen.

Zeichensatz:

UTF-8-Kodierungsregeln: Wenn nur ein Byte vorhanden ist, ist der Wert 0x00-0x7F. Die restlichen Bytes werden entsprechend der Länge wie folgt erweitert:

UTF-8 wird durch 4 Kodierungsmethoden implementiert, nämlich UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4. Darunter:

Hinweis: Zwischen jedem Kodierungsbereich werden Leerzeichen als Byte-Trennzeichen verwendet. Beispielsweise muss die erste Codierung von UTF8-3 einen ersten Bytewert von 0xE0 haben, der zweite Bytebereich ist 0xA0-0xBF und der dritte Bytebereich ist 0x80-0xBF. Weitere Informationen zu diesem Thema finden Sie in der Spalte „FAQ
UTF8, hexadezimale Codierung
UTF8-1
0x00-0x7F
UTF8-2
0xC 2-0xDF 0x80-0xBF
UTF8-3
0xE0 0xA0-0xBF 0x80-0xBF
0xE1-0xEC 0x80-0xBF 0x80-0xBF
0xED. 0x80-0x9F 0x80-0xBF
0xEE-0xEF 0x80-0xBF 0x80-0xBF
UTF8-4
0xF0 0x90-0xBF 0x80-0xBF 0 xF1-0xF3 0x80-0xBF 0x80-0xBF
0x80 - 0xBF
0xF4 0x80-0x8F 0x80-0xBF
0x80-0xBF
“!

Das obige ist der detaillierte Inhalt vonWie viele Bytes belegen utf8-codierte chinesische Zeichen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn