Heim  >  Artikel  >  Java  >  Wie viele Bytes belegt char in Java?

Wie viele Bytes belegt char in Java?

coldplay.xixi
coldplay.xixiOriginal
2020-10-26 09:19:1129523Durchsuche

Die von char in Java belegten Bytes: 1. Das char im internen Code in Java ist in UTF16 codiert, und ein char belegt zwei Bytes; 2. Das char im Fremdcode in Java ist in UTF8 codiert und ein Zeichen belegt [1~6] Bytes.

Wie viele Bytes belegt char in Java?

Bevor wir dieses Problem diskutieren, müssen wir zwischen Unicode und UTF unterscheiden.

  • Unicode: Eine einheitliche Zeichennummer, die nur eine Zuordnung zwischen Zeichen und Zahlen ermöglicht. Die Anzahl der Symbole nimmt ständig zu und hat die Grenze von einer Million überschritten. Details: [https://zh.wikipedia.org/zh-cn/Unicode]

  • UTF: Unicode-Transformationsformat. Definiert die Codierungsmethode von Zahlen in Unicode. UTF8 und UTF16 sind zwei der Implementierungsmethoden. Unter diesen ist utf8 eine Darstellung mit variabler Länge und die Länge kann 1 bis 6 Bytes betragen. utf16 ist eine Darstellung mit variabler Länge und die Länge kann 2 oder 4 Bytes betragen. Details: UTF8 [https://zh.wikipedia.org/zh-cn/UTF-8] UTF16 [https://zh.wikipedia.org/zh-cn/UTF-16]

Als nächstes brauchen wir um zwischen interner und externer Codierung zu unterscheiden.

  • Innerer Code: Die Codierungsmethode von char und string im Speicher, wenn eine bestimmte Sprache ausgeführt wird.

  • Äußerer Code: Mit Ausnahme des inneren Codes sind alle äußeren Codes.

Es ist zu beachten, dass die Codierungsmethode in der durch die Quellcodekompilierung generierten Objektcodedatei (ausführbare Datei oder Klassendatei) zu Fremdcode gehört.

Werfen wir zunächst einen Blick auf den internen Code

Der interne Code in JVM verwendet UTF16. In den frühen Tagen wurde UTF16 mit einer 2-Byte-Methode mit fester Länge codiert. Zwei Bytes können 65536 Symbole darstellen (tatsächlich kann es sogar weniger als diese Zahl darstellen), was damals ausreichte, um alle Zeichen in Unicode darzustellen. Mit der Zunahme der Zeichen in Unicode können 2 Bytes jedoch nicht alle Zeichen darstellen. UTF16 verwendet 2 Bytes oder 4 Bytes, um die Codierung abzuschließen. Um mit dieser Situation umzugehen, verwendet Java ein Zeichenpaar zur Darstellung von Zeichen, die 4 Bytes erfordern, wobei Vorwärtskompatibilitätsanforderungen berücksichtigt werden. Daher nimmt char in Java zwei Bytes ein, aber einige Zeichen erfordern zwei Zeichen, um sie darzustellen.

Fremdcode

Java-Klassendateien verwenden UTF8 zum Speichern von Zeichen, dh die Zeichen in der Klasse belegen 1 bis 6 Bytes.

Während der Java-Serialisierung werden Zeichen auch in UTF8 codiert, was 1 bis 6 Zeichen ausmacht.

Zusammenfassung:

  • Das Zeichen im internen Code (laufender Speicher) von Java ist mit UTF16 codiert. Ein Zeichen belegt zwei Bytes, für die Darstellung einiger Zeichen sind jedoch zwei Zeichen erforderlich. Ein Zeichen belegt also 2 oder 4 Bytes.

  • Char in Java Chinesischer und ausländischer Code wird mit UTF8 codiert und ein Zeichen belegt 1 bis 6 Bytes.

  • Bei der UTF16-Codierung belegen englische Zeichen zwei Bytes; die meisten chinesischen Zeichen (insbesondere häufig verwendete chinesische Zeichen) belegen zwei Bytes, und einzelne chinesische Zeichen (später hinzugefügte unicodecodierte chinesische Zeichen werden im Allgemeinen selten verwendet) seltene Zeichen) belegen vier Bytes .

  • Bei der UTF8-Codierung belegen englische Zeichen ein Byte; die meisten chinesischen Zeichen belegen drei Bytes und einige chinesische Zeichen belegen vier Bytes.

EOF

Verwandte kostenlose Lernempfehlungen: Java Basic Tutorial

Das obige ist der detaillierte Inhalt vonWie viele Bytes belegt char in Java?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn