Java の文字列の内部表現: 変更された UTF-8 または UTF-16 とは何ですか?
Java は内部テキストに UTF-16 を利用しますOracle のドキュメントに記載されている表現。この表現は、String や StringBuilder など、Java プラットフォーム内の文字シーケンスを格納するさまざまなデータ構造やクラスに適用されます。 Java の 16 ビット符号なし整数 (char) は、Unicode コード ポイントまたは UTF-16 のコード単位を表すことができます。
ただし、Java は文字列のシリアル化に UTF-8 の非標準の変更も採用しています。これは、シリアル化された文字列がデフォルトで UTF-8 形式で格納されることを意味します。
メモリ内の格納には、Java は char データ型に 2 バイトを使用します。コード ポイントには 1 つまたは 2 つの char インスタンスが必要な場合があり、その結果、それぞれ 2 バイトまたは 4 バイトの記憶域スペースが必要になることに注意してください。
以上がJava は内部的に文字列 (UTF-8 または UTF-16) をどのように表現しますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。