Java 的内部字符串表示形式:修改后的 UTF-8 还是 UTF-16?
在探索 Java 中字符串的内部表示形式时,发生冲突的信息出现。一些消息来源声称 Java 使用 Modified UTF-8,而另一些消息来源则声称它使用 UTF-16。为了澄清这种差异,让我们深入研究细节。
根据 Oracle 的 Java 文档,Java 平台严重依赖 Unicode 字符集。因此,原始 char 数据类型表示无符号 16 位整数。该整数可以表示特定范围内的 Unicode 代码点或 UTF-16 的代码单元。至关重要的是,字符串、字符数组等字符序列以及 CharSequence 接口的实现都是 Java 中的 UTF-16 序列。
但是,必须注意的是 JVM 实现可以利用压缩字符串。当启用 -XX: UseCompressedStrings (某些 Java 6 更新中的默认设置)时,不需要 UTF-16 编码的字符串可以以 8 位格式存储,即 ISO-8859-1。
关于Java中的字符串序列化,UTF-8是默认编码。因此,当字符串被序列化时,它们使用 UTF-8。
最后,Java 使用两个字节表示一个 char,允许最大 65,535 的代码点。超出此限制的代码点占用两个字符,导致消耗四个字节。
以上是Java 如何在内部存储字符串:修改后的 UTF-8 或 UTF-16?的详细内容。更多信息请关注PHP中文网其他相关文章!