Java中关于char和String对于代码点和代码单元的提问

Question

Java中采用的是Unicode,并且使用UTF-16进行编码.首先,Unicode中有17个代码层次,除了第一个代码层次意外其余16个代码层次全部需要2个代码单元组成.那么问题就来了:1.String类的length()方法,在官方API中写明了是返...

高洛峰 · Answer

Unicode 文字エンコーディングには、16 ビットエンコーディングと 32 ビットエンコーディングの 2 つのスキームがあり、対応する文字セットはそれぞれ USC-2 と USC-4 と呼ばれます。 Java 言語は、16 ビット Unicode 文字エンコーディングである USC-2 文字セットを使用し、最初の 128 文字は ASCII 文字セットとまったく同じで、その後にラテン語、ギリシャ語、中国語などの他の言語が続きます。。

char は Java では 2 バイトです。 Java では、Unicode、2 バイト (16 ビット) を使用して文字を表現します。

天蓬老师 · Answer

すべての中国語の文字エンコーディングが 2 つのコード単位を占有するわけではありません。「国」という 2 つの文字に対応する Unicode エンコーディングは u56fd u5bb6 であり、各文字は 1 つの単位のみを占有します。 CJK Unified Chinese Character Extension A に含まれる文字など、一部の中国語の文字は 2 つのコード単位でエンコードする必要があります。例: "

Java中关于char和String对于代码点和代码单元的提问

全員に返信(2)返信します