Java中关于char和String对于代码点和代码单元的提问

Question

Java中采用的是Unicode,并且使用UTF-16进行编码.首先,Unicode中有17个代码层次,除了第一个代码层次意外其余16个代码层次全部需要2个代码单元组成.那么问题就来了:1.String类的length()方法,在官方API中写明了是返...

高洛峰 · Answer

Le codage des caractères Unicode a deux schémas : le codage 16 bits et le codage 32 bits. Les jeux de caractères correspondants sont appelés respectivement USC-2 et USC-4. Le langage Java utilise le jeu de caractères USC-2, qui est un codage de caractères Unicode 16 bits. Les 128 premiers caractères sont exactement les mêmes que le jeu de caractères ASCII, suivis par d'autres langues, telles que les caractères latins, grecs, chinois, etc. .

char fait 2 octets en java. Java utilise Unicode, 2 octets (16 bits) pour représenter un caractère.

天蓬老师 · Answer

Tous les encodages de caractères chinois n'occupent pas deux unités de code. Les encodages Unicode correspondant aux deux caractères « pays » sont u56fd u5bb6, et chaque caractère n'occupe qu'une seule unité. Certains caractères chinois doivent être codés avec deux unités de code, tels que les caractères inclus dans l'extension de caractères chinois unifiés CJK A. Par exemple : "

Java中关于char和String对于代码点和代码单元的提问

répondre à tous(2)je répondrai