Quelle est la représentation interne de Java pour une chaîne : UTF-8 ou UTF-16 modifié ?
Java utilise UTF-16 pour son texte interne représentation, comme indiqué dans la documentation Oracle. Cette représentation s'applique à diverses structures de données et classes qui stockent des séquences de caractères au sein de la plate-forme Java, telles que String et StringBuilder. Un entier non signé (caractère) de 16 bits en Java peut représenter un point de code Unicode ou des unités de code UTF-16.
Cependant, Java utilise également une modification non standard d'UTF-8 pour la sérialisation des chaînes. Cela signifie que les chaînes sérialisées sont stockées par défaut au format UTF-8.
Pour le stockage en mémoire, Java utilise 2 octets pour un type de données char. Notez que les points de code peuvent nécessiter une ou deux instances de caractères, ce qui entraîne respectivement 2 ou 4 octets d'espace de stockage.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!