Maison  >  Article  >  Java  >  Les caractères en Java sont tronqués

Les caractères en Java sont tronqués

王林
王林original
2019-11-26 16:45:092347parcourir

Les caractères en Java sont tronqués

Cause :

Un encodage et un décodage incohérents entraînaient des caractères tronqués.

Tout d'abord, nous pouvons obtenir le jeu de caractères par défaut du système en appelant java.nio.charset.Charset.defaultCharset(). Les systèmes Windows chinois sont tous GBK, donc la JVM utilise le jeu de caractères GBK par défaut pour l'encodage et le décodage. .

Tutoriels d'apprentissage vidéo associés : Vidéo d'enseignement Java

La plus grande possibilité de code tronqué est un encodage et un décodage incohérents.

// 代码片段1:
byte[] read = "你好abc".getBytes(); 
String result = new String(read);
System.out.println(result);

Il y a 3 étapes pour faire appel de ce code :

1. Ceci est écrit ici pour le rendre plus concis. En fait, c'est la même chose que lorsque vous lisez à partir d'autres médias tels que des fichiers/réseaux. Quel type d'encodage est le flux d'entrée d'origine et quel type d'encodage est après la lecture. La méthode d'encodage n'est pas spécifiée ici, la valeur par défaut est donc GBK.

2. Décodage. Nos opérations finales sont toutes des objets chaîne. Nous pouvons enfin obtenir un objet chaîne en spécifiant la méthode de décodage du tableau d'octets de la chaîne. Aucune méthode de décodage n'est spécifiée ici, la valeur par défaut est donc GBK.

3. Sortie, utilisez une chaîne. En fait, il existe ici un autre processus de codage et de décodage, c'est-à-dire que le flux de sortie est codé en GBK, la console est décodée en GBK et enfin affichée. Étant donné que le jeu de caractères par défaut du système est utilisé lors de la sortie et de l'utilisation de chaînes, il n'y a aucune possibilité d'incohérence dans l'encodage et le décodage, ce ne sera donc pas la source de caractères tronqués.

Supposons que nous modifions l'encodage du flux d'entrée :

// 代码片段2:
byte[] read = "你好abc".getBytes("utf-8"); 
String result = new String(read);
System.out.println(result);

Analysons les trois étapes :

1 Encodage,

2. , décodage, gbk.

L'encodage et le décodage sont incohérents, ce qui entraîne des codes tronqués.

Quant à savoir comment résoudre ce problème, je pense que c'est déjà clair.

La méthode de réparation est la suivante :

// 代码片段3:
byte[] read = "你好abc".getBytes("utf-8"); 
String result = new String(read,"utf-8");
System.out.println(result);

Changez simplement la méthode de décodage pour qu'elle corresponde à l'encodage.

Résumé :

1. Il nous est généralement difficile de contrôler l'encodage du flux d'entrée, alors faites attention au type d'encodage du flux d'entrée lors du décodage. . Nous voyons généralement le paramètre charset lors de l'appel des méthodes pertinentes du flux d'entrée, qui fait référence à la méthode de décodage.

2. Le flux de sortie peut également utiliser sa méthode d'encodage. Si le flux d'entrée est utilisé pour exploiter le résultat de sortie, comme un fichier, tant que cela est effectué de la manière par défaut, aucun code tronqué ne le sera. être généré. Nous voyons généralement le paramètre charset lors de l'appel des méthodes pertinentes du flux de sortie, qui fait référence à la méthode d'encodage.

Articles et tutoriels connexes recommandés : Tutoriel d'introduction à Java

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn