Maison  >  Article  >  Java  >  Introduction à la solution aux fichiers CSV tronqués exportés par Java

Introduction à la solution aux fichiers CSV tronqués exportés par Java

尚
original
2019-12-04 10:41:153405parcourir

Introduction à la solution aux fichiers CSV tronqués exportés par Java

1. Problème

Lorsque les données interrogées sont exportées sous forme de fichier xls (encodage UTF-8), les données sont normales mais lorsqu'elles sont exportées sous forme de fichier xls. Fichier CSV, les données du fichier sont des caractères chinois tronqués qui sont également codés en UTF-8. Lorsqu'ils sont exportés en codage GBK, l'affichage chinois est normal.

Je pensais que le problème était résolu. Lorsque j'ai exporté ultérieurement des données contenant des caractères latins (tels que ÀÆÊàÌ), les données exportées sous forme de fichier xls s'affichaient normalement. Lors de l'exportation sous forme de fichier CSV, les caractères latins du fichier. Le fichier était affiché sous la forme "?".

J'ai essayé de passer à d'autres méthodes d'encodage mais cela n'a pas fonctionné. J'ai trouvé une solution à ce problème en ligne.

2. Solution

Le fichier exporté en mode CSV ne contient pas d'informations de nomenclature par défaut En définissant l'identifiant de nomenclature (flux d'octets commençant par EF BB BF) pour le contenu à sortir, c'est-à-dire que ce problème peut être résolu. La méthode spécifique est la suivante : (Recommandé : tutoriel vidéo Java)

...
OutputStreamWriter outputStreamWriter = new OutputStreamWriter(response.getOutputStream(), "UTF-8");  
// 要输出的内容  
result = (String)contentMap.get(RESPONSE_RESULT);  
response.setHeader("Content-Disposition", "attachment;filename=test.csv");  
outputStreamWriter.write(new String(new byte[]{(byte) 0xEF, (byte) 0xBB, (byte) 0xBF}));  
outputStreamWriter.write(result);  
outputStreamWriter.flush();

S'il est implémenté avec le flux OutputStream, les paramètres peuvent être modifiés comme suit :

out = response.getOutputStream();     
//加上UTF-8文件的标识字符      
out.write(new byte []{(byte) 0xEF, (byte) 0xBB, (byte) 0xBF});

Remarque :

BOM : Byte Order Mark, marque d'ordre d'octet (ce qui suit est tiré de l'Encyclopédie Baidu)

Dans l'encodage UCS, il existe un code appelé "Zero width No-Break Space", qui est traduit en chinois par le caractère "Zero width No-Break Space", son encodage est FEFF. FFFE est un caractère qui n'existe pas dans UCS, il ne devrait donc pas apparaître dans la transmission réelle.

La spécification UCS recommande de transmettre les caractères "Zero width No-Break Space" avant de transmettre le flux d'octets. De cette façon, si le récepteur reçoit FEFF, cela indique que le flux d'octets est Big-Endian ; s'il reçoit FFFE, cela indique que le flux d'octets est Little-Endian. C'est pourquoi le caractère "Zero width No-Break Space" est également appelé BOM.

UTF-8 ne nécessite pas de nomenclature pour indiquer l'ordre des octets, mais peut utiliser une nomenclature pour indiquer l'encodage. Le codage UTF-8 pour le caractère « Zero width No-Break Space » est EF BB BF. Ainsi, si le récepteur reçoit un flux d'octets commençant par EF BB BF, il sait qu'il est codé en UTF-8. Windows utilise BOM pour marquer l'encodage des fichiers texte.

Pour plus de connaissances sur Java, veuillez faire attention à la colonne Tutoriel de base Java.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn