


Comment gérer les marques d'ordre d'octet (BOM) lors de la lecture de fichiers CSV en Java ?
La marque d'ordre des octets provoque des problèmes de lecture des fichiers CSV en Java
La marque d'ordre des octets (BOM) peut être présente au début de certains fichiers CSV fichiers, mais pas du tout. Lorsqu'elle est présente, la nomenclature est lue avec la première ligne du fichier, ce qui provoque des problèmes lors de la comparaison des chaînes.
Voici comment résoudre ce problème :
Solution :
Implémentez une classe wrapper, UnicodeBOMInputStream, qui détecte la présence d'une nomenclature Unicode au début d'un flux d'entrée. Si une nomenclature est détectée, la méthode skipBOM() peut être utilisée pour la supprimer.
Voici un exemple de la classe UnicodeBOMInputStream :
import java.io.IOException; import java.io.InputStream; import java.io.PushbackInputStream; public class UnicodeBOMInputStream extends InputStream { private PushbackInputStream in; private BOM bom; private boolean skipped = false; public UnicodeBOMInputStream(InputStream inputStream) throws IOException { if (inputStream == null) throw new NullPointerException("Invalid input stream: null is not allowed"); in = new PushbackInputStream(inputStream, 4); byte[] bom = new byte[4]; int read = in.read(bom); switch (read) { case 4: if ((bom[0] == (byte) 0xFF) && (bom[1] == (byte) 0xFE) && (bom[2] == (byte) 0x00) && (bom[3] == (byte) 0x00)) { this.bom = BOM.UTF_32_LE; break; } else if ((bom[0] == (byte) 0x00) && (bom[1] == (byte) 0x00) && (bom[2] == (byte) 0xFE) && (bom[3] == (byte) 0xFF)) { this.bom = BOM.UTF_32_BE; break; } case 3: if ((bom[0] == (byte) 0xEF) && (bom[1] == (byte) 0xBB) && (bom[2] == (byte) 0xBF)) { this.bom = BOM.UTF_8; break; } case 2: if ((bom[0] == (byte) 0xFF) && (bom[1] == (byte) 0xFE)) { this.bom = BOM.UTF_16_LE; break; } else if ((bom[0] == (byte) 0xFE) && (bom[1] == (byte) 0xFF)) { this.bom = BOM.UTF_16_BE; break; } default: this.bom = BOM.NONE; break; } if (read > 0) in.unread(bom, 0, read); } public BOM getBOM() { return bom; } public UnicodeBOMInputStream skipBOM() throws IOException { if (!skipped) { in.skip(bom.bytes.length); skipped = true; } return this; } @Override public int read() throws IOException { return in.read(); } @Override public int read(byte[] b) throws IOException { return in.read(b, 0, b.length); } @Override public int read(byte[] b, int off, int len) throws IOException { return in.read(b, off, len); } @Override public long skip(long n) throws IOException { return in.skip(n); } @Override public int available() throws IOException { return in.available(); } @Override public void close() throws IOException { in.close(); } @Override public synchronized void mark(int readlimit) { in.mark(readlimit); } @Override public synchronized void reset() throws IOException { in.reset(); } @Override public boolean markSupported() { return in.markSupported(); } private enum BOM { NONE, UTF_8, UTF_16_LE, UTF_16_BE, UTF_32_LE, UTF_32_BE } }
Utilisation :
Utilisez le wrapper UnicodeBOMInputStream comme suit :
import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; public class CSVReaderWithBOM { public static void main(String[] args) throws Exception { FileInputStream fis = new FileInputStream("test.csv"); UnicodeBOMInputStream ubis = new UnicodeBOMInputStream(fis); System.out.println("Detected BOM: " + ubis.getBOM()); System.out.print("Reading the content of the file without skipping the BOM: "); InputStreamReader isr = new InputStreamReader(ubis); BufferedReader br = new BufferedReader(isr); System.out.println(br.readLine()); br.close(); isr.close(); ubis.close(); fis.close(); fis = new FileInputStream("test.csv"); ubis = new UnicodeBOMInputStream(fis); isr = new InputStreamReader(ubis); br = new BufferedReader(isr); ubis.skipBOM(); System.out.print("Reading the content of the file after skipping the BOM: "); System.out.println(br.readLine()); br.close(); isr.close(); ubis.close(); fis.close(); } }
Cette approche vous permet de lire des fichiers CSV avec ou sans nomenclature et d'éviter les problèmes de comparaison de chaînes causés par la présence de la nomenclature dans la première ligne du fichier.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Il existe des différences subtiles dans les performances de Java sur différents systèmes d'exploitation. 1) Les implémentations JVM sont différentes, telles que Hotspot et OpenJDK, qui affectent les performances et la collecte des ordures. 2) La structure du système de fichiers et le séparateur de chemin sont différents, il doit donc être traité à l'aide de la bibliothèque standard Java. 3) L'implémentation différentielle des protocoles de réseau affecte les performances du réseau. 4) L'apparence et le comportement des composants de l'interface graphique varient sur différents systèmes. En utilisant des bibliothèques standard et des tests de machines virtuelles, l'impact de ces différences peut être réduit et les programmes Java peuvent être assurés pour fonctionner en douceur.

JavaoffersRobustObject-OriendEdProgramming (OOP) andtop-notchsecurityfeatures.1) oopinjavaincludsclasses, objets, héritage, polymorphisme, etcapsulation, permettant

JavascriptandjavahavedistinctStrongings: javascriptexcelsIndynymICTpingpingandasynchronousprogramming, tandis que javaisrobustwithstrongoopandtyping.1)

JavaachievesPlatformIndependencethroughthejavirtualmachine (jvm) et bytecode.1) thejvMinterpretsBytecode, permettant à la manière

Java'splatformIndependenceMeansapplicationsCanrunonanyplatformWithajvm, permettant "WriteOnce, Runanywhere". Cependant, les défis incluentjvMinconsistences, LibraryPortability, andPormanceVariations.poaddresshs This

Jvm'sperformance estcompatititivewithotherruntimes, offrant une élaboration de personnes, la sécurité et la productivité.1) jvmusjitcompilationfordynamicoptimizations.2) c offrant une performance de Nation

JavaachievesPlatformIndependencethroughthejavirtualmachine (jvm), permettant de codétorunonanyplatformwithajvm.1) codeiscompiledIntoBytecode, notmachine-specificcode.2) bytecodeisinterpretedythejvm

ThejvMisanabstractComputingMachinecrucialForrunningJavapRogramsDuetOtsPlatform-IndependentArchitecture.


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Version Mac de WebStorm
Outils de développement JavaScript utiles

SublimeText3 Linux nouvelle version
Dernière version de SublimeText3 Linux

MinGW - GNU minimaliste pour Windows
Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)
