recherche
MaisonJavajavaDidacticielComment gérer les marques d'ordre d'octet (BOM) lors de la lecture de fichiers CSV en Java ?

How to Handle Byte Order Marks (BOMs) When Reading CSV Files in Java?

La marque d'ordre des octets provoque des problèmes de lecture des fichiers CSV en Java

La marque d'ordre des octets (BOM) peut être présente au début de certains fichiers CSV fichiers, mais pas du tout. Lorsqu'elle est présente, la nomenclature est lue avec la première ligne du fichier, ce qui provoque des problèmes lors de la comparaison des chaînes.

Voici comment résoudre ce problème :

Solution :

Implémentez une classe wrapper, UnicodeBOMInputStream, qui détecte la présence d'une nomenclature Unicode au début d'un flux d'entrée. Si une nomenclature est détectée, la méthode skipBOM() peut être utilisée pour la supprimer.

Voici un exemple de la classe UnicodeBOMInputStream :

import java.io.IOException;
import java.io.InputStream;
import java.io.PushbackInputStream;

public class UnicodeBOMInputStream extends InputStream {

    private PushbackInputStream in;
    private BOM bom;
    private boolean skipped = false;

    public UnicodeBOMInputStream(InputStream inputStream) throws IOException {
        if (inputStream == null)
            throw new NullPointerException("Invalid input stream: null is not allowed");

        in = new PushbackInputStream(inputStream, 4);

        byte[] bom = new byte[4];
        int read = in.read(bom);

        switch (read) {
            case 4:
                if ((bom[0] == (byte) 0xFF) &&
                        (bom[1] == (byte) 0xFE) &&
                        (bom[2] == (byte) 0x00) &&
                        (bom[3] == (byte) 0x00)) {
                    this.bom = BOM.UTF_32_LE;
                    break;
                } else if ((bom[0] == (byte) 0x00) &&
                        (bom[1] == (byte) 0x00) &&
                        (bom[2] == (byte) 0xFE) &&
                        (bom[3] == (byte) 0xFF)) {
                    this.bom = BOM.UTF_32_BE;
                    break;
                }
            case 3:
                if ((bom[0] == (byte) 0xEF) &&
                        (bom[1] == (byte) 0xBB) &&
                        (bom[2] == (byte) 0xBF)) {
                    this.bom = BOM.UTF_8;
                    break;
                }
            case 2:
                if ((bom[0] == (byte) 0xFF) &&
                        (bom[1] == (byte) 0xFE)) {
                    this.bom = BOM.UTF_16_LE;
                    break;
                } else if ((bom[0] == (byte) 0xFE) &&
                        (bom[1] == (byte) 0xFF)) {
                    this.bom = BOM.UTF_16_BE;
                    break;
                }
            default:
                this.bom = BOM.NONE;
                break;
        }

        if (read > 0)
            in.unread(bom, 0, read);
    }

    public BOM getBOM() {
        return bom;
    }

    public UnicodeBOMInputStream skipBOM() throws IOException {
        if (!skipped) {
            in.skip(bom.bytes.length);
            skipped = true;
        }
        return this;
    }

    @Override
    public int read() throws IOException {
        return in.read();
    }

    @Override
    public int read(byte[] b) throws IOException {
        return in.read(b, 0, b.length);
    }

    @Override
    public int read(byte[] b, int off, int len) throws IOException {
        return in.read(b, off, len);
    }

    @Override
    public long skip(long n) throws IOException {
        return in.skip(n);
    }

    @Override
    public int available() throws IOException {
        return in.available();
    }

    @Override
    public void close() throws IOException {
        in.close();
    }

    @Override
    public synchronized void mark(int readlimit) {
        in.mark(readlimit);
    }

    @Override
    public synchronized void reset() throws IOException {
        in.reset();
    }

    @Override
    public boolean markSupported() {
        return in.markSupported();
    }

    private enum BOM {
        NONE, UTF_8, UTF_16_LE, UTF_16_BE, UTF_32_LE, UTF_32_BE
    }
}

Utilisation :

Utilisez le wrapper UnicodeBOMInputStream comme suit :

import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.InputStreamReader;

public class CSVReaderWithBOM {

    public static void main(String[] args) throws Exception {
        FileInputStream fis = new FileInputStream("test.csv");
        UnicodeBOMInputStream ubis = new UnicodeBOMInputStream(fis);

        System.out.println("Detected BOM: " + ubis.getBOM());

        System.out.print("Reading the content of the file without skipping the BOM: ");
        InputStreamReader isr = new InputStreamReader(ubis);
        BufferedReader br = new BufferedReader(isr);

        System.out.println(br.readLine());

        br.close();
        isr.close();
        ubis.close();
        fis.close();

        fis = new FileInputStream("test.csv");
        ubis = new UnicodeBOMInputStream(fis);
        isr = new InputStreamReader(ubis);
        br = new BufferedReader(isr);

        ubis.skipBOM();

        System.out.print("Reading the content of the file after skipping the BOM: ");
        System.out.println(br.readLine());

        br.close();
        isr.close();
        ubis.close();
        fis.close();
    }
}

Cette approche vous permet de lire des fichiers CSV avec ou sans nomenclature et d'éviter les problèmes de comparaison de chaînes causés par la présence de la nomenclature dans la première ligne du fichier.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Indépendance de la plate-forme Java: différences entre le système d'exploitationIndépendance de la plate-forme Java: différences entre le système d'exploitationMay 16, 2025 am 12:18 AM

Il existe des différences subtiles dans les performances de Java sur différents systèmes d'exploitation. 1) Les implémentations JVM sont différentes, telles que Hotspot et OpenJDK, qui affectent les performances et la collecte des ordures. 2) La structure du système de fichiers et le séparateur de chemin sont différents, il doit donc être traité à l'aide de la bibliothèque standard Java. 3) L'implémentation différentielle des protocoles de réseau affecte les performances du réseau. 4) L'apparence et le comportement des composants de l'interface graphique varient sur différents systèmes. En utilisant des bibliothèques standard et des tests de machines virtuelles, l'impact de ces différences peut être réduit et les programmes Java peuvent être assurés pour fonctionner en douceur.

Les meilleures fonctionnalités de Java: de la programmation orientée objet à la sécuritéLes meilleures fonctionnalités de Java: de la programmation orientée objet à la sécuritéMay 16, 2025 am 12:15 AM

JavaoffersRobustObject-OriendEdProgramming (OOP) andtop-notchsecurityfeatures.1) oopinjavaincludsclasses, objets, héritage, polymorphisme, etcapsulation, permettant

Meilleures fonctionnalités pour JavaScript vs JavaMeilleures fonctionnalités pour JavaScript vs JavaMay 16, 2025 am 12:13 AM

JavascriptandjavahavedistinctStrongings: javascriptexcelsIndynymICTpingpingandasynchronousprogramming, tandis que javaisrobustwithstrongoopandtyping.1)

Indépendance de la plate-forme Java: avantages, limitations et implémentationIndépendance de la plate-forme Java: avantages, limitations et implémentationMay 16, 2025 am 12:12 AM

JavaachievesPlatformIndependencethroughthejavirtualmachine (jvm) et bytecode.1) thejvMinterpretsBytecode, permettant à la manière

Java: Indépendance de la plate-forme dans le mot réelJava: Indépendance de la plate-forme dans le mot réelMay 16, 2025 am 12:07 AM

Java'splatformIndependenceMeansapplicationsCanrunonanyplatformWithajvm, permettant "WriteOnce, Runanywhere". Cependant, les défis incluentjvMinconsistences, LibraryPortability, andPormanceVariations.poaddresshs This

Performances JVM vs autres languesPerformances JVM vs autres languesMay 14, 2025 am 12:16 AM

Jvm'sperformance estcompatititivewithotherruntimes, offrant une élaboration de personnes, la sécurité et la productivité.1) jvmusjitcompilationfordynamicoptimizations.2) c offrant une performance de Nation

Indépendance de la plate-forme Java: exemples d'utilisationIndépendance de la plate-forme Java: exemples d'utilisationMay 14, 2025 am 12:14 AM

JavaachievesPlatformIndependencethroughthejavirtualmachine (jvm), permettant de codétorunonanyplatformwithajvm.1) codeiscompiledIntoBytecode, notmachine-specificcode.2) bytecodeisinterpretedythejvm

Architecture JVM: une plongée profonde dans la machine virtuelle JavaArchitecture JVM: une plongée profonde dans la machine virtuelle JavaMay 14, 2025 am 12:12 AM

ThejvMisanabstractComputingMachinecrucialForrunningJavapRogramsDuetOtsPlatform-IndependentArchitecture.

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
Nordhold: Système de fusion, expliqué
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Version Mac de WebStorm

Version Mac de WebStorm

Outils de développement JavaScript utiles

SublimeText3 Linux nouvelle version

SublimeText3 Linux nouvelle version

Dernière version de SublimeText3 Linux

MinGW - GNU minimaliste pour Windows

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)