Comment gérer les marques d'ordre d'octet (BOM) lors de la lecture de fichiers CSV en Java ?-javaDidacticiel-php.cn

Maison

Java

javaDidacticiel

Comment gérer les marques d'ordre d'octet (BOM) lors de la lecture de fichiers CSV en Java ?

Patricia Arquette

Dec 27, 2024 am 09:57 AM

How to Handle Byte Order Marks (BOMs) When Reading CSV Files in Java?

La marque d'ordre des octets provoque des problèmes de lecture des fichiers CSV en Java

La marque d'ordre des octets (BOM) peut être présente au début de certains fichiers CSV fichiers, mais pas du tout. Lorsqu'elle est présente, la nomenclature est lue avec la première ligne du fichier, ce qui provoque des problèmes lors de la comparaison des chaînes.

Voici comment résoudre ce problème :

Solution :

Implémentez une classe wrapper, UnicodeBOMInputStream, qui détecte la présence d'une nomenclature Unicode au début d'un flux d'entrée. Si une nomenclature est détectée, la méthode skipBOM() peut être utilisée pour la supprimer.

Voici un exemple de la classe UnicodeBOMInputStream :

import java.io.IOException;
import java.io.InputStream;
import java.io.PushbackInputStream;

public class UnicodeBOMInputStream extends InputStream {

    private PushbackInputStream in;
    private BOM bom;
    private boolean skipped = false;

    public UnicodeBOMInputStream(InputStream inputStream) throws IOException {
        if (inputStream == null)
            throw new NullPointerException("Invalid input stream: null is not allowed");

        in = new PushbackInputStream(inputStream, 4);

        byte[] bom = new byte[4];
        int read = in.read(bom);

        switch (read) {
            case 4:
                if ((bom[0] == (byte) 0xFF) &&
                        (bom[1] == (byte) 0xFE) &&
                        (bom[2] == (byte) 0x00) &&
                        (bom[3] == (byte) 0x00)) {
                    this.bom = BOM.UTF_32_LE;
                    break;
                } else if ((bom[0] == (byte) 0x00) &&
                        (bom[1] == (byte) 0x00) &&
                        (bom[2] == (byte) 0xFE) &&
                        (bom[3] == (byte) 0xFF)) {
                    this.bom = BOM.UTF_32_BE;
                    break;
                }
            case 3:
                if ((bom[0] == (byte) 0xEF) &&
                        (bom[1] == (byte) 0xBB) &&
                        (bom[2] == (byte) 0xBF)) {
                    this.bom = BOM.UTF_8;
                    break;
                }
            case 2:
                if ((bom[0] == (byte) 0xFF) &&
                        (bom[1] == (byte) 0xFE)) {
                    this.bom = BOM.UTF_16_LE;
                    break;
                } else if ((bom[0] == (byte) 0xFE) &&
                        (bom[1] == (byte) 0xFF)) {
                    this.bom = BOM.UTF_16_BE;
                    break;
                }
            default:
                this.bom = BOM.NONE;
                break;
        }

        if (read > 0)
            in.unread(bom, 0, read);
    }

    public BOM getBOM() {
        return bom;
    }

    public UnicodeBOMInputStream skipBOM() throws IOException {
        if (!skipped) {
            in.skip(bom.bytes.length);
            skipped = true;
        }
        return this;
    }

    @Override
    public int read() throws IOException {
        return in.read();
    }

    @Override
    public int read(byte[] b) throws IOException {
        return in.read(b, 0, b.length);
    }

    @Override
    public int read(byte[] b, int off, int len) throws IOException {
        return in.read(b, off, len);
    }

    @Override
    public long skip(long n) throws IOException {
        return in.skip(n);
    }

    @Override
    public int available() throws IOException {
        return in.available();
    }

    @Override
    public void close() throws IOException {
        in.close();
    }

    @Override
    public synchronized void mark(int readlimit) {
        in.mark(readlimit);
    }

    @Override
    public synchronized void reset() throws IOException {
        in.reset();
    }

    @Override
    public boolean markSupported() {
        return in.markSupported();
    }

    private enum BOM {
        NONE, UTF_8, UTF_16_LE, UTF_16_BE, UTF_32_LE, UTF_32_BE
    }
}

Utilisation :

Utilisez le wrapper UnicodeBOMInputStream comme suit :

import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.InputStreamReader;

public class CSVReaderWithBOM {

    public static void main(String[] args) throws Exception {
        FileInputStream fis = new FileInputStream("test.csv");
        UnicodeBOMInputStream ubis = new UnicodeBOMInputStream(fis);

        System.out.println("Detected BOM: " + ubis.getBOM());

        System.out.print("Reading the content of the file without skipping the BOM: ");
        InputStreamReader isr = new InputStreamReader(ubis);
        BufferedReader br = new BufferedReader(isr);

        System.out.println(br.readLine());

        br.close();
        isr.close();
        ubis.close();
        fis.close();

        fis = new FileInputStream("test.csv");
        ubis = new UnicodeBOMInputStream(fis);
        isr = new InputStreamReader(ubis);
        br = new BufferedReader(isr);

        ubis.skipBOM();

        System.out.print("Reading the content of the file after skipping the BOM: ");
        System.out.println(br.readLine());

        br.close();
        isr.close();
        ubis.close();
        fis.close();
    }
}

Cette approche vous permet de lire des fichiers CSV avec ou sans nomenclature et d'éviter les problèmes de comparaison de chaînes causés par la présence de la nomenclature dans la première ligne du fichier.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article connexe

Indépendance de la plate-forme Java: différences entre le système d'exploitationMay 16, 2025 am 12:18 AM

Il existe des différences subtiles dans les performances de Java sur différents systèmes d'exploitation. 1) Les implémentations JVM sont différentes, telles que Hotspot et OpenJDK, qui affectent les performances et la collecte des ordures. 2) La structure du système de fichiers et le séparateur de chemin sont différents, il doit donc être traité à l'aide de la bibliothèque standard Java. 3) L'implémentation différentielle des protocoles de réseau affecte les performances du réseau. 4) L'apparence et le comportement des composants de l'interface graphique varient sur différents systèmes. En utilisant des bibliothèques standard et des tests de machines virtuelles, l'impact de ces différences peut être réduit et les programmes Java peuvent être assurés pour fonctionner en douceur.

Les meilleures fonctionnalités de Java: de la programmation orientée objet à la sécuritéMay 16, 2025 am 12:15 AM

JavaoffersRobustObject-OriendEdProgramming (OOP) andtop-notchsecurityfeatures.1) oopinjavaincludsclasses, objets, héritage, polymorphisme, etcapsulation, permettant

Meilleures fonctionnalités pour JavaScript vs JavaMay 16, 2025 am 12:13 AM

JavascriptandjavahavedistinctStrongings: javascriptexcelsIndynymICTpingpingandasynchronousprogramming, tandis que javaisrobustwithstrongoopandtyping.1)

Indépendance de la plate-forme Java: avantages, limitations et implémentationMay 16, 2025 am 12:12 AM

JavaachievesPlatformIndependencethroughthejavirtualmachine (jvm) et bytecode.1) thejvMinterpretsBytecode, permettant à la manière

Java: Indépendance de la plate-forme dans le mot réelMay 16, 2025 am 12:07 AM

Java'splatformIndependenceMeansapplicationsCanrunonanyplatformWithajvm, permettant "WriteOnce, Runanywhere". Cependant, les défis incluentjvMinconsistences, LibraryPortability, andPormanceVariations.poaddresshs This

Performances JVM vs autres languesMay 14, 2025 am 12:16 AM

Jvm'sperformance estcompatititivewithotherruntimes, offrant une élaboration de personnes, la sécurité et la productivité.1) jvmusjitcompilationfordynamicoptimizations.2) c offrant une performance de Nation

Indépendance de la plate-forme Java: exemples d'utilisationMay 14, 2025 am 12:14 AM

JavaachievesPlatformIndependencethroughthejavirtualmachine (jvm), permettant de codétorunonanyplatformwithajvm.1) codeiscompiledIntoBytecode, notmachine-specificcode.2) bytecodeisinterpretedythejvm

Architecture JVM: une plongée profonde dans la machine virtuelle JavaMay 14, 2025 am 12:12 AM

ThejvMisanabstractComputingMachinecrucialForrunningJavapRogramsDuetOtsPlatform-IndependentArchitecture.

See all articles

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet

4 Il y a quelques semainesByDDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Nordhold: Système de fusion, expliqué

1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin

4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Clair Obscur: Expedition 33 UE-Sandfall Game Crash? 3 façons!

2 Il y a quelques semainesByDDD

Afficher plus

Outils chauds

Version Mac de WebStorm

Outils de développement JavaScript utiles

SublimeText3 Linux nouvelle version

Dernière version de SublimeText3 Linux

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.