Maison  >  Article  >  développement back-end  >  golang csv analysant les caractères tronqués

golang csv analysant les caractères tronqués

王林
王林original
2023-05-15 09:13:071092parcourir

Lorsque vous utilisez Golang pour analyser des fichiers csv, vous rencontrerez parfois le problème des caractères tronqués. Cette situation est très courante, mais elle est aussi très gênante. Alors, comment résoudre ce problème ?

Tout d'abord, il faut comprendre que csv est un format de fichier texte, utilisant "," pour séparer chaque champ. Lorsque les données texte du fichier CSV contiennent des caractères non-ASCII, des caractères tronqués apparaîtront. La cause de ce problème est en réalité liée à l'encodage. Elle est généralement causée par l'incohérence entre le format d'encodage du fichier csv et le format d'encodage utilisé lors de l'analyse.

Dans Golang, la bibliothèque csv couramment utilisée est l'encodage/csv intégré. Cette bibliothèque utilise le codage UTF-8 par défaut pour analyser les fichiers csv. Si vous souhaitez traiter des fichiers CSV dans d'autres formats d'encodage, un traitement supplémentaire est requis.

Il existe plusieurs façons de résoudre le problème des caractères tronqués. Nous les présenterons une par une ci-dessous :

Méthode 1. Convertir manuellement le format d'encodage

#. 🎜🎜#Avant d'effectuer l'analyse csv, nous pouvons d'abord convertir manuellement le format d'encodage du fichier csv en UTF-8. La méthode la plus simple consiste à utiliser le Bloc-notes pour ouvrir le fichier csv et le transférer au format UTF-8.

La conversion manuelle peut être gênante, surtout lorsque nous avons un grand nombre de fichiers csv. Nous pouvons donc essayer la deuxième méthode.

Méthode 2. Utiliser une bibliothèque tierce

La bibliothèque d'analyse csv courante dans Golang est encoding/csv Si nous devons traiter des fichiers csv dans d'autres formats d'encodage, nous Vous devez utiliser la bibliothèque tierce. Des bibliothèques tierces sont utilisées pour faciliter l'analyse. Par exemple, vous pouvez utiliser gocsv pour analyser les fichiers csv au format d'encodage gbk.

méthode d'installation gocsv :

$ allez chercher github.com/kuangyh/csv

Ensuite, vous pouvez utiliser gocsv pour analyser le csv comme ce fichier :

package main

import (
    "encoding/csv"
    "fmt"
    "github.com/kuangyh/csv"
    "os"
)

func main() {
    file, err := os.Open("example.csv")
    if err != nil {
        fmt.Println("Error:", err)
        return
    }

    defer file.Close()

    reader := csv.NewReader(gocsv.NewReader(file))
    reader.Comma = ','

    lines, err := reader.ReadAll()
    if err != nil {
        fmt.Println("Error:", err)
        return
    }

    for i, line := range lines {
        fmt.Printf("Line %d: %v
", i+1, line)
    }
}

Dans le code ci-dessus, nous importons d'abord la bibliothèque gocsv, puis utilisons gocsv pour créer un nouveau lecteur, le passons dans la bibliothèque d'encodage/csv et définissons le délimiteur sur ",". Enfin, utilisez la méthode ReadAll pour obtenir toutes les lignes du fichier et imprimer le résultat.

Bien que cette méthode soit efficace, elle présente également quelques problèmes. Par exemple, nous devons utiliser une bibliothèque tierce pour terminer la conversion, ce qui augmentera les dépendances et la complexité. Si nous ne voulons pas utiliser de bibliothèques tierces, il existe une troisième méthode.

Troisième méthode, analyse manuelle

Le processus d'analyse manuelle est peut-être plus fastidieux, mais c'est aussi une solution efficace. La clé est de comprendre le format du fichier csv.

Habituellement, nous ajoutons un en-tête de fichier à la première ligne du fichier csv, qui contient le nom de chaque champ. Cet en-tête de fichier fait également partie du fichier csv et peut être obtenu en analysant la première ligne. Dans la ligne de données, les données de chaque ligne sont composées de plusieurs champs, et ces champs sont séparés par ",". S'il n'y a pas de problème de code tronqué, nous pouvons alors utiliser la bibliothèque encoding/csv pour analyser directement le fichier csv. Mais si des caractères tronqués apparaissent, vous devez analyser manuellement chaque champ et les convertir au format UTF-8.

Ce qui suit est un code d'analyse manuelle :

package main

import (
    "bufio"
    "encoding/csv"
    "fmt"
    "io"
    "os"
)

func main() {
    file, err := os.Open("example.csv")
    if err != nil {
        fmt.Println("Error:", err)
    }
    defer file.Close()

    reader := bufio.NewReader(file)
    var lines [][]string

    for {
        line, err := reader.ReadString('
')
        if err != nil && err != io.EOF {
            fmt.Println("Error:", err)
            return
        }

        if line == "" {
            break
        }

        // 去除换行符
        line = line[:len(line)-2]

        r := csv.NewReader([]byte(line))
        r.Comma = ','

        fields, err := r.Read()
        if err != nil {
            fmt.Println("Error:", err)
            return
        }

        // 将字段转换为UTF-8
        for i, s := range fields {
            fields[i] = transform(s)
        }

        lines = append(lines, fields)
    }

    for i, line := range lines {
        fmt.Printf("Line %d: %v
", i+1, line)
    }
}

// 将单个字段转换为UTF-8
func transform(s string) string {
    data, err := ioutil.ReadAll(transform.NewReader(strings.NewReader(s), simplifiedchinese.GBK.NewDecoder()))
    if err != nil {
        return s
    }
    return string(data)
}

Dans le code ci-dessus, nous lisons d'abord chaque ligne du fichier csv via bufio, puis utilisons la bibliothèque encoding/csv pour analyser les données pour chaque ligne. Afin de résoudre le problème tronqué, nous utilisons la fonction transform() pour convertir chaque champ au format UTF-8.

Cette fonction reçoit un paramètre de chaîne, le convertit d'abord en Reader, puis utilise simplifiéchinese.GBK.NewDecoder() pour créer un décodeur, et enfin utilise la fonction ioutil.ReadAll() pour convertir les caractères encodés Convertissez la chaîne en UTF-8.

De cette façon, nous pouvons analyser manuellement le fichier csv et le convertir au format d'encodage UTF-8.

Résumé :

Les trois méthodes ci-dessus permettent de résoudre le problème tronqué de l'analyse des fichiers CSV Golang. Si le fichier csv que vous utilisez est codé en UTF-8, il peut être facilement analysé à l'aide du propre encodage/csv de Golang. Sinon, vous pouvez choisir d'analyser manuellement ou d'utiliser une bibliothèque tierce pour la conversion en fonction des besoins réels. Dans tous les cas, tant que vous maîtrisez la bonne méthode, le problème des caractères tronqués n'est plus un problème.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn