Heim >Backend-Entwicklung >Golang >Wie man mit chinesischem verstümmeltem Code in Golang Zip umgeht

Wie man mit chinesischem verstümmeltem Code in Golang Zip umgeht

PHPz
PHPzOriginal
2023-04-24 14:47:57813Durchsuche

Mit der Popularität der Golang-Sprache beginnen immer mehr Menschen, sie zur Entwicklung neuer Anwendungen zu nutzen. Eine der häufigsten Anwendungen besteht darin, Dateien aus dem Dateisystem zu packen und in eine ZIP-Datei zu komprimieren. Insbesondere beim Umgang mit chinesischen Dateinamen kann es leicht zu Problemen mit verstümmelten Zeichen kommen. In diesem Artikel wird erläutert, wie das Problem der verstümmelten chinesischen Zeichen in Golang Zip gelöst werden kann.

1. Problembeschreibung

Wenn der verarbeitete Dateiname chinesische Zeichen enthält, werden bei der Ausgabe in die ZIP-Datei verstümmelte Zeichen angezeigt. Das Bild unten zeigt eine Verzeichnisstruktur mit chinesischen Dateinamen:

example
├── file1.txt
└── 文件2.txt

Wir verwenden den folgenden Code, um es in eine ZIP-Datei zu packen:

package main

import (
    "archive/zip"
    "os"
    "path/filepath"
)

func main() {
    zipFileName := "example.zip"
    files := []string{"example/file1.txt", "example/文件2.txt"}

    // Create a new ZIP file.
    zipFile, err := os.Create(zipFileName)
    if err != nil {
        panic(err)
    }
    defer zipFile.Close()

    // Create a new writer to write to the ZIP file.
    zipWriter := zip.NewWriter(zipFile)
    defer zipWriter.Close()

    // Iterate over the files and add them to the ZIP file.
    for _, file := range files {
        addFileToZip(file, zipWriter)
    }
}

func addFileToZip(file string, zipWriter *zip.Writer) error {
    // Open the file to be added to the ZIP file.
    fileToZip, err := os.Open(file)
    if err != nil {
        return err
    }
    defer fileToZip.Close()

    // Get the file information for the file being added.
    fileInfo, err := fileToZip.Stat()
    if err != nil {
        return err
    }

    // Create a new file header for the file being added.
    header, err := zip.FileInfoHeader(fileInfo)
    if err != nil {
        return err
    }

    // Set the name for the file being added (this is what appears in the ZIP archive).
    header.Name = filepath.Base(file)

    // Add the file header to the ZIP archive.
    writer, err := zipWriter.CreateHeader(header)
    if err != nil {
        return err
    }

    // Copy the contents of the file into the ZIP archive.
    _, err = io.Copy(writer, fileToZip)
    if err != nil {
        return err
    }

    return nil
}

Durch die Ausführung dieses Programms wird die Datei example.zip generiert. Öffnen Sie die komprimierte Datei, die wir sehen können Der Dateiname ist verstümmelt. Wie in der folgenden Abbildung gezeigt:

Wie man mit chinesischem verstümmeltem Code in Golang Zip umgeht

Dies liegt daran, dass das Programm beim Ausführen von zipWriter.CreateHeader (Header) standardmäßig die UTF-8-Codierung verwendet, um den Dateinamen zu verarbeiten, der Dateiname jedoch die Standardcodierung des Systems verwendet (in meinem Fall GBK in der Mitte). Daher wird es beim Schreiben der ZIP-Datei verstümmelt.

2. Lösung

Um das oben genannte Problem zu lösen, müssen wir sicherstellen, dass der Dateiname in die UTF-8-Kodierung konvertiert wird, bevor wir die ZIP-Datei schreiben. Der Dateiname kann jedoch mit der Standardkodierung des Systems generiert werden. Daher müssen wir sicherstellen, dass das Kodierungsformat des Dateinamens korrekt identifiziert und in die UTF-8-Kodierung konvertiert wird.

Das Folgende ist ein einfaches Beispiel, das zeigt, wie die obigen Schritte implementiert werden:

package main

import (
    "archive/zip"
    "bytes"
    "io"
    "os"
    "path/filepath"
    "golang.org/x/text/encoding/simplifiedchinese"
    "golang.org/x/text/transform"
)

func main() {
    zipFileName := "example.zip"
    files := []string{"example/file1.txt", "example/文件2.txt"}

    // Create a new ZIP file.
    zipFile, err := os.Create(zipFileName)
    if err != nil {
        panic(err)
    }
    defer zipFile.Close()

    // Create a new writer to write to the ZIP file.
    zipWriter := zip.NewWriter(zipFile)
    defer zipWriter.Close()

    // Iterate over the files and add them to the ZIP file.
    for _, file := range files {
        addFileToZip(file, zipWriter)
    }
}

func addFileToZip(file string, zipWriter *zip.Writer) error {
    // Open the file to be added to the ZIP file.
    fileToZip, err := os.Open(file)
    if err != nil {
        return err
    }
    defer fileToZip.Close()

    // Get the file information for the file being added.
    fileInfo, err := fileToZip.Stat()
    if err != nil {
        return err
    }

    // Create a new file header for the file being added.
    header, err := zip.FileInfoHeader(fileInfo)
    if err != nil {
        return err
    }

    // Convert the file name to UTF-8.
    header.Name, err = toUTF8(fileInfo.Name())
    if err != nil {
        return err
    }

    // Add the file header to the ZIP archive.
    writer, err := zipWriter.CreateHeader(header)
    if err != nil {
        return err
    }

    // Copy the contents of the file into the ZIP archive.
    _, err = io.Copy(writer, fileToZip)
    if err != nil {
        return err
    }

    return nil
}

func toUTF8(src string) (string, error) {
    var (
        buf bytes.Buffer
        w   = transform.NewWriter(&buf, simplifiedchinese.GBK.NewDecoder())
    )
    _, err := w.Write([]byte(src))
    if err != nil {
        return "", err
    }
    err = w.Close()
    if err != nil {
        return "", err
    }
    return buf.String(), nil
}

Im obigen Code verwenden wir das Paket golang.org/x/text/transform, um den Dateinamen vom GBK-Format in das UTF-8-Format zu konvertieren . Wir importieren zunächst das Paket und konvertieren den Dateinamen mithilfe der Funktion toUTF8() von GBK in die UTF-8-Kodierung. Dann aktualisieren wir in der Funktion addFileToZip() Header.Name mit dem konvertierten Dateinamen und fügen ihn der ZIP-Datei hinzu.

Führen Sie die von diesem Programm generierte ZIP-Datei aus und der Dateiname wird normalerweise auf Chinesisch angezeigt.

Zusammenfassung

Wenn Sie das Golang-Zip-Paket verwenden und ein chinesischer Dateiname vorhanden ist, werden Sie bei der Ausgabe in die ZIP-Datei auf verstümmelte Zeichen stoßen. Um dieses Problem zu lösen, müssen wir zunächst den Dateinamen in die UTF-8-Kodierung konvertieren, um verstümmelte Zeichen zu vermeiden. In diesem Artikel haben wir das Paket golang.org/x/text/transform verwendet, um Dateinamen vom GBK-Format in das UTF-8-Format zu konvertieren. Auf diese Weise können wir sicherstellen, dass der Dateiname beim Hinzufügen zur ZIP-Datei nicht verstümmelt wird.

Das obige ist der detaillierte Inhalt vonWie man mit chinesischem verstümmeltem Code in Golang Zip umgeht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn