Heim >Backend-Entwicklung >Golang >Wie Golang mit großen Dateien umgeht

Wie Golang mit großen Dateien umgeht

PHPz
PHPzOriginal
2023-04-27 09:11:481639Durchsuche

In der Entwicklung stoßen wir häufig auf Situationen, in denen wir große Dateien verarbeiten müssen. Als effiziente und geeignete Sprache für die gleichzeitige Verarbeitung umfasst die Go-Sprache natürlich die Verarbeitung großer Dateien. Unabhängig davon, ob Sie große Dateien lesen, schreiben oder ändern, müssen Sie einige Aspekte berücksichtigen, z. B.: Wie vermeidet man Speicherverluste? Wie geht man effizient damit um? In diesem Artikel stellen wir verschiedene Methoden zur Verarbeitung großer Dateien vor und konzentrieren uns auf den Umgang mit zu großen Dateien, um Programmabstürze zu vermeiden.

  1. Verwenden Sie die Segmentierungsverarbeitung

Unabhängig davon, ob Sie große Dateien lesen, schreiben oder ändern, müssen Sie im Allgemeinen darüber nachdenken, wie Sie Speicherverluste und Programmabstürze vermeiden können. Um große Dateien effektiv zu verarbeiten, wird häufig die geteilte Verarbeitung verwendet, um die große Datei in mehrere kleine Dateien aufzuteilen und dann die kleinen Dateien zu lesen und zu schreiben.

In der Go-Sprache können wir Dateien mithilfe der Methoden io.LimitReader() und io.MultiReader() aufteilen, um eine große Datei in mehrere kleine Dateien aufzuteilen -Einfädeln. io.LimitReader()io.MultiReader()方法来分割文件,将大文件分割成多个小文件,运用多线程处理。

通过以下代码的方式读取超过 500MB 的大文件:

var (
    maxSize int64 = 100 * 1024 * 1024 //100MB
)
func readBigFile(filename string) (err error) {
    file, err := os.Open(filename)
    if err != nil {
        return err
    }
    defer file.Close()

    fileInfo, err := file.Stat()
    if err != nil {
        return err
    }

    if fileInfo.Size() <= maxSize {
        _, err = io.Copy(os.Stdout, file)
    } else {
        n := (fileInfo.Size() + (maxSize - 1)) / maxSize
        var err error
        for i := int64(0); i < n; i++ {
            eachSize := maxSize
            if i == n-1 {
                eachSize = fileInfo.Size() - (n-1)*maxSize
            }
            sectionReader := io.NewSectionReader(file, i*maxSize, eachSize)
            _, err = io.Copy(os.Stdout, sectionReader)
            if err != nil {
                return err
            }
        }
    }
    return nil
}

在上述代码中,当读取到的文件大小超过最大允许值时,会使用复合读取方式,将大文件分成大小相同的多个区块进行读取,最后合并成最终结果。

以上的方式当然是针对读取大文件过程做优化,有的时候我们也会有文件写入方面的需求。

  1. 写入大文件

Go中写入大文件有一个最简单的方法,就是使用bufio.NewWriterSize()函数包裹上os.File(),并在Write前判断当前缓冲区是否已经满,满了之后调用Flush()方法将缓冲区中的数据写入到硬盘中。这种写入大文件的方式实现简单易行,适合大文件的写入。

    writer := bufio.NewWriterSize(file, size)
    defer writer.Flush()
    _, err = writer.Write(data)
  1. 处理大型CSV文件

除了读取和写入大文件,我们还可能会处理大型CSV文件。在处理CSV文件时,如果文件过大,会导致一些程序崩溃的问题,因此我们需要使用一些工具来处理这些大型CSV文件。Go 语言提供了一种名为 goroutine 和 channel 的机制,可以同时处理多个文件,从而达到快速处理大型CSV文件的目的。

在 Go 语言中,我们可以使用csv.NewReader()csv.NewWriter()方法分别构建读取和写入 CSV 文件的处理器,然后按照行扫描文件以读取数据。在 CSV 文件中使用一个管道来处理数据按照行存储的方式。

func readCSVFile(path string, ch chan []string) {
    file, err := os.Open(path)
    if err != nil {
        log.Fatal("读取文件失败:", err)
    }
    defer file.Close()
    reader := csv.NewReader(file)
    for {
        record, err := reader.Read()
        if err == io.EOF {
            break
        } else if err != nil {
            log.Fatal("csv文件读取失败:", err)
        }
        ch <- record
    }
    close(ch)
}

func writeCSVFile(path string, ch chan []string) {
    file, err := os.Create(path)
    if err != nil {
        log.Fatal("创建csv文件失败:", err)
    }
    defer file.Close()
    writer := csv.NewWriter(file)
    for record := range ch {
        if err := writer.Write(record); err != nil {
            log.Fatal("csv文件写入失败: ", err)
        }
        writer.Flush()
    }
}

在上述代码中,使用csv.NewReader()

Lesen Sie große Dateien mit mehr als 500 MB über den folgenden Code:

rrreee

Wenn im obigen Code die gelesene Dateigröße den maximal zulässigen Wert überschreitet, wird die zusammengesetzte Lesemethode verwendet, um die große Datei in mehrere gleich große Dateien aufzuteilen Blöcke werden gelesen und schließlich zum Endergebnis zusammengeführt.

Die obige Methode ist natürlich für das Lesen großer Dateien optimiert. Manchmal haben wir auch Anforderungen zum Schreiben von Dateien.

    Große Dateien schreiben

    🎜Der einfachste Weg, große Dateien in Go zu schreiben, besteht darin, die Funktion bufio.NewWriterSize() zu verwenden, um das Betriebssystem zu umschließen. File() und stellen Sie vor dem Schreiben fest, ob der aktuelle Puffer voll ist. Rufen Sie nach dem Schreiben die Methode Flush() auf, um die Daten im Puffer auf die Festplatte zu schreiben. Diese Methode zum Schreiben großer Dateien ist einfach und leicht zu implementieren und eignet sich zum Schreiben großer Dateien. 🎜rrreee
      🎜Umgang mit großen CSV-Dateien🎜🎜🎜Zusätzlich zum Lesen und Schreiben großer Dateien können wir auch große CSV-Dateien verarbeiten. Wenn bei der Verarbeitung von CSV-Dateien die Datei zu groß ist, führt dies zu Programmabstürzen. Daher müssen wir einige Tools verwenden, um diese großen CSV-Dateien zu verarbeiten. Die Go-Sprache bietet einen Mechanismus namens Goroutine und Channel, der mehrere Dateien gleichzeitig verarbeiten kann, um den Zweck der schnellen Verarbeitung großer CSV-Dateien zu erreichen. 🎜🎜In der Go-Sprache können wir die Methoden csv.NewReader() und csv.NewWriter() verwenden, um Prozessoren zum Lesen bzw. Schreiben von CSV-Dateien zu erstellen und dann zu scannen die Datei Zeile für Zeile, um Daten zu lesen. Verwenden Sie eine Pipeline in der CSV-Datei, um die Art und Weise zu verarbeiten, wie die Daten Zeile für Zeile gespeichert werden. 🎜rrreee🎜Im obigen Code wird die Methode csv.NewReader() verwendet, um die Datei zu durchlaufen, jede Datenzeile in einem Array zu speichern und das Array dann an den Kanal zu senden. Beim Lesen der CSV-Datei verwendeten wir Goroutinen und Kanäle, um die gesamte Datei gleichzeitig zu scannen. Nach dem Lesen schließen wir den Kanal, um zu zeigen, dass wir mit dem Lesen der Datei fertig sind. 🎜🎜Durch die oben beschriebene Methode ist es bei der Verarbeitung großer Dateien nicht mehr erforderlich, die gesamten Daten in den Speicher einzulesen, wodurch Speicherlecks und Programmabstürze vermieden und die Effizienz des Programmbetriebs verbessert werden. 🎜🎜Zusammenfassung: 🎜🎜In der obigen Einführung haben wir einige Methoden zur Verarbeitung großer Dateien untersucht, darunter die Verwendung der geteilten Verarbeitung, das Schreiben großer Dateien und die Verarbeitung großer CSV-Dateien. In der tatsächlichen Entwicklung können wir basierend auf den Geschäftsanforderungen eine geeignete Methode zur Verarbeitung großer Dateien auswählen, um die Programmleistung und -effizienz zu verbessern. Gleichzeitig müssen wir uns bei der Verarbeitung großer Dateien auf Speicherprobleme konzentrieren, die Speichernutzung angemessen planen und Speicherlecks vermeiden. 🎜🎜Wenn wir die Go-Sprache zum Verarbeiten großer Dateien verwenden, können wir die Funktionen der Go-Sprache wie Goroutine und Channel vollständig nutzen, sodass das Programm große Dateien effizient verarbeiten und Speicherverluste und Programmabstürze vermeiden kann. Obwohl in diesem Artikel relativ grundlegende Inhalte vorgestellt werden, können diese Methoden auf die Verarbeitung großer Dateien während der Entwicklung angewendet werden, wodurch die Programmleistung und -effizienz verbessert wird. 🎜

Das obige ist der detaillierte Inhalt vonWie Golang mit großen Dateien umgeht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn