Große CSV-Verarbeitung mit Go-Golang-php.cn

Heim

Backend-Entwicklung

Golang

Große CSV-Verarbeitung mit Go

Linda Hamilton

Nov 27, 2024 am 12:54 AM

Die Idee ist:

Angenommen, eine große Dummy-CSV-Datei (1 Million Zeilen) enthält Stichproben von Kundendaten und führt die Verarbeitung mit den folgenden Zielen durch:

Extrahieren Sie die Daten aus der CSV

Berechnen Sie, wie viele Daten/Zeilen

Gruppierung der Anzahl der Kunden für jede Stadt

Städte nach Kundenzahl sortieren, vom höchsten zum niedrigsten Wert

Bearbeitungszeit berechnen

Beispiel-CSV-Dateien der Kunden können hier heruntergeladen werden: https://github.com/datablist/sample-csv-files

Daten laden und extrahieren

Anscheinend verfügt Go über eine Standardbibliothek für die CSV-Verarbeitung. Wir brauchen keine Abhängigkeit von Dritten mehr, um unser Problem zu lösen, was schön ist. Die Lösung ist also ziemlich einfach:

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }

Öffnen Sie die Datei über den angegebenen Pfad
Geöffnete Datei in CSV-Reader laden
Speichert alle extrahierten CSV-Datensätze/Zeilenwerte zur späteren Verarbeitung im Datensatzbereich

FieldsPerRecord ist auf -1 gesetzt, weil ich die Feldprüfung in der Zeile überspringen möchte, da die Anzahl der Felder oder Spalten in jedem Format unterschiedlich sein kann

In diesem Zustand können wir bereits alle Daten aus der CSV-Datei laden und extrahieren und sind für den nächsten Verarbeitungszustand bereit. Mit der Funktion len(records) können wir auch ermitteln, wie viele Zeilen in CSV vorhanden sind.

Gruppierung der Gesamtkundenzahl nach jeder Stadt

Jetzt können wir die Datensätze iterieren und erstellen, dass die Karte den Namen der Stadt und die Gesamtzahl der Kunden enthält und so aussieht:

["Jakarta": 10, "Bandung": 200, ...]

Stadtdaten in der CSV-Zeile befinden sich im 7. Index und der Code sieht so aus

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

Wenn die Stadtkarte nicht vorhanden ist, erstellen Sie eine neue Karte und setzen Sie die Gesamtzahl der Kunden auf 1. Andernfalls erhöhen Sie einfach die Gesamtzahl der angegebenen Stadt.

Jetzt haben wir Karte m, die eine Sammlung der Stadt und der Anzahl der darin enthaltenen Kunden enthält. Zu diesem Zeitpunkt haben wir bereits das Problem der Gruppierung der Anzahl der Kunden für jede Stadt gelöst.

Sortierung nach höchstem Gesamtkundenwert

Ich habe versucht herauszufinden, ob es in der Standardbibliothek eine Funktion zum Sortieren der Karte gibt, konnte sie aber leider nicht finden. Die Sortierung ist nur für Slice möglich, da wir die Datenreihenfolge basierend auf der Indexposition neu anordnen können. Also ja, machen wir einen Ausschnitt aus unserer aktuellen Karte.

// convert to slice first for sorting purposes
dc := []CityDistribution{}
for k, v := range m {
  dc = append(dc, CityDistribution{City: k, CustomerCount: v})
}

Wie haben wir es nun nach CustomerCount vom höchsten zum niedrigsten sortiert? Der gebräuchlichste Algorithmus hierfür ist die Verwendung von Bubble Short. Obwohl es nicht das Schnellste ist, könnte es seinen Zweck erfüllen.

Bubble Sort ist der einfachste Sortieralgorithmus, der durch wiederholtes Vertauschen benachbarter Elemente funktioniert, wenn sie in der falschen Reihenfolge sind. Dieser Algorithmus eignet sich nicht für große Datensätze, da seine durchschnittliche und ungünstigste Zeitkomplexität recht hoch ist.

Referenz: https://www.geeksforgeeks.org/bubble-sort-algorithm/

Mithilfe unseres Slice durchläuft es die Daten, prüft den nächsten Wert des Index und tauscht ihn aus, wenn die aktuellen Daten kleiner als der nächste Index sind. Sie können den detaillierten Algorithmus auf der Referenzwebsite überprüfen.

Jetzt könnte unser Sortierprozess so aussehen

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }

Am Ende der Schleife liefert uns das letzte Segment sortierte Daten.

Berechnen Sie die Bearbeitungszeit

Die Berechnung der Verarbeitungszeit ist ganz einfach. Wir erhalten einen Zeitstempel vor und nach der Ausführung des Hauptprozesses des Programms und berechnen die Differenz. In Go sollte der Ansatz einfach genug sein:

["Jakarta": 10, "Bandung": 200, ...]

Das Ergebnis

Führen Sie das Programm mit dem Befehl aus

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

Ausgedruckt werden die Anzahl der Zeilen, die sortierten Daten und die Verarbeitungszeit. Etwas wie das hier unten:

Large CSV Processing Using Go

Wie von der Go-Leistung erwartet, wurden 1 Million CSV-Zeilen in weniger als 1 Sekunde verarbeitet!

Alle fertigen Codes sind bereits in meinem Github-Repository veröffentlicht:

https://github.com/didikz/csv-processing/tree/main/golang

Lektion gelernt

Die CSV-Verarbeitung in Go ist bereits in der Standardbibliothek verfügbar, es ist nicht erforderlich, eine Drittanbieterbibliothek zu verwenden
Die Verarbeitung der Daten ist recht einfach. Die Herausforderung bestand darin, herauszufinden, wie die Daten sortiert werden müssen, da dies manuell erfolgen muss

Was fällt Ihnen ein?

Ich dachte, meine aktuelle Lösung könnte weiter optimiert werden, da ich alle extrahierten CSV-Datensätze in einer Schleife zur Zuordnung verarbeitet habe und wenn wir die ReadAll()-Quelle überprüft haben, gibt es auch eine Schleife zum Erstellen des Slice basierend auf dem angegebenen Dateireader. Dadurch könnten 1-Millionen-Zeilen 2 x Schleifen für 1-Millionen-Daten erzeugen, was nicht schön ist.

Ich dachte, wenn ich Daten direkt aus dem Dateireader lesen könnte, bräuchte es nur eine Schleife, weil ich direkt daraus eine Karte erstellen könnte. Außer, dass der Datensatz-Slice an anderer Stelle verwendet wird, in diesem Fall jedoch nicht.

Ich habe immer noch keine Zeit, es herauszufinden, aber ich dachte mir auch, dass es einen Nachteil gibt, wenn ich es manuell mache:

Wahrscheinlich müssen weitere Fehler des Parsing-Prozesses behandelt werden
Ich bin mir nicht sicher, wie stark es die Bearbeitungszeit verkürzen wird, ob sich die Problemumgehung lohnt oder nicht

Viel Spaß beim Programmieren!

Das obige ist der detaillierte Inhalt vonGroße CSV-Verarbeitung mit Go. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Lernen Sie GO Binärer Codierung/Decodierung: Arbeiten mit dem 'Codierung/Binär' -Paket arbeitenMay 08, 2025 am 12:13 AM

Go verwendet das "Codierung/binäre" Paket für binäre Codierung und Dekodierung. 1) Dieses Paket bietet Binary.Write und Binary.read -Funktionen zum Schreiben und Lesen von Daten. 2) Achten Sie darauf, den richtigen Endian (wie Bigendian oder Littleendian) auszuwählen. 3) Die Datenausrichtung und Fehlerbehandlung sind ebenfalls von entscheidender Bedeutung, um die Richtigkeit und Leistung der Daten zu gewährleisten.

Go: Byte Slice Manipulation mit dem Standard 'Bytes' -PaketMay 08, 2025 am 12:09 AM

Die "Bytes" PackageingoofferEffictionFunctionsFormAnipulationsByteslices.1) UseBytes.JoinforCatenatingslices, 2) Bytes.BufferforincrementalWriting, 3) Bytes.Indexorbytes.IndexByTeSearching, 4) bytes.readerforreaReasedinforreaReaseding und 5) bytes

Go Codierung/Binärpaket: Die Leistung für binäre Operationen optimierenMay 08, 2025 am 12:06 AM

Thecoding/binarypackageingoiseffectiveforoptimizingBinaryoperationsduetoitsSupportforendiNnessandefficienceDatahandLing

Gehen Sie Bytes -Paket: kurze Referenz und TippsMay 08, 2025 am 12:05 AM

Das Bytes -Paket von GO wird hauptsächlich zum effizienten Verarbeiten von Bytescheiben verwendet. 1) Verwenden von Bytes.Buffer kann effizient String -Spleißen durchführen, um eine unnötige Speicherzuweisung zu vermeiden. 2) Die Ausgleichsfunktion wird verwendet, um Bytescheiben schnell zu vergleichen. 3) Die Bytes.Index, Bytes.split und Bytes.ReplaceAll -Funktionen können zur Suche und zum Manipulieren von Bytescheiben verwendet werden, aber Leistungsprobleme müssen beachtet werden.

Go Bytes Paket: Praktische Beispiele für die Manipulation von Byte SliceMay 08, 2025 am 12:01 AM

Das Byte -Paket bietet eine Vielzahl von Funktionen, um Bytescheiben effizient zu verarbeiten. 1) Verwenden Sie Bytes.Contains, um die Byte -Sequenz zu überprüfen. 2) Verwenden Sie Bytes.split, um Bytescheiben zu teilen. 3) Ersetzen Sie die Byte -Sequenz -Bytes.replace. 4) Verwenden Sie Bytes.join, um mehrere Byte -Scheiben zu verbinden. 5) Verwenden Sie Bytes.Buffer, um Daten zu erstellen. 6) Kombinierte Bytes.Map für die Fehlerverarbeitung und Datenüberprüfung.

Gehen Sie Binärcodierung/Dekodierung: Ein praktischer Leitfaden mit BeispielenMay 07, 2025 pm 05:37 PM

GO's Coding/Binary Package ist ein Tool zur Verarbeitung von Binärdaten. 1) Es unterstützt kleine End- und Large-Endian-Byte-Byte-Reihenfolge und kann in Netzwerkprotokollen und Dateiformaten verwendet werden. 2) Die Codierung und Dekodierung komplexer Strukturen kann durch Lese- und Schreibfunktionen behandelt werden. 3) Achten Sie bei der Verwendung auf die Konsistenz von Byte -Reihenfolge und Datentyp, insbesondere wenn Daten zwischen verschiedenen Systemen übertragen werden. Dieses Paket eignet sich für eine effiziente Verarbeitung von Binärdaten, erfordert jedoch eine sorgfältige Verwaltung von Bytescheiben und -längen.

Go 'Bytes' -Paket: Vergleichen, beitreten, teilen & mehrMay 07, 2025 pm 05:29 PM

Die "Bytes" PackageingoSessentialBecauseitOffersEffictionOperationsSonbyteslices, Crucial ForBinaryDatahandling, Textverprozessierung, AndnetworkCommunications.ByteslicesAremable, zulassen, dass die Forperformance-fördernde-Placemodifikationen, MakeThispackage

GO STRINGS -Paket: Wesentliche Funktionen, die Sie wissen müssenMay 07, 2025 pm 04:57 PM

GO'SStringSpackageIncludesSentialFunctionslikeContains, Trimspace, Split, AndreplaceAll.1) enthältseffictureLyCecksForsubstrings.2) trimspaceremoveswhITespacetoensuredataintegrit.3) splitspaceremoveswhITeSpacetoenSuredataintegrit.3)

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055523 in Windows 11 nicht installieren?

4 Wochen vorByDDD

Wie kann ich KB5055518 in Windows 10 nicht installieren?

4 Wochen vorByDDD

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

2 Wochen vorByDDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Wie kann ich KB5055612 in Windows 10 nicht installieren?

3 Wochen vorByDDD

Heiße Werkzeuge

Dreamweaver CS6

Visuelle Webentwicklungstools

PHPStorm Mac-Version

Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

Heiße Themen

1663

1420

1315

1266

1239