Heim >Backend-Entwicklung >Python-Tutorial >Wie kann Pandas mit großen Datensätzen umgehen, die den verfügbaren Speicher überschreiten?
Beim Umgang mit Datensätzen, die zu groß sind, um in den Speicher zu passen, sind Out-of-Core-Workflows unerlässlich. In diesem Zusammenhang untersuchen wir Best Practices für den Umgang mit großen Datenmengen mithilfe von Pandas.
Um große Datensätze effizient zu verwalten, sollten Sie den folgenden Best-Practice-Workflow in Betracht ziehen:
Laden von Flatfiles in eine Datenbankstruktur auf der Festplatte:
Abfragen der Datenbank zum Abrufen von Daten in Pandas Data Struktur:
Aktualisieren der Datenbank nach der Manipulation von Teilen in Pandas:
Beispiel:
import pandas as pd # Group mappings for logical field grouping group_map = { "A": {"fields": ["field_1", "field_2"], "dc": ["field_1"]}, "B": {"fields": ["field_10"], "dc": ["field_10"]}, ... } # Iterate over flat files and append data to tables for file in files: chunk = pd.read_table(file, chunksize=50000) for group, info in group_map.items(): frame = chunk.reindex(columns=info["fields"], copy=False) store.append(group, frame, data_columns=info["dc"]) # Retrieve specific columns selected_columns = ["field_1", "field_10"] group_1 = "A" group_2 = "B" data = store.select_as_multiple([group_1, group_2], columns=selected_columns)
Das obige ist der detaillierte Inhalt vonWie kann Pandas mit großen Datensätzen umgehen, die den verfügbaren Speicher überschreiten?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!