Maison >développement back-end >Tutoriel Python >Comment les pandas peuvent-ils gérer de grands ensembles de données dépassant la mémoire disponible ?
Lorsque vous traitez des ensembles de données trop volumineux pour tenir en mémoire, les flux de travail hors noyau sont essentiels. Dans ce contexte, nous explorons les meilleures pratiques pour gérer des données volumineuses à l'aide de pandas.
Pour gérer efficacement de grands ensembles de données, envisagez le flux de travail de bonnes pratiques suivant :
Chargement de fichiers plats dans une structure de base de données sur disque :
Interrogation de la base de données pour récupérer des données dans les données Pandas Structure :
Mise à jour de la base de données après avoir manipulé des pièces dans Pandas :
Exemple :
import pandas as pd # Group mappings for logical field grouping group_map = { "A": {"fields": ["field_1", "field_2"], "dc": ["field_1"]}, "B": {"fields": ["field_10"], "dc": ["field_10"]}, ... } # Iterate over flat files and append data to tables for file in files: chunk = pd.read_table(file, chunksize=50000) for group, info in group_map.items(): frame = chunk.reindex(columns=info["fields"], copy=False) store.append(group, frame, data_columns=info["dc"]) # Retrieve specific columns selected_columns = ["field_1", "field_10"] group_1 = "A" group_2 = "B" data = store.select_as_multiple([group_1, group_2], columns=selected_columns)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!