Maison >développement back-end >Tutoriel Python >Comment puis-je traiter efficacement de gigantesques fichiers CSV dans Python 2.7 sans rencontrer de problèmes de mémoire ?

Comment puis-je traiter efficacement de gigantesques fichiers CSV dans Python 2.7 sans rencontrer de problèmes de mémoire ?

Linda Hamilton
Linda Hamiltonoriginal
2024-11-08 04:52:011059parcourir

How can I efficiently process gigantic CSV files in Python 2.7 without running into memory issues?

Lecture de fichiers CSV gigantesques : optimisation de la mémoire et de la vitesse

Lorsque vous essayez de traiter des fichiers CSV volumineux comportant des millions de lignes et des centaines de colonnes, les méthodes traditionnelles les approches utilisant des itérateurs peuvent entraîner des problèmes liés à la mémoire. Cet article explore les techniques optimisées pour gérer les données CSV à grande échelle dans Python 2.7.

Optimisation de la mémoire :

Le nœud du problème de mémoire réside dans la construction de listes en mémoire pour stocker de grands ensembles de données. Pour atténuer ce problème, Python propose le mot-clé rendement, qui convertit les fonctions en fonctions génératrices. Ces fonctions suspendent l'exécution après chaque instruction de rendement, permettant un traitement incrémentiel des données au fur et à mesure qu'elles sont rencontrées.

En employant des fonctions de générateur, vous pouvez traiter les données ligne par ligne, éliminant ainsi le besoin de stocker des fichiers entiers en mémoire. Le code suivant illustre cette approche :

import csv

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield header row

        count = 0
        for row in datareader:
            if row[3] == criterion:
                yield row
                count += 1
            elif count:  # stop processing when a consecutive series of non-matching rows is encountered
                return

Améliorations de la vitesse :

De plus, vous pouvez tirer parti des fonctions dropwhile et takewhile de Python pour améliorer encore la vitesse de traitement. Ces fonctions peuvent filtrer efficacement les données, vous permettant de localiser rapidement les lignes qui vous intéressent. Voici comment :

from itertools import dropwhile, takewhile

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield header row

        yield from takewhile(  # yield matching rows
            lambda r: r[3] == criterion,
            dropwhile(  # skip non-matching rows
                lambda r: r[3] != criterion, datareader))
        return

Traitement en boucle simplifié :

En combinant les fonctions du générateur, vous pouvez grandement simplifier le processus de bouclage dans votre ensemble de données. Voici le code optimisé pour getstuff et getdata :

def getdata(filename, criteria):
    for criterion in criteria:
        for row in getstuff(filename, criterion):
            yield row

Maintenant, vous pouvez directement parcourir le générateur getdata, qui produit un flux de lignes ligne par ligne, libérant ainsi de précieuses ressources mémoire.

N'oubliez pas que l'objectif est de minimiser le stockage des données en mémoire tout en maximisant l'efficacité du traitement. En appliquant ces techniques d'optimisation, vous pouvez gérer efficacement des fichiers CSV gigantesques sans rencontrer d'obstacles de mémoire.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn