如何在 Python 2.7 中有效處理巨大的 CSV 檔案而不遇到記憶體問題？-Python教學-PHP中文網

首頁

後端開發

Python教學

如何在 Python 2.7 中有效處理巨大的 CSV 檔案而不遇到記憶體問題？

Linda Hamilton

Nov 08, 2024 am 04:52 AM

How can I efficiently process gigantic CSV files in Python 2.7 without running into memory issues?

讀取巨大的CSV 檔案：最佳化記憶體和速度

當嘗試處理具有數百萬行和數百列的大量CSV文件時，傳統方法使用迭代器的方法可能會導致與記憶體相關的問題。本文探討了 Python 2.7 中處理大規模 CSV 資料的最佳化技術。

記憶體最佳化：

記憶體問題的癥結在於建立記憶體清單來儲存大型資料集。為了緩解這個問題，Python 提供了yield 關鍵字，它將函數轉換為生成器函數。這些函數在每個yield語句後暫停執行，允許在遇到資料時增量處理資料。

透過使用生成器函數，您可以逐行處理數據，無需將整個檔案儲存在記憶體中。以下程式碼示範了這種方法：

import csv

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield header row

        count = 0
        for row in datareader:
            if row[3] == criterion:
                yield row
                count += 1
            elif count:  # stop processing when a consecutive series of non-matching rows is encountered
                return

速度增強：

此外，您可以利用 Python 的 dropwhile 和 takewhile 函數進一步提高處理速度。這些功能可以有效地過濾數據，使您能夠快速找到感興趣的行。具體方法如下：

from itertools import dropwhile, takewhile

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield header row

        yield from takewhile(  # yield matching rows
            lambda r: r[3] == criterion,
            dropwhile(  # skip non-matching rows
                lambda r: r[3] != criterion, datareader))
        return

簡化循環處理：

透過組合產生器函數，您可以大幅簡化循環資料集的過程。以下是 getstuff 和 getdata 的最佳化程式碼：

def getdata(filename, criteria):
    for criterion in criteria:
        for row in getstuff(filename, criterion):
            yield row

現在，您可以直接迭代 getdata 產生器，它會逐行產生行流，釋放寶貴的記憶體資源。

請記住，目標是最大限度地減少記憶體資料存儲，同時最大限度地提高處理效率。透過應用這些優化技術，您可以有效地處理巨大的 CSV 文件，而不會遇到記憶體障礙。

以上是如何在 Python 2.7 中有效處理巨大的 CSV 檔案而不遇到記憶體問題？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

我如何使用美麗的湯來解析HTML？Mar 10, 2025 pm 06:54 PM

本文解釋瞭如何使用美麗的湯庫來解析html。它詳細介紹了常見方法，例如find（），find_all（），select（）和get_text（），以用於數據提取，處理不同的HTML結構和錯誤以及替代方案（SEL）

Python中的數學模塊：統計Mar 09, 2025 am 11:40 AM

Python的statistics模塊提供強大的數據統計分析功能，幫助我們快速理解數據整體特徵，例如生物統計學和商業分析等領域。無需逐個查看數據點，只需查看均值或方差等統計量，即可發現原始數據中可能被忽略的趨勢和特徵，並更輕鬆、有效地比較大型數據集。本教程將介紹如何計算平均值和衡量數據集的離散程度。除非另有說明，本模塊中的所有函數都支持使用mean()函數計算平均值，而非簡單的求和平均。也可使用浮點數。 import random import statistics from fracti

python對象的序列化和避難所化：第1部分Mar 08, 2025 am 09:39 AM

Python 對象的序列化和反序列化是任何非平凡程序的關鍵方面。如果您將某些內容保存到 Python 文件中，如果您讀取配置文件，或者如果您響應 HTTP 請求，您都會進行對象序列化和反序列化。從某種意義上說，序列化和反序列化是世界上最無聊的事情。誰會在乎所有這些格式和協議？您想持久化或流式傳輸一些 Python 對象，並在以後完整地取回它們。這是一種在概念層面上看待世界的好方法。但是，在實際層面上，您選擇的序列化方案、格式或協議可能會決定程序運行的速度、安全性、維護狀態的自由度以及與其他系