首頁 >後端開發 >Python教學 >如何在 Python 2.7 中有效處理巨大的 CSV 檔案而不遇到記憶體問題?

如何在 Python 2.7 中有效處理巨大的 CSV 檔案而不遇到記憶體問題?

Linda Hamilton
Linda Hamilton原創
2024-11-08 04:52:011061瀏覽

How can I efficiently process gigantic CSV files in Python 2.7 without running into memory issues?

讀取巨大的CSV 檔案:最佳化記憶體和速度

當嘗試處理具有數百萬行和數百列的大量CSV文件時,傳統方法使用迭代器的方法可能會導致與記憶體相關的問題。本文探討了 Python 2.7 中處理大規模 CSV 資料的最佳化技術。

記憶體最佳化:

記憶體問題的癥結在於建立記憶體清單來儲存大型資料集。為了緩解這個問題,Python 提供了yield 關鍵字,它將函數轉換為生成器函數。這些函數在每個yield語句後暫停執行,允許在遇到資料時增量處理資料。

透過使用生成器函數,您可以逐行處理數據,無需將整個檔案儲存在記憶體中。以下程式碼示範了這種方法:

import csv

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield header row

        count = 0
        for row in datareader:
            if row[3] == criterion:
                yield row
                count += 1
            elif count:  # stop processing when a consecutive series of non-matching rows is encountered
                return

速度增強:

此外,您可以利用 Python 的 dropwhile 和 takewhile 函數進一步提高處理速度。這些功能可以有效地過濾數據,使您能夠快速找到感興趣的行。具體方法如下:

from itertools import dropwhile, takewhile

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield header row

        yield from takewhile(  # yield matching rows
            lambda r: r[3] == criterion,
            dropwhile(  # skip non-matching rows
                lambda r: r[3] != criterion, datareader))
        return

簡化循環處理:

透過組合產生器函數,您可以大幅簡化循環資料集的過程。以下是 getstuff 和 getdata 的最佳化程式碼:

def getdata(filename, criteria):
    for criterion in criteria:
        for row in getstuff(filename, criterion):
            yield row

現在,您可以直接迭代 getdata 產生器,它會逐行產生行流,釋放寶貴的記憶體資源。

請記住,目標是最大限度地減少記憶體資料存儲,同時最大限度地提高處理效率。透過應用這些優化技術,您可以有效地處理巨大的 CSV 文件,而不會遇到記憶體障礙。

以上是如何在 Python 2.7 中有效處理巨大的 CSV 檔案而不遇到記憶體問題?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn