首頁  >  文章  >  後端開發  >  如何在Python中計算大檔案的MD5雜湊而沒有記憶體限制?

如何在Python中計算大檔案的MD5雜湊而沒有記憶體限制?

Patricia Arquette
Patricia Arquette原創
2024-10-20 11:03:30720瀏覽

How to Compute MD5 Hashes of Large Files in Python Without Memory Limitations?

在Python 中計算大檔案的MD5 雜湊

雖然使用Python 的hashlib 模組計算小檔案的MD5 雜湊很簡單檔案,對於超出可用記憶體的大檔案來說變得不切實際。本文探討了應對這項挑戰的實用解決方案。

為了規避記憶體限制,需要授予 hashlib 存取檔案區塊的權限,而不是一次存取整個檔案。以下 Python 函數以指定大小的區塊讀取檔案並累積部分 MD5 雜湊值。透過為 block_size 參數設定合適的大小(預設值:2^20),它可以有效地管理超出 RAM 限制的檔案大小。

<code class="python">def md5_for_file(f, block_size=2**20):
    md5 = hashlib.md5()
    while True:
        data = f.read(block_size)
        if not data:
            break
        md5.update(data)
    return md5.digest()</code>

為了確保正確的結果,請使用 'rb' 以二進位模式開啟檔案是必不可少的。

為了獲得更全面的方法,輔助函數可以封裝所有必要的步驟:

<code class="python">def generate_file_md5(rootdir, filename, blocksize=2**20):
    m = hashlib.md5()
    with open(os.path.join(rootdir, filename), "rb") as f:
        while True:
            buf = f.read(blocksize)
            if not buf:
                break
            m.update(buf)
    return m.hexdigest()</code>

使用jacksum 等工具交叉檢查結果可確保計算的MD5 雜湊值的準確性.

以上是如何在Python中計算大檔案的MD5雜湊而沒有記憶體限制?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn