在Python 中計算大檔案的MD5 雜湊
雖然使用Python 的hashlib 模組計算小檔案的MD5 雜湊很簡單檔案,對於超出可用記憶體的大檔案來說變得不切實際。本文探討了應對這項挑戰的實用解決方案。
為了規避記憶體限制,需要授予 hashlib 存取檔案區塊的權限,而不是一次存取整個檔案。以下 Python 函數以指定大小的區塊讀取檔案並累積部分 MD5 雜湊值。透過為 block_size 參數設定合適的大小(預設值:2^20),它可以有效地管理超出 RAM 限制的檔案大小。
<code class="python">def md5_for_file(f, block_size=2**20): md5 = hashlib.md5() while True: data = f.read(block_size) if not data: break md5.update(data) return md5.digest()</code>
為了確保正確的結果,請使用 'rb' 以二進位模式開啟檔案是必不可少的。
為了獲得更全面的方法,輔助函數可以封裝所有必要的步驟:
<code class="python">def generate_file_md5(rootdir, filename, blocksize=2**20): m = hashlib.md5() with open(os.path.join(rootdir, filename), "rb") as f: while True: buf = f.read(blocksize) if not buf: break m.update(buf) return m.hexdigest()</code>
使用jacksum 等工具交叉檢查結果可確保計算的MD5 雜湊值的準確性.
以上是如何在Python中計算大檔案的MD5雜湊而沒有記憶體限制?的詳細內容。更多資訊請關注PHP中文網其他相關文章!