メモリを過剰消費せずにPythonで大きなファイルをハッシュする方法?-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

メモリを過剰消費せずにPythonで大きなファイルをハッシュする方法?

Barbara Streisand

Oct 20, 2024 am 11:06 AM

How to Hash Large Files in Python without Memory Overconsumption?

Python で大きなファイルの MD5 ハッシュを計算する

Python の hashlib モジュールは、暗号化ハッシュを計算するための便利なインターフェイスを提供します。ただし、サイズがシステムメモリを超える非常に大きなファイルの場合、hashlib を直接使用すると問題が発生する可能性があります。

解決策: プログレッシブハッシュ

この問題に対処するために、プログレッシブハッシュを採用しています。ファイルを管理可能なチャンクに分割して読み取ることによって。このアプローチにより、過剰なメモリを消費することなく、ファイルの内容全体が確実にハッシュされます。この手法を実装するサンプル Python 関数を次に示します。

<code class="python">import hashlib

def md5_for_file(f):
    block_size = 2**20
    md5 = hashlib.md5()
    while True:
        data = f.read(block_size)
        if not data:
            break
        md5.update(data)
    return md5.digest()</code>

大きなファイルの MD5 ハッシュを計算するには、次のように関数を呼び出すことができます。

<code class="python">with open("filename", "rb") as f:
    md5 = md5_for_file(f)</code>

注ファイルモードで

正確な結果を得るには、必ず「rb」を使用してファイルをバイナリモードで開いてください。「r」を使用すると、計算が正しく行われない可能性があります。

その他の考慮事項

便宜上、関数の改良版を以下に示します。

<code class="python">import hashlib
import os

def generate_file_md5(rootdir, filename):
    m = hashlib.md5()
    with open(os.path.join(rootdir, filename), "rb") as f:
        buf = f.read()
        while buf:
            m.update(buf)
            buf = f.read()
    return m.hexdigest()</code>

精度を検証するには、jacksum などの外部ツールを使用して計算されたハッシュをクロスチェックすることをお勧めします。

以上がメモリを過剰消費せずにPythonで大きなファイルをハッシュする方法?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonと時間：勉強時間を最大限に活用するApr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python：ゲーム、GUIなどApr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

Python vs. C：比較されたアプリケーションとユースケースApr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間のPython計画：現実的なアプローチApr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー（条件付きステートメントとループ）、3。機能の定義と使用を理解する4。

Python：主要なアプリケーションの調査Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1）Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2）データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3）自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。