>백엔드 개발 >파이썬 튜토리얼 >Python에서 대용량 파일의 MD5 해시를 효율적으로 계산하는 방법은 무엇입니까?

Python에서 대용량 파일의 MD5 해시를 효율적으로 계산하는 방법은 무엇입니까?

Patricia Arquette
Patricia Arquette원래의
2024-10-20 11:29:30293검색

How to Calculate MD5 Hash of Large Files in Python Efficiently?

Python에서 대용량 파일의 MD5 해시 계산

매우 큰 파일로 작업할 때 hashlib 라이브러리를 사용하여 MD5 해시를 계산하는 기존 방법은 다음과 같습니다. 전체 파일을 메모리에 로드해야 하므로 실용적이지 않습니다. 이 접근 방식은 시스템 리소스를 소진시켜 오류와 속도 저하를 초래할 수 있습니다.

해결책: 청크 해싱

이 문제를 해결하기 위해 청크 해싱이라는 기술을 사용하여 계산할 수 있습니다. MD5 해시는 전체 파일을 메모리에 로드하지 않고 증분적으로 해시됩니다. 여기에는 다음이 포함됩니다.

  1. 파일을 관리 가능한 크기(예: 1MB)의 작은 청크로 나눕니다.
  2. hashlib.md5()를 사용하여 각 청크의 MD5 해시를 계산합니다.
  3. 해싱된 청크를 연결하여 최종 MD5 해시를 얻습니다.

코드 구현:

다음 Python 함수 md5_for_file()은 청크 해싱을 구현합니다.

<code class="python">def md5_for_file(f, block_size=2**20):
    md5 = hashlib.md5()
    while True:
        data = f.read(block_size)
        if not data:
            break
        md5.update(data)
    return md5.digest()</code>

이 기능을 사용하려면 바이너리 모드(rb)로 파일을 열어야 합니다.

완료 방법:

편의를 위해, 다음은 청크 분할된 해싱과 파일 열기를 한 단계로 결합하는 완전한 메서드 generate_file_md5()입니다.

<code class="python">def generate_file_md5(rootdir, filename, blocksize=2**20):
    m = hashlib.md5()
    with open(os.path.join(rootdir, filename), "rb") as f:
        while True:
            buf = f.read(blocksize)
            if not buf:
                break
            m.update(buf)
    return m.hexdigest()</code>

이 메서드는 지정된 파일의 16진수로 인코딩된 MD5 해시를 문자열로 반환합니다. 비교를 위해 jacksum과 같은 외부 도구를 사용하여 결과를 확인할 수 있습니다.

위 내용은 Python에서 대용량 파일의 MD5 해시를 효율적으로 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.