Python에서 대용량 파일의 MD5 해시 계산
매우 큰 파일로 작업할 때 hashlib 라이브러리를 사용하여 MD5 해시를 계산하는 기존 방법은 다음과 같습니다. 전체 파일을 메모리에 로드해야 하므로 실용적이지 않습니다. 이 접근 방식은 시스템 리소스를 소진시켜 오류와 속도 저하를 초래할 수 있습니다.
해결책: 청크 해싱
이 문제를 해결하기 위해 청크 해싱이라는 기술을 사용하여 계산할 수 있습니다. MD5 해시는 전체 파일을 메모리에 로드하지 않고 증분적으로 해시됩니다. 여기에는 다음이 포함됩니다.
코드 구현:
다음 Python 함수 md5_for_file()은 청크 해싱을 구현합니다.
<code class="python">def md5_for_file(f, block_size=2**20): md5 = hashlib.md5() while True: data = f.read(block_size) if not data: break md5.update(data) return md5.digest()</code>
이 기능을 사용하려면 바이너리 모드(rb)로 파일을 열어야 합니다.
완료 방법:
편의를 위해, 다음은 청크 분할된 해싱과 파일 열기를 한 단계로 결합하는 완전한 메서드 generate_file_md5()입니다.
<code class="python">def generate_file_md5(rootdir, filename, blocksize=2**20): m = hashlib.md5() with open(os.path.join(rootdir, filename), "rb") as f: while True: buf = f.read(blocksize) if not buf: break m.update(buf) return m.hexdigest()</code>
이 메서드는 지정된 파일의 16진수로 인코딩된 MD5 해시를 문자열로 반환합니다. 비교를 위해 jacksum과 같은 외부 도구를 사용하여 결과를 확인할 수 있습니다.
위 내용은 Python에서 대용량 파일의 MD5 해시를 효율적으로 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!