>백엔드 개발 >파이썬 튜토리얼 >Python을 사용하여 재귀적으로 PDF 병합

Python을 사용하여 재귀적으로 PDF 병합

Susan Sarandon
Susan Sarandon원래의
2024-12-29 21:16:14434검색

Merge PDFs Recursively Using Python

소개

여러 PDF 파일을 단일 문서로 병합하는 것은 지루한 작업이 될 수 있으며, 특히 파일이 여러 디렉터리에 분산되어 있는 경우 더욱 그렇습니다. Python을 사용하면 이 작업이 원활하고 자동화됩니다. 이 튜토리얼에서는 PyPDF2를 사용하여 명령줄 인터페이스(CLI) 도구를 만들고 클릭하여 .venv 및 .git과 같은 특정 디렉터리를 제외하고 디렉터리(하위 디렉터리 포함)에 있는 모든 PDF 파일을 병합합니다.


전제 조건

시작하기 전에 다음 사항을 확인하세요.

  1. Python: 버전 3.7 이상.
  2. pip: Python의 패키지 관리자.
  3. 필수 라이브러리:

    • PDF 조작을 위해 PyPDF2 설치:
     pip install PyPDF2
    
  • CLI 생성을 위한 설치 클릭:

     pip install click
    

코드 연습

다음은 CLI 도구의 전체 코드입니다.

import click
from pathlib import Path
from PyPDF2 import PdfMerger
import os

EXCLUDED_DIRS = {".venv", ".git"}

@click.command()
@click.argument("directory", type=click.Path(exists=True, file_okay=False, path_type=Path))
@click.argument("output_file", type=click.Path(dir_okay=False, writable=True, path_type=Path))
def merge_pdfs(directory: Path, output_file: Path):
    """
    Merge all PDF files from DIRECTORY and its subdirectories into OUTPUT_FILE,
    excluding specified directories like .venv and .git.
    """
    # Initialize the PdfMerger
    merger = PdfMerger()

    # Walk through the directory tree, including the base directory
    for root, dirs, files in os.walk(directory):
        # Exclude specific directories
        dirs[:] = [d for d in dirs if d not in EXCLUDED_DIRS]

        # Convert the root to a Path object
        current_dir = Path(root)

        click.echo(f"Processing directory: {current_dir}")

        # Collect PDF files in the current directory
        pdf_files = sorted(current_dir.glob("*.pdf"))

        if not pdf_files:
            click.echo(f"No PDF files found in {current_dir}")
            continue

        # Add PDF files from the current directory
        for pdf in pdf_files:
            click.echo(f"Adding {pdf}...")
            merger.append(str(pdf))

    # Write the merged output file
    output_file.parent.mkdir(parents=True, exist_ok=True)
    merger.write(str(output_file))
    merger.close()

    click.echo(f"All PDFs merged into {output_file}")

if __name__ == "__main__":
    merge_pdfs()

작동 방식

  1. 디렉터리 순회:

    • os.walk() 함수는 지정된 디렉터리를 재귀적으로 탐색합니다.
    • dirs에 대한 필터를 사용하여 특정 디렉터리(예: .venv, .git)를 제외합니다.
  2. PDF 파일 모음:

    • current_dir.glob("*.pdf")는 현재 디렉토리에 있는 모든 PDF 파일을 수집합니다.
  3. PDF 병합:

    • PyPDF2의 PdfMerger는 모든 PDF를 추가하는 데 사용됩니다.
    • 병합된 출력이 지정된 파일에 기록됩니다.
  4. CLI 통합:

    • 클릭 라이브러리를 사용하면 디렉터리 및 출력 파일 경로를 인수로 쉽게 제공할 수 있습니다.

도구 실행

코드를 파일(예: merge_pdfs.py)에 저장합니다. 다음과 같이 터미널에서 실행하세요:

python merge_pdfs.py /path/to/directory /path/to/output.pdf

다음과 같은 디렉토리 구조가 있다고 가정합니다:

/documents
├── file1.pdf
├── subdir1
│   ├── file2.pdf
├── subdir2
│   ├── file3.pdf
├── .git
│   ├── ignored_file.pdf

다음과 같이 도구를 실행하세요.

python merge_pdfs.py /documents /merged.pdf

이렇게 하면 file1.pdf, file2.pdf 및 file3.pdf가 merged.pdf로 병합되고 .git은 건너뜁니다.


특징

  1. 재귀 병합:

    • 이 도구는 모든 하위 디렉토리의 PDF를 자동으로 포함합니다.
  2. 디렉터리 제외:

    • 관련 없는 파일을 피하기 위해 .venv 및 .git과 같은 디렉터리를 제외합니다.
  3. 정렬된 병합:

    • 일관된 결과를 위해 PDF가 정렬된 순서로 추가되도록 합니다.
  4. CLI 단순성:

    • 사용자가 입력 및 출력 경로를 지정할 수 있는 직관적인 인터페이스를 제공합니다.

참고 및 제한 사항

  1. 대용량 파일:

    • 많은 수의 PDF를 병합하면 상당한 메모리가 소모될 수 있습니다. 먼저 더 작은 데이터세트로 테스트하세요.
  2. PDF 호환성:

    • 모든 입력 PDF가 유효하고 손상되지 않았는지 확인하세요.
  3. 사용자 정의 제외:

    • 필요에 따라 추가 디렉토리를 제외하도록 EXCLUDED_DIRS 세트를 수정하세요.

결론

이 튜토리얼에서는 Python을 사용하여 디렉토리 구조에서 PDF를 자동으로 병합하는 방법을 보여줍니다. 제공된 CLI 도구는 유연하며 보다 복잡한 워크플로에 맞게 조정할 수 있습니다. 직접 사용해보시고 어떤 효과가 있는지 알려주세요!

즐거운 코딩하세요! ?

위 내용은 Python을 사용하여 재귀적으로 PDF 병합의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.