집 >백엔드 개발 >파이썬 튜토리얼 >Python을 사용하여 재귀적으로 PDF 병합

Python을 사용하여 재귀적으로 PDF 병합

Susan Sarandon원래의: 2024-12-29 21:16:14482검색

Merge PDFs Recursively Using Python

소개

여러 PDF 파일을 단일 문서로 병합하는 것은 지루한 작업이 될 수 있으며, 특히 파일이 여러 디렉터리에 분산되어 있는 경우 더욱 그렇습니다. Python을 사용하면 이 작업이 원활하고 자동화됩니다. 이 튜토리얼에서는 PyPDF2를 사용하여 명령줄 인터페이스(CLI) 도구를 만들고 클릭하여 .venv 및 .git과 같은 특정 디렉터리를 제외하고 디렉터리(하위 디렉터리 포함)에 있는 모든 PDF 파일을 병합합니다.

전제 조건

시작하기 전에 다음 사항을 확인하세요.

Python: 버전 3.7 이상.
pip: Python의 패키지 관리자.
필수 라이브러리:
- PDF 조작을 위해 PyPDF2 설치:
```
 pip install PyPDF2
```

CLI 생성을 위한 설치 클릭:
```
 pip install click
```

코드 연습

다음은 CLI 도구의 전체 코드입니다.

import click
from pathlib import Path
from PyPDF2 import PdfMerger
import os

EXCLUDED_DIRS = {".venv", ".git"}

@click.command()
@click.argument("directory", type=click.Path(exists=True, file_okay=False, path_type=Path))
@click.argument("output_file", type=click.Path(dir_okay=False, writable=True, path_type=Path))
def merge_pdfs(directory: Path, output_file: Path):
    """
    Merge all PDF files from DIRECTORY and its subdirectories into OUTPUT_FILE,
    excluding specified directories like .venv and .git.
    """
    # Initialize the PdfMerger
    merger = PdfMerger()

    # Walk through the directory tree, including the base directory
    for root, dirs, files in os.walk(directory):
        # Exclude specific directories
        dirs[:] = [d for d in dirs if d not in EXCLUDED_DIRS]

        # Convert the root to a Path object
        current_dir = Path(root)

        click.echo(f"Processing directory: {current_dir}")

        # Collect PDF files in the current directory
        pdf_files = sorted(current_dir.glob("*.pdf"))

        if not pdf_files:
            click.echo(f"No PDF files found in {current_dir}")
            continue

        # Add PDF files from the current directory
        for pdf in pdf_files:
            click.echo(f"Adding {pdf}...")
            merger.append(str(pdf))

    # Write the merged output file
    output_file.parent.mkdir(parents=True, exist_ok=True)
    merger.write(str(output_file))
    merger.close()

    click.echo(f"All PDFs merged into {output_file}")

if __name__ == "__main__":
    merge_pdfs()

작동 방식

디렉터리 순회:
- os.walk() 함수는 지정된 디렉터리를 재귀적으로 탐색합니다.
- dirs에 대한 필터를 사용하여 특정 디렉터리(예: .venv, .git)를 제외합니다.
PDF 파일 모음:
- current_dir.glob("*.pdf")는 현재 디렉토리에 있는 모든 PDF 파일을 수집합니다.
PDF 병합:
- PyPDF2의 PdfMerger는 모든 PDF를 추가하는 데 사용됩니다.
- 병합된 출력이 지정된 파일에 기록됩니다.
CLI 통합:
- 클릭 라이브러리를 사용하면 디렉터리 및 출력 파일 경로를 인수로 쉽게 제공할 수 있습니다.

도구 실행

코드를 파일(예: merge_pdfs.py)에 저장합니다. 다음과 같이 터미널에서 실행하세요:

python merge_pdfs.py /path/to/directory /path/to/output.pdf

예

다음과 같은 디렉토리 구조가 있다고 가정합니다:

/documents
├── file1.pdf
├── subdir1
│   ├── file2.pdf
├── subdir2
│   ├── file3.pdf
├── .git
│   ├── ignored_file.pdf

다음과 같이 도구를 실행하세요.

python merge_pdfs.py /documents /merged.pdf

이렇게 하면 file1.pdf, file2.pdf 및 file3.pdf가 merged.pdf로 병합되고 .git은 건너뜁니다.

특징

재귀 병합:
- 이 도구는 모든 하위 디렉토리의 PDF를 자동으로 포함합니다.
디렉터리 제외:
- 관련 없는 파일을 피하기 위해 .venv 및 .git과 같은 디렉터리를 제외합니다.
정렬된 병합:
- 일관된 결과를 위해 PDF가 정렬된 순서로 추가되도록 합니다.
CLI 단순성:
- 사용자가 입력 및 출력 경로를 지정할 수 있는 직관적인 인터페이스를 제공합니다.

참고 및 제한 사항

대용량 파일:
- 많은 수의 PDF를 병합하면 상당한 메모리가 소모될 수 있습니다. 먼저 더 작은 데이터세트로 테스트하세요.
PDF 호환성:
- 모든 입력 PDF가 유효하고 손상되지 않았는지 확인하세요.
사용자 정의 제외:
- 필요에 따라 추가 디렉토리를 제외하도록 EXCLUDED_DIRS 세트를 수정하세요.

결론

이 튜토리얼에서는 Python을 사용하여 디렉토리 구조에서 PDF를 자동으로 병합하는 방법을 보여줍니다. 제공된 CLI 도구는 유연하며 보다 복잡한 워크플로에 맞게 조정할 수 있습니다. 직접 사용해보시고 어떤 효과가 있는지 알려주세요!

즐거운 코딩하세요! ?

위 내용은 Python을 사용하여 재귀적으로 PDF 병합의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python pip if for while try Directory Filter using Interface Collection append number function this input git

성명：

이전 기사：Python으로 Google 트렌드 데이터를 긁는 방법은 무엇입니까?다음 기사：Python으로 Google 트렌드 데이터를 긁는 방법은 무엇입니까?