소개
여러 PDF 파일을 단일 문서로 병합하는 것은 지루한 작업이 될 수 있으며, 특히 파일이 여러 디렉터리에 분산되어 있는 경우 더욱 그렇습니다. Python을 사용하면 이 작업이 원활하고 자동화됩니다. 이 튜토리얼에서는 PyPDF2를 사용하여 명령줄 인터페이스(CLI) 도구를 만들고 클릭하여 .venv 및 .git과 같은 특정 디렉터리를 제외하고 디렉터리(하위 디렉터리 포함)에 있는 모든 PDF 파일을 병합합니다.
전제 조건
시작하기 전에 다음 사항을 확인하세요.
- Python: 버전 3.7 이상.
- pip: Python의 패키지 관리자.
-
필수 라이브러리:
- PDF 조작을 위해 PyPDF2 설치:
pip install PyPDF2
-
CLI 생성을 위한 설치 클릭:
pip install click
코드 연습
다음은 CLI 도구의 전체 코드입니다.
import click from pathlib import Path from PyPDF2 import PdfMerger import os EXCLUDED_DIRS = {".venv", ".git"} @click.command() @click.argument("directory", type=click.Path(exists=True, file_okay=False, path_type=Path)) @click.argument("output_file", type=click.Path(dir_okay=False, writable=True, path_type=Path)) def merge_pdfs(directory: Path, output_file: Path): """ Merge all PDF files from DIRECTORY and its subdirectories into OUTPUT_FILE, excluding specified directories like .venv and .git. """ # Initialize the PdfMerger merger = PdfMerger() # Walk through the directory tree, including the base directory for root, dirs, files in os.walk(directory): # Exclude specific directories dirs[:] = [d for d in dirs if d not in EXCLUDED_DIRS] # Convert the root to a Path object current_dir = Path(root) click.echo(f"Processing directory: {current_dir}") # Collect PDF files in the current directory pdf_files = sorted(current_dir.glob("*.pdf")) if not pdf_files: click.echo(f"No PDF files found in {current_dir}") continue # Add PDF files from the current directory for pdf in pdf_files: click.echo(f"Adding {pdf}...") merger.append(str(pdf)) # Write the merged output file output_file.parent.mkdir(parents=True, exist_ok=True) merger.write(str(output_file)) merger.close() click.echo(f"All PDFs merged into {output_file}") if __name__ == "__main__": merge_pdfs()
작동 방식
-
디렉터리 순회:
- os.walk() 함수는 지정된 디렉터리를 재귀적으로 탐색합니다.
- dirs에 대한 필터를 사용하여 특정 디렉터리(예: .venv, .git)를 제외합니다.
-
PDF 파일 모음:
- current_dir.glob("*.pdf")는 현재 디렉토리에 있는 모든 PDF 파일을 수집합니다.
-
PDF 병합:
- PyPDF2의 PdfMerger는 모든 PDF를 추가하는 데 사용됩니다.
- 병합된 출력이 지정된 파일에 기록됩니다.
-
CLI 통합:
- 클릭 라이브러리를 사용하면 디렉터리 및 출력 파일 경로를 인수로 쉽게 제공할 수 있습니다.
도구 실행
코드를 파일(예: merge_pdfs.py)에 저장합니다. 다음과 같이 터미널에서 실행하세요:
python merge_pdfs.py /path/to/directory /path/to/output.pdf
예
다음과 같은 디렉토리 구조가 있다고 가정합니다:
/documents ├── file1.pdf ├── subdir1 │ ├── file2.pdf ├── subdir2 │ ├── file3.pdf ├── .git │ ├── ignored_file.pdf
다음과 같이 도구를 실행하세요.
python merge_pdfs.py /documents /merged.pdf
이렇게 하면 file1.pdf, file2.pdf 및 file3.pdf가 merged.pdf로 병합되고 .git은 건너뜁니다.
특징
-
재귀 병합:
- 이 도구는 모든 하위 디렉토리의 PDF를 자동으로 포함합니다.
-
디렉터리 제외:
- 관련 없는 파일을 피하기 위해 .venv 및 .git과 같은 디렉터리를 제외합니다.
-
정렬된 병합:
- 일관된 결과를 위해 PDF가 정렬된 순서로 추가되도록 합니다.
-
CLI 단순성:
- 사용자가 입력 및 출력 경로를 지정할 수 있는 직관적인 인터페이스를 제공합니다.
참고 및 제한 사항
-
대용량 파일:
- 많은 수의 PDF를 병합하면 상당한 메모리가 소모될 수 있습니다. 먼저 더 작은 데이터세트로 테스트하세요.
-
PDF 호환성:
- 모든 입력 PDF가 유효하고 손상되지 않았는지 확인하세요.
-
사용자 정의 제외:
- 필요에 따라 추가 디렉토리를 제외하도록 EXCLUDED_DIRS 세트를 수정하세요.
결론
이 튜토리얼에서는 Python을 사용하여 디렉토리 구조에서 PDF를 자동으로 병합하는 방법을 보여줍니다. 제공된 CLI 도구는 유연하며 보다 복잡한 워크플로에 맞게 조정할 수 있습니다. 직접 사용해보시고 어떤 효과가 있는지 알려주세요!
즐거운 코딩하세요! ?
위 내용은 Python을 사용하여 재귀적으로 PDF 병합의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Linux 터미널에서 Python 버전을 보려고 할 때 Linux 터미널에서 Python 버전을 볼 때 권한 문제에 대한 솔루션 ... Python을 입력하십시오 ...

이 기사에서는 HTML을 구문 분석하기 위해 파이썬 라이브러리 인 아름다운 수프를 사용하는 방법을 설명합니다. 데이터 추출, 다양한 HTML 구조 및 오류 처리 및 대안 (SEL과 같은 Find (), find_all (), select () 및 get_text ()와 같은 일반적인 방법을 자세히 설명합니다.

파이썬 객체의 직렬화 및 사막화는 사소한 프로그램의 주요 측면입니다. 무언가를 Python 파일에 저장하면 구성 파일을 읽거나 HTTP 요청에 응답하는 경우 객체 직렬화 및 사태화를 수행합니다. 어떤 의미에서, 직렬화와 사제화는 세계에서 가장 지루한 것들입니다. 이 모든 형식과 프로토콜에 대해 누가 걱정합니까? 일부 파이썬 객체를 지속하거나 스트리밍하여 나중에 완전히 검색하려고합니다. 이것은 세상을 개념적 차원에서 볼 수있는 좋은 방법입니다. 그러나 실제 수준에서 선택한 직렬화 체계, 형식 또는 프로토콜은 속도, 보안, 유지 보수 상태 및 프로그램의 기타 측면을 결정할 수 있습니다.

이 기사는 딥 러닝을 위해 텐서 플로와 Pytorch를 비교합니다. 데이터 준비, 모델 구축, 교육, 평가 및 배포와 관련된 단계에 대해 자세히 설명합니다. 프레임 워크, 특히 계산 포도와 관련하여 주요 차이점

Python의 통계 모듈은 강력한 데이터 통계 분석 기능을 제공하여 생물 통계 및 비즈니스 분석과 같은 데이터의 전반적인 특성을 빠르게 이해할 수 있도록 도와줍니다. 데이터 포인트를 하나씩 보는 대신 평균 또는 분산과 같은 통계를보고 무시할 수있는 원래 데이터에서 트렌드와 기능을 발견하고 대형 데이터 세트를보다 쉽고 효과적으로 비교하십시오. 이 튜토리얼은 평균을 계산하고 데이터 세트의 분산 정도를 측정하는 방법을 설명합니다. 달리 명시되지 않는 한,이 모듈의 모든 함수는 단순히 평균을 합산하는 대신 평균 () 함수의 계산을 지원합니다. 부동 소수점 번호도 사용할 수 있습니다. 무작위로 가져옵니다 수입 통계 Fracti에서

이 튜토리얼은 간단한 나무 탐색을 넘어서 DOM 조작에 중점을 둔 아름다운 수프에 대한 이전 소개를 바탕으로합니다. HTML 구조를 수정하기위한 효율적인 검색 방법과 기술을 탐색하겠습니다. 일반적인 DOM 검색 방법 중 하나는 EX입니다

이 기사는 Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask 및 요청과 같은 인기있는 Python 라이브러리에 대해 설명하고 과학 컴퓨팅, 데이터 분석, 시각화, 기계 학습, 웹 개발 및 H에서의 사용에 대해 자세히 설명합니다.

이 기사는 Python 개발자가 CLIS (Command-Line Interfaces) 구축을 안내합니다. Typer, Click 및 Argparse와 같은 라이브러리를 사용하여 입력/출력 처리를 강조하고 CLI 유용성을 향상시키기 위해 사용자 친화적 인 디자인 패턴을 홍보하는 세부 정보.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU
이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.
