Heim >Backend-Entwicklung >Python-Tutorial >PDFs rekursiv mit Python zusammenführen
Das Zusammenführen mehrerer PDF-Dateien in einem einzigen Dokument kann eine mühsame Aufgabe sein, insbesondere wenn die Dateien über mehrere Verzeichnisse verteilt sind. Mit Python wird diese Aufgabe nahtlos und automatisiert. In diesem Tutorial erstellen wir mit PyPDF2 ein Befehlszeilenschnittstellentool (CLI) und klicken, um alle PDF-Dateien in einem Verzeichnis (einschließlich seiner Unterverzeichnisse) zusammenzuführen und dabei bestimmte Verzeichnisse wie .venv und .git auszuschließen.
Bevor Sie beginnen, stellen Sie sicher, dass Sie Folgendes haben:
Erforderliche Bibliotheken:
pip install PyPDF2
Klicken Sie auf „Installieren“, um die CLI zu erstellen:
pip install click
Hier ist der vollständige Code für unser CLI-Tool:
import click from pathlib import Path from PyPDF2 import PdfMerger import os EXCLUDED_DIRS = {".venv", ".git"} @click.command() @click.argument("directory", type=click.Path(exists=True, file_okay=False, path_type=Path)) @click.argument("output_file", type=click.Path(dir_okay=False, writable=True, path_type=Path)) def merge_pdfs(directory: Path, output_file: Path): """ Merge all PDF files from DIRECTORY and its subdirectories into OUTPUT_FILE, excluding specified directories like .venv and .git. """ # Initialize the PdfMerger merger = PdfMerger() # Walk through the directory tree, including the base directory for root, dirs, files in os.walk(directory): # Exclude specific directories dirs[:] = [d for d in dirs if d not in EXCLUDED_DIRS] # Convert the root to a Path object current_dir = Path(root) click.echo(f"Processing directory: {current_dir}") # Collect PDF files in the current directory pdf_files = sorted(current_dir.glob("*.pdf")) if not pdf_files: click.echo(f"No PDF files found in {current_dir}") continue # Add PDF files from the current directory for pdf in pdf_files: click.echo(f"Adding {pdf}...") merger.append(str(pdf)) # Write the merged output file output_file.parent.mkdir(parents=True, exist_ok=True) merger.write(str(output_file)) merger.close() click.echo(f"All PDFs merged into {output_file}") if __name__ == "__main__": merge_pdfs()
Verzeichnisdurchlauf:
PDF-Dateisammlung:
PDFs zusammenführen:
CLI-Integration:
Speichern Sie den Code in einer Datei, z. B. merge_pdfs.py. Führen Sie es vom Terminal aus wie folgt aus:
python merge_pdfs.py /path/to/directory /path/to/output.pdf
Angenommen, Sie haben die folgende Verzeichnisstruktur:
/documents ├── file1.pdf ├── subdir1 │ ├── file2.pdf ├── subdir2 │ ├── file3.pdf ├── .git │ ├── ignored_file.pdf
Führen Sie das Tool wie folgt aus:
python merge_pdfs.py /documents /merged.pdf
Dadurch werden Datei1.pdf, Datei2.pdf und Datei3.pdf in merged.pdf zusammengeführt, wobei .git übersprungen wird.
Rekursives Zusammenführen:
Verzeichnisausschlüsse:
Sortierte Zusammenführung:
CLI-Einfachheit:
Große Dateien:
PDF-Kompatibilität:
Benutzerdefinierte Ausschlüsse:
Dieses Tutorial zeigt, wie Sie das Zusammenführen von PDFs aus einer Verzeichnisstruktur mit Python automatisieren. Das bereitgestellte CLI-Tool ist flexibel und kann für komplexere Arbeitsabläufe angepasst werden. Probieren Sie es aus und lassen Sie uns wissen, wie es für Sie funktioniert!
Viel Spaß beim Codieren! ?
Das obige ist der detaillierte Inhalt vonPDFs rekursiv mit Python zusammenführen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!