suchen
HeimBackend-EntwicklungPython-TutorialPDFs rekursiv mit Python zusammenführen

Merge PDFs Recursively Using Python

Einführung

Das Zusammenführen mehrerer PDF-Dateien in einem einzigen Dokument kann eine mühsame Aufgabe sein, insbesondere wenn die Dateien über mehrere Verzeichnisse verteilt sind. Mit Python wird diese Aufgabe nahtlos und automatisiert. In diesem Tutorial erstellen wir mit PyPDF2 ein Befehlszeilenschnittstellentool (CLI) und klicken, um alle PDF-Dateien in einem Verzeichnis (einschließlich seiner Unterverzeichnisse) zusammenzuführen und dabei bestimmte Verzeichnisse wie .venv und .git auszuschließen.


Voraussetzungen

Bevor Sie beginnen, stellen Sie sicher, dass Sie Folgendes haben:

  1. Python: Version 3.7 oder höher.
  2. pip: Pythons Paketmanager.
  3. Erforderliche Bibliotheken:

    • Installieren Sie PyPDF2 zur PDF-Bearbeitung:
     pip install PyPDF2
    
  • Klicken Sie auf „Installieren“, um die CLI zu erstellen:

     pip install click
    

Code-Komplettlösung

Hier ist der vollständige Code für unser CLI-Tool:

import click
from pathlib import Path
from PyPDF2 import PdfMerger
import os

EXCLUDED_DIRS = {".venv", ".git"}

@click.command()
@click.argument("directory", type=click.Path(exists=True, file_okay=False, path_type=Path))
@click.argument("output_file", type=click.Path(dir_okay=False, writable=True, path_type=Path))
def merge_pdfs(directory: Path, output_file: Path):
    """
    Merge all PDF files from DIRECTORY and its subdirectories into OUTPUT_FILE,
    excluding specified directories like .venv and .git.
    """
    # Initialize the PdfMerger
    merger = PdfMerger()

    # Walk through the directory tree, including the base directory
    for root, dirs, files in os.walk(directory):
        # Exclude specific directories
        dirs[:] = [d for d in dirs if d not in EXCLUDED_DIRS]

        # Convert the root to a Path object
        current_dir = Path(root)

        click.echo(f"Processing directory: {current_dir}")

        # Collect PDF files in the current directory
        pdf_files = sorted(current_dir.glob("*.pdf"))

        if not pdf_files:
            click.echo(f"No PDF files found in {current_dir}")
            continue

        # Add PDF files from the current directory
        for pdf in pdf_files:
            click.echo(f"Adding {pdf}...")
            merger.append(str(pdf))

    # Write the merged output file
    output_file.parent.mkdir(parents=True, exist_ok=True)
    merger.write(str(output_file))
    merger.close()

    click.echo(f"All PDFs merged into {output_file}")

if __name__ == "__main__":
    merge_pdfs()

Wie es funktioniert

  1. Verzeichnisdurchlauf:

    • Die Funktion os.walk() durchläuft rekursiv das angegebene Verzeichnis.
    • Bestimmte Verzeichnisse (z. B. .venv, .git) werden mithilfe eines Filters für Verzeichnisse ausgeschlossen.
  2. PDF-Dateisammlung:

    • Der current_dir.glob("*.pdf") sammelt alle PDF-Dateien im aktuellen Verzeichnis.
  3. PDFs zusammenführen:

    • PdfMerger von PyPDF2 wird zum Anhängen aller PDFs verwendet.
    • Die zusammengeführte Ausgabe wird in die angegebene Datei geschrieben.
  4. CLI-Integration:

    • Die Klickbibliothek erleichtert die Bereitstellung von Verzeichnis- und Ausgabedateipfaden als Argumente.

Ausführen des Tools

Speichern Sie den Code in einer Datei, z. B. merge_pdfs.py. Führen Sie es vom Terminal aus wie folgt aus:

python merge_pdfs.py /path/to/directory /path/to/output.pdf

Beispiel

Angenommen, Sie haben die folgende Verzeichnisstruktur:

/documents
├── file1.pdf
├── subdir1
│   ├── file2.pdf
├── subdir2
│   ├── file3.pdf
├── .git
│   ├── ignored_file.pdf

Führen Sie das Tool wie folgt aus:

python merge_pdfs.py /documents /merged.pdf

Dadurch werden Datei1.pdf, Datei2.pdf und Datei3.pdf in merged.pdf zusammengeführt, wobei .git übersprungen wird.


Merkmale

  1. Rekursives Zusammenführen:

    • Das Tool bezieht automatisch PDFs aus allen Unterverzeichnissen ein.
  2. Verzeichnisausschlüsse:

    • Schließt Verzeichnisse wie .venv und .git aus, um irrelevante Dateien zu vermeiden.
  3. Sortierte Zusammenführung:

    • Stellt sicher, dass PDFs in sortierter Reihenfolge hinzugefügt werden, um konsistente Ergebnisse zu erzielen.
  4. CLI-Einfachheit:

    • Bietet Benutzern eine intuitive Benutzeroberfläche zum Festlegen von Eingabe- und Ausgabepfaden.

Hinweise und Einschränkungen

  1. Große Dateien:

    • Das Zusammenführen einer großen Anzahl von PDFs kann viel Speicher verbrauchen. Testen Sie zuerst mit kleineren Datensätzen.
  2. PDF-Kompatibilität:

    • Stellen Sie sicher, dass alle Eingabe-PDFs gültig und nicht beschädigt sind.
  3. Benutzerdefinierte Ausschlüsse:

    • Ändern Sie den Satz EXCLUDED_DIRS, um nach Bedarf weitere Verzeichnisse auszuschließen.

Abschluss

Dieses Tutorial zeigt, wie Sie das Zusammenführen von PDFs aus einer Verzeichnisstruktur mit Python automatisieren. Das bereitgestellte CLI-Tool ist flexibel und kann für komplexere Arbeitsabläufe angepasst werden. Probieren Sie es aus und lassen Sie uns wissen, wie es für Sie funktioniert!

Viel Spaß beim Codieren! ?

Das obige ist der detaillierte Inhalt vonPDFs rekursiv mit Python zusammenführen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Python: Ein tiefes Eintauchen in Zusammenstellung und InterpretationPython: Ein tiefes Eintauchen in Zusammenstellung und InterpretationMay 12, 2025 am 12:14 AM

PythonusesahybridmodelofCompilation und Interpretation: 1) thepythonInterPreterCompilessourceCodeIntoplatform-unintenpendentBytecode.2) Thepythonvirtualmachine (PVM) ThenexexexexecthisByTeCode, BalancingeAnsewusewithperformance.

Ist Python eine interpretierte oder eine kompilierte Sprache, und warum ist es wichtig?Ist Python eine interpretierte oder eine kompilierte Sprache, und warum ist es wichtig?May 12, 2025 am 12:09 AM

Pythonisbothinterpreted und kompiliert.1) ItscompiledToByteCodeForPortabilityAcrossplatform.2) thytecodeTheninterpreted, und das ErlaubnisfordyNamictyPingandRapidDevelopment zulässt, obwohl es sich

Für Schleife vs während der Schleife in Python: Schlüsselunterschiede erklärtFür Schleife vs während der Schleife in Python: Schlüsselunterschiede erklärtMay 12, 2025 am 12:08 AM

ForloopsaridealWenyouKnowtHenumberofofiterationssinadvance, während whileloopsarebetterForsituationswhereyouneedtoloopuntilaconditionismet.forloopsaremoreffictionAndable, geeigneter Verfaserungsverlust, whereaswiloopsofofermorcontrolanduseusefulfulf

Für und während Schleifen: ein praktischer LeitfadenFür und während Schleifen: ein praktischer LeitfadenMay 12, 2025 am 12:07 AM

Forloopsareusedwhenthenumberofiterationsisknowninadvance,whilewhileloopsareusedwhentheiterationsdependonacondition.1)Forloopsareidealforiteratingoversequenceslikelistsorarrays.2)Whileloopsaresuitableforscenarioswheretheloopcontinuesuntilaspecificcond

Python: Ist es wirklich interpretiert? Die Mythen entlarvenPython: Ist es wirklich interpretiert? Die Mythen entlarvenMay 12, 2025 am 12:05 AM

Pythonisnotpurelyinterpretiert; itusesahybridapproachofByteCodecompilation undruntimeinterpretation.1) PythoncompilessourcecodeIntoBytecode, die ISthenexecutBythepythonvirtualmachine (Pvm)

Python -Verkettungslisten mit demselben ElementPython -Verkettungslisten mit demselben ElementMay 11, 2025 am 12:08 AM

ToconcatenatelistsinpythonWithThesameElements, Verwendung: 1) Die Operatortokeepduplikate, 2) asettoremoveduplicate, or3) listenConpRectionforControloverDuplikate, EvermethodhasDifferentPerformanceInDormplocate.

Interpretiert gegen kompilierte Sprachen: Pythons PlatzInterpretiert gegen kompilierte Sprachen: Pythons PlatzMay 11, 2025 am 12:07 AM

PythonisaninterpretedLuage, OfferingaseofuseandflexibilitätsbutfacingPerformancelimitationsincriticalApplications.1) InterpretedLanguages ​​LikePythonexecutine-by-Line, ermöglicht, dassmediateFeedbackandrapidPrototyping.2) CompiledLanguagesslikec/C.5.

Für und während der Schleifen: Wann benutzt du jeweils in Python?Für und während der Schleifen: Wann benutzt du jeweils in Python?May 11, 2025 am 12:05 AM

Useforloopswhenthenumberofofiterationssisknowninadvance und wileloopswhenCiterationsDependonacondition.1) Forloopsardealforsequencelistorranges.2) Während

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Nordhold: Fusionssystem, erklärt
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
Mandragora: Flüstern des Hexenbaum
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Herunterladen der Mac-Version des Atom-Editors

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor

SublimeText3 Englische Version

SublimeText3 Englische Version

Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

EditPlus chinesische Crack-Version

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software