Einführung
Das Zusammenführen mehrerer PDF-Dateien in einem einzigen Dokument kann eine mühsame Aufgabe sein, insbesondere wenn die Dateien über mehrere Verzeichnisse verteilt sind. Mit Python wird diese Aufgabe nahtlos und automatisiert. In diesem Tutorial erstellen wir mit PyPDF2 ein Befehlszeilenschnittstellentool (CLI) und klicken, um alle PDF-Dateien in einem Verzeichnis (einschließlich seiner Unterverzeichnisse) zusammenzuführen und dabei bestimmte Verzeichnisse wie .venv und .git auszuschließen.
Voraussetzungen
Bevor Sie beginnen, stellen Sie sicher, dass Sie Folgendes haben:
- Python: Version 3.7 oder höher.
- pip: Pythons Paketmanager.
-
Erforderliche Bibliotheken:
- Installieren Sie PyPDF2 zur PDF-Bearbeitung:
pip install PyPDF2
-
Klicken Sie auf „Installieren“, um die CLI zu erstellen:
pip install click
Code-Komplettlösung
Hier ist der vollständige Code für unser CLI-Tool:
import click from pathlib import Path from PyPDF2 import PdfMerger import os EXCLUDED_DIRS = {".venv", ".git"} @click.command() @click.argument("directory", type=click.Path(exists=True, file_okay=False, path_type=Path)) @click.argument("output_file", type=click.Path(dir_okay=False, writable=True, path_type=Path)) def merge_pdfs(directory: Path, output_file: Path): """ Merge all PDF files from DIRECTORY and its subdirectories into OUTPUT_FILE, excluding specified directories like .venv and .git. """ # Initialize the PdfMerger merger = PdfMerger() # Walk through the directory tree, including the base directory for root, dirs, files in os.walk(directory): # Exclude specific directories dirs[:] = [d for d in dirs if d not in EXCLUDED_DIRS] # Convert the root to a Path object current_dir = Path(root) click.echo(f"Processing directory: {current_dir}") # Collect PDF files in the current directory pdf_files = sorted(current_dir.glob("*.pdf")) if not pdf_files: click.echo(f"No PDF files found in {current_dir}") continue # Add PDF files from the current directory for pdf in pdf_files: click.echo(f"Adding {pdf}...") merger.append(str(pdf)) # Write the merged output file output_file.parent.mkdir(parents=True, exist_ok=True) merger.write(str(output_file)) merger.close() click.echo(f"All PDFs merged into {output_file}") if __name__ == "__main__": merge_pdfs()
Wie es funktioniert
-
Verzeichnisdurchlauf:
- Die Funktion os.walk() durchläuft rekursiv das angegebene Verzeichnis.
- Bestimmte Verzeichnisse (z. B. .venv, .git) werden mithilfe eines Filters für Verzeichnisse ausgeschlossen.
-
PDF-Dateisammlung:
- Der current_dir.glob("*.pdf") sammelt alle PDF-Dateien im aktuellen Verzeichnis.
-
PDFs zusammenführen:
- PdfMerger von PyPDF2 wird zum Anhängen aller PDFs verwendet.
- Die zusammengeführte Ausgabe wird in die angegebene Datei geschrieben.
-
CLI-Integration:
- Die Klickbibliothek erleichtert die Bereitstellung von Verzeichnis- und Ausgabedateipfaden als Argumente.
Ausführen des Tools
Speichern Sie den Code in einer Datei, z. B. merge_pdfs.py. Führen Sie es vom Terminal aus wie folgt aus:
python merge_pdfs.py /path/to/directory /path/to/output.pdf
Beispiel
Angenommen, Sie haben die folgende Verzeichnisstruktur:
/documents ├── file1.pdf ├── subdir1 │ ├── file2.pdf ├── subdir2 │ ├── file3.pdf ├── .git │ ├── ignored_file.pdf
Führen Sie das Tool wie folgt aus:
python merge_pdfs.py /documents /merged.pdf
Dadurch werden Datei1.pdf, Datei2.pdf und Datei3.pdf in merged.pdf zusammengeführt, wobei .git übersprungen wird.
Merkmale
-
Rekursives Zusammenführen:
- Das Tool bezieht automatisch PDFs aus allen Unterverzeichnissen ein.
-
Verzeichnisausschlüsse:
- Schließt Verzeichnisse wie .venv und .git aus, um irrelevante Dateien zu vermeiden.
-
Sortierte Zusammenführung:
- Stellt sicher, dass PDFs in sortierter Reihenfolge hinzugefügt werden, um konsistente Ergebnisse zu erzielen.
-
CLI-Einfachheit:
- Bietet Benutzern eine intuitive Benutzeroberfläche zum Festlegen von Eingabe- und Ausgabepfaden.
Hinweise und Einschränkungen
-
Große Dateien:
- Das Zusammenführen einer großen Anzahl von PDFs kann viel Speicher verbrauchen. Testen Sie zuerst mit kleineren Datensätzen.
-
PDF-Kompatibilität:
- Stellen Sie sicher, dass alle Eingabe-PDFs gültig und nicht beschädigt sind.
-
Benutzerdefinierte Ausschlüsse:
- Ändern Sie den Satz EXCLUDED_DIRS, um nach Bedarf weitere Verzeichnisse auszuschließen.
Abschluss
Dieses Tutorial zeigt, wie Sie das Zusammenführen von PDFs aus einer Verzeichnisstruktur mit Python automatisieren. Das bereitgestellte CLI-Tool ist flexibel und kann für komplexere Arbeitsabläufe angepasst werden. Probieren Sie es aus und lassen Sie uns wissen, wie es für Sie funktioniert!
Viel Spaß beim Codieren! ?
Das obige ist der detaillierte Inhalt vonPDFs rekursiv mit Python zusammenführen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Lösung für Erlaubnisprobleme beim Betrachten der Python -Version in Linux Terminal Wenn Sie versuchen, die Python -Version in Linux Terminal anzuzeigen, geben Sie Python ein ...

In diesem Artikel wird erklärt, wie man schöne Suppe, eine Python -Bibliothek, verwendet, um HTML zu analysieren. Es beschreibt gemeinsame Methoden wie find (), find_all (), select () und get_text () für die Datenextraktion, die Behandlung verschiedener HTML -Strukturen und -Anternativen (SEL)

Dieser Artikel vergleicht TensorFlow und Pytorch für Deep Learning. Es beschreibt die beteiligten Schritte: Datenvorbereitung, Modellbildung, Schulung, Bewertung und Bereitstellung. Wichtige Unterschiede zwischen den Frameworks, insbesondere bezüglich des rechnerischen Graps

Das Statistikmodul von Python bietet leistungsstarke Datenstatistikanalysefunktionen, mit denen wir die allgemeinen Merkmale von Daten wie Biostatistik und Geschäftsanalyse schnell verstehen können. Anstatt Datenpunkte nacheinander zu betrachten, schauen Sie sich nur Statistiken wie Mittelwert oder Varianz an, um Trends und Merkmale in den ursprünglichen Daten zu ermitteln, die möglicherweise ignoriert werden, und vergleichen Sie große Datensätze einfacher und effektiv. In diesem Tutorial wird erläutert, wie der Mittelwert berechnet und den Grad der Dispersion des Datensatzes gemessen wird. Sofern nicht anders angegeben, unterstützen alle Funktionen in diesem Modul die Berechnung der Mittelwert () -Funktion, anstatt einfach den Durchschnitt zu summieren. Es können auch schwimmende Punktzahlen verwendet werden. zufällig importieren Statistiken importieren Aus Fracti

In dem Artikel werden beliebte Python-Bibliotheken wie Numpy, Pandas, Matplotlib, Scikit-Learn, TensorFlow, Django, Flask und Anfragen erörtert, die ihre Verwendung in wissenschaftlichen Computing, Datenanalyse, Visualisierung, maschinellem Lernen, Webentwicklung und h beschreiben

Dieser Artikel führt die Python-Entwickler in den Bauen von CLIS-Zeilen-Schnittstellen (CLIS). Es werden mit Bibliotheken wie Typer, Click und ArgParse beschrieben, die Eingabe-/Ausgabemedelung betonen und benutzerfreundliche Designmuster für eine verbesserte CLI-Usabilität fördern.

Bei der Verwendung von Pythons Pandas -Bibliothek ist das Kopieren von ganzen Spalten zwischen zwei Datenrahmen mit unterschiedlichen Strukturen ein häufiges Problem. Angenommen, wir haben zwei Daten ...

Der Artikel erörtert die Rolle virtueller Umgebungen in Python und konzentriert sich auf die Verwaltung von Projektabhängigkeiten und die Vermeidung von Konflikten. Es beschreibt ihre Erstellung, Aktivierung und Vorteile bei der Verbesserung des Projektmanagements und zur Verringerung der Abhängigkeitsprobleme.


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

mPDF
mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Dreamweaver Mac
Visuelle Webentwicklungstools

EditPlus chinesische Crack-Version
Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

Sicherer Prüfungsbrowser
Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.