Heim >Backend-Entwicklung >Python-Tutorial >Wie man mit PDF -Dokumenten mit Python arbeitet

Wie man mit PDF -Dokumenten mit Python arbeitet

Joseph Gordon-Levitt
Joseph Gordon-LevittOriginal
2025-03-02 09:54:11512Durchsuche

How to Work With PDF Documents Using Python

PDF-Dateien sind für ihre plattformübergreifende Kompatibilität beliebt, wobei Inhalte und Layout für Betriebssysteme, Lesegeräte und Software konsistent sind. Im Gegensatz zu Python Processing -Klartextdateien sind PDF -Dateien jedoch binäre Dateien mit komplexeren Strukturen und enthalten Elemente wie Schriftarten, Farben und Bilder.

Zum Glück ist es nicht schwierig, PDF -Dateien mit Pythons externen Modulen zu verarbeiten. In diesem Artikel wird das PYPDF2 -Modul verwendet, um zu demonstrieren, wie Sie eine PDF -Datei öffnen, eine Seite ausdrucken und Text extrahieren. Die Erstellung und Bearbeitung von PDF -Dateien finden Sie in einem weiteren Tutorial von mir.

Vorbereitung

Der Kern liegt in der Verwendung von externem Modul PYPDF2. Installieren Sie es zunächst mit PIP:

PIP ist ein Paketverwaltungssystem für Python, das Python -Pakete installiert und verwaltet, und viele Pakete finden Sie im Python Package Index (PYPI).

Wenn Sie Python von python.org heruntergeladen haben, wird PIP wahrscheinlich automatisch installiert. Geben Sie den folgenden Befehl im Terminal ein, um PYPDF2:

zu installieren
pip install PyPDF2

Um alle Funktionen von PYPDF2 (einschließlich Verschlüsselung, Entschlüsselung und Bildverarbeitung) zu verwenden, können Sie den folgenden Befehl verwenden:

pip install PyPDF2[full]

Wenn Sie nur eine AES -Verschlüsselungs-/Entschlüsselungsfunktion benötigen, können Sie:

verwenden
pip install PyPDF2[crypto]

pypdf2 unterstützt die RC4 -Verschlüsselung standardmäßig.

pypdf2 grundlecs

pypdf2 ist eine kostenlose Open -Source -Bibliothek, die das Lesen, Schreiben, Segmentieren und Verschmelzung von PDF -Dateien unterstützt. In diesem Tutorial wird PYPDF2 Version 2.11.1 verwendet.

Lesen Sie die PDF -Datei

Wir werden die Beauty und die Beast PDF -Version auf Project Gutenberg als Beispieldatei verwenden. Sie können die Datei herunterladen oder eine andere PDF -Datei verwenden.

Der folgende Code zeigt, wie Sie eine PDF -Datei öffnen und lesen:

import PyPDF2

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PyPDF2.PdfReader(book)

Die erste Zeile importiert das PYPDF2 -Modul. Mit der PdfReader -Kläufe wird eine PDF -Datei gelesen und ihre Seite als Page Objekt dargestellt.

Holen Sie sich die Anzahl der Seiten:

import PyPDF2

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PyPDF2.PdfReader(book)
    number_of_pages = len(book_reader.pages)
    print(number_of_pages)  # 输出:48

Direkter Zugriff auf die Seitenzahl

get_page_number() Methode, um die Seitenzahl zu erhalten:

import random
from PyPDF2 import PdfReader

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PdfReader(book)
    page_list = book_reader.pages
    last_page = page_list[-1]
    print(book_reader.get_page_number(last_page))  # 输出:47 (实际为第48页)
    some_page = page_list[random.randint(15, 35)]
    print(book_reader.get_page_number(some_page))  # 输出:随机页码

Seitenmodus und Seitenlayout

Die Eigenschaften

page_mode und page_layout Rückgabe -Seitenmodus und Seitenlayoutinformationen:

from PyPDF2 import PdfReader

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PdfReader(book)
    print(book_reader.page_mode)  # 输出:None
    print(book_reader.page_layout)  # 输出:None

metadata Eigenschaften geben Metadaten von PDF -Dateien wie Autor, Titel, Erstellungszeit und Generator usw. zurück:

from PyPDF2 import PdfReader

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PdfReader(book)
    book_metadata = book_reader.metadata
    print(book_metadata.title)       # 输出:Beauty and the Beast
    print(book_metadata.author)      # 输出:Anonymous
    print(book_metadata.creation_date) # 输出:例如 2006-11-30 01:13:00-08:00
    print(book_metadata.producer)    # 输出:例如 pdfeTeX-1.21a

Zusammenfassung

python vereinfacht die Verarbeitung von PDF -Dateien über das PYPDF2 -Modul. In diesem Artikel werden nur einige der Funktionen von PYPDF2 vorgestellt.

Das obige ist der detaillierte Inhalt vonWie man mit PDF -Dokumenten mit Python arbeitet. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn