Heim >Backend-Entwicklung >Python-Tutorial >Wie man mit PDF -Dokumenten mit Python arbeitet
PDF-Dateien sind für ihre plattformübergreifende Kompatibilität beliebt, wobei Inhalte und Layout für Betriebssysteme, Lesegeräte und Software konsistent sind. Im Gegensatz zu Python Processing -Klartextdateien sind PDF -Dateien jedoch binäre Dateien mit komplexeren Strukturen und enthalten Elemente wie Schriftarten, Farben und Bilder.
Zum Glück ist es nicht schwierig, PDF -Dateien mit Pythons externen Modulen zu verarbeiten. In diesem Artikel wird das PYPDF2 -Modul verwendet, um zu demonstrieren, wie Sie eine PDF -Datei öffnen, eine Seite ausdrucken und Text extrahieren. Die Erstellung und Bearbeitung von PDF -Dateien finden Sie in einem weiteren Tutorial von mir.
Vorbereitung
Der Kern liegt in der Verwendung von externem Modul PYPDF2. Installieren Sie es zunächst mit PIP:
PIP ist ein Paketverwaltungssystem für Python, das Python -Pakete installiert und verwaltet, und viele Pakete finden Sie im Python Package Index (PYPI).
Wenn Sie Python von python.org heruntergeladen haben, wird PIP wahrscheinlich automatisch installiert. Geben Sie den folgenden Befehl im Terminal ein, um PYPDF2:
zu installierenpip install PyPDF2
Um alle Funktionen von PYPDF2 (einschließlich Verschlüsselung, Entschlüsselung und Bildverarbeitung) zu verwenden, können Sie den folgenden Befehl verwenden:
pip install PyPDF2[full]
Wenn Sie nur eine AES -Verschlüsselungs-/Entschlüsselungsfunktion benötigen, können Sie:
verwendenpip install PyPDF2[crypto]
pypdf2 unterstützt die RC4 -Verschlüsselung standardmäßig.
pypdf2 grundlecs
pypdf2 ist eine kostenlose Open -Source -Bibliothek, die das Lesen, Schreiben, Segmentieren und Verschmelzung von PDF -Dateien unterstützt. In diesem Tutorial wird PYPDF2 Version 2.11.1 verwendet.
Lesen Sie die PDF -Datei
Wir werden die Beauty und die Beast PDF -Version auf Project Gutenberg als Beispieldatei verwenden. Sie können die Datei herunterladen oder eine andere PDF -Datei verwenden.
Der folgende Code zeigt, wie Sie eine PDF -Datei öffnen und lesen:
import PyPDF2 with open('beauty-and-the-beast.pdf', 'rb') as book: book_reader = PyPDF2.PdfReader(book)
Die erste Zeile importiert das PYPDF2 -Modul. Mit der PdfReader
-Kläufe wird eine PDF -Datei gelesen und ihre Seite als Page
Objekt dargestellt.
Holen Sie sich die Anzahl der Seiten:
import PyPDF2 with open('beauty-and-the-beast.pdf', 'rb') as book: book_reader = PyPDF2.PdfReader(book) number_of_pages = len(book_reader.pages) print(number_of_pages) # 输出:48
Direkter Zugriff auf die Seitenzahl
get_page_number()
Methode, um die Seitenzahl zu erhalten:
import random from PyPDF2 import PdfReader with open('beauty-and-the-beast.pdf', 'rb') as book: book_reader = PdfReader(book) page_list = book_reader.pages last_page = page_list[-1] print(book_reader.get_page_number(last_page)) # 输出:47 (实际为第48页) some_page = page_list[random.randint(15, 35)] print(book_reader.get_page_number(some_page)) # 输出:随机页码
Seitenmodus und Seitenlayout
Die Eigenschaften page_mode
und page_layout
Rückgabe -Seitenmodus und Seitenlayoutinformationen:
from PyPDF2 import PdfReader with open('beauty-and-the-beast.pdf', 'rb') as book: book_reader = PdfReader(book) print(book_reader.page_mode) # 输出:None print(book_reader.page_layout) # 输出:None
metadata
Eigenschaften geben Metadaten von PDF -Dateien wie Autor, Titel, Erstellungszeit und Generator usw. zurück:
from PyPDF2 import PdfReader with open('beauty-and-the-beast.pdf', 'rb') as book: book_reader = PdfReader(book) book_metadata = book_reader.metadata print(book_metadata.title) # 输出:Beauty and the Beast print(book_metadata.author) # 输出:Anonymous print(book_metadata.creation_date) # 输出:例如 2006-11-30 01:13:00-08:00 print(book_metadata.producer) # 输出:例如 pdfeTeX-1.21a
Zusammenfassung
python vereinfacht die Verarbeitung von PDF -Dateien über das PYPDF2 -Modul. In diesem Artikel werden nur einige der Funktionen von PYPDF2 vorgestellt.
Das obige ist der detaillierte Inhalt vonWie man mit PDF -Dokumenten mit Python arbeitet. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!