Rumah >pembangunan bahagian belakang >Tutorial Python >Cara Bekerja Dengan Dokumen PDF Menggunakan Python

Cara Bekerja Dengan Dokumen PDF Menggunakan Python

Joseph Gordon-Levitt
Joseph Gordon-Levittasal
2025-03-02 09:54:11512semak imbas

How to Work With PDF Documents Using Python

Fail PDF adalah popular untuk keserasian silang platform mereka, dengan kandungan dan susun atur yang konsisten merentasi sistem operasi, peranti membaca dan perisian. Walau bagaimanapun, tidak seperti Python memproses fail teks biasa, fail PDF adalah fail binari dengan struktur yang lebih kompleks dan mengandungi unsur -unsur seperti fon, warna, dan imej.

bernasib baik, tidak sukar untuk memproses fail PDF dengan modul luaran Python. Artikel ini akan menggunakan modul PYPDF2 untuk menunjukkan cara membuka fail PDF, mencetak halaman, dan mengekstrak teks. Untuk penciptaan dan penyuntingan fail PDF, sila rujuk tutorial lain dari saya.

Penyediaan

Teras terletak pada menggunakan modul luaran PYPDF2. Pertama, pasangkannya menggunakan PIP:

PIP adalah sistem pengurusan pakej untuk Python yang memasang dan menguruskan pakej Python, dan banyak pakej yang terdapat dalam Indeks Pakej Python (PYPI).

Jika anda memuat turun python dari python.org, PIP mungkin dipasang secara automatik. Masukkan arahan berikut di terminal untuk memasang PYPDF2:

pip install PyPDF2
Untuk menggunakan semua ciri PYPDF2 (termasuk penyulitan, penyahsulitan dan pemprosesan imej), anda boleh menggunakan arahan berikut:

pip install PyPDF2[full]
Jika anda hanya memerlukan fungsi penyulitan/penyahsulitan AES, anda boleh menggunakan:

pip install PyPDF2[crypto]
PYPDF2 menyokong penyulitan RC4 secara lalai.

Asas PYPDF2

PYPDF2 adalah perpustakaan sumber terbuka percuma yang menyokong bacaan, penulisan, segmentasi dan penggabungan fail PDF. Tutorial ini menggunakan versi PYPDF2 2.11.1.

Baca fail pdf

Kami akan menggunakan versi PDF Kecantikan dan Binatang pada Projek Gutenberg sebagai fail sampel. Anda boleh memuat turun fail atau menggunakan sebarang fail PDF yang lain.

Kod berikut menunjukkan cara membuka dan membaca fail pdf:

Baris pertama mengimport modul PYPDF2. Kelas
import PyPDF2

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PyPDF2.PdfReader(book)
digunakan untuk membaca fail PDF dan mewakili halamannya sebagai objek

. PdfReader Page Dapatkan bilangan halaman:

import PyPDF2

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PyPDF2.PdfReader(book)
    number_of_pages = len(book_reader.pages)
    print(number_of_pages)  # 输出:48
Akses langsung ke nombor halaman

Kaedah

untuk mendapatkan nombor halaman:

get_page_number()

import random
from PyPDF2 import PdfReader

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PdfReader(book)
    page_list = book_reader.pages
    last_page = page_list[-1]
    print(book_reader.get_page_number(last_page))  # 输出:47 (实际为第48页)
    some_page = page_list[random.randint(15, 35)]
    print(book_reader.get_page_number(some_page))  # 输出:随机页码
mod halaman dan susun atur halaman

> dan

Properties Return Page Mode and Page Maklumat Susun atur masing -masing:

page_mode page_layout

Properties mengembalikan metadata fail PDF, seperti pengarang, tajuk, masa penciptaan, dan penjana, dan lain -lain:
from PyPDF2 import PdfReader

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PdfReader(book)
    print(book_reader.page_mode)  # 输出:None
    print(book_reader.page_layout)  # 输出:None

metadata

Ringkasan
from PyPDF2 import PdfReader

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PdfReader(book)
    book_metadata = book_reader.metadata
    print(book_metadata.title)       # 输出:Beauty and the Beast
    print(book_metadata.author)      # 输出:Anonymous
    print(book_metadata.creation_date) # 输出:例如 2006-11-30 01:13:00-08:00
    print(book_metadata.producer)    # 输出:例如 pdfeTeX-1.21a

Python memudahkan pemprosesan fail PDF melalui modul PYPDF2. Artikel ini hanya memperkenalkan beberapa fungsi PYPDF2.

Atas ialah kandungan terperinci Cara Bekerja Dengan Dokumen PDF Menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel sebelumnya:Pengesahan JWT di DjangoArtikel seterusnya:Pengesahan JWT di Django