Rumah >pembangunan bahagian belakang >Tutorial Python >Cara Bekerja Dengan Dokumen PDF Menggunakan Python
bernasib baik, tidak sukar untuk memproses fail PDF dengan modul luaran Python. Artikel ini akan menggunakan modul PYPDF2 untuk menunjukkan cara membuka fail PDF, mencetak halaman, dan mengekstrak teks. Untuk penciptaan dan penyuntingan fail PDF, sila rujuk tutorial lain dari saya.
Penyediaan
Teras terletak pada menggunakan modul luaran PYPDF2. Pertama, pasangkannya menggunakan PIP:
PIP adalah sistem pengurusan pakej untuk Python yang memasang dan menguruskan pakej Python, dan banyak pakej yang terdapat dalam Indeks Pakej Python (PYPI).Jika anda memuat turun python dari python.org, PIP mungkin dipasang secara automatik. Masukkan arahan berikut di terminal untuk memasang PYPDF2:
pip install PyPDF2Untuk menggunakan semua ciri PYPDF2 (termasuk penyulitan, penyahsulitan dan pemprosesan imej), anda boleh menggunakan arahan berikut:
pip install PyPDF2[full]Jika anda hanya memerlukan fungsi penyulitan/penyahsulitan AES, anda boleh menggunakan:
pip install PyPDF2[crypto]PYPDF2 menyokong penyulitan RC4 secara lalai.
PYPDF2 adalah perpustakaan sumber terbuka percuma yang menyokong bacaan, penulisan, segmentasi dan penggabungan fail PDF. Tutorial ini menggunakan versi PYPDF2 2.11.1.
Baca fail pdf
Kami akan menggunakan versi PDF Kecantikan dan Binatang pada Projek Gutenberg sebagai fail sampel. Anda boleh memuat turun fail atau menggunakan sebarang fail PDF yang lain.
Kod berikut menunjukkan cara membuka dan membaca fail pdf:
Baris pertama mengimport modul PYPDF2. Kelas
import PyPDF2 with open('beauty-and-the-beast.pdf', 'rb') as book: book_reader = PyPDF2.PdfReader(book)digunakan untuk membaca fail PDF dan mewakili halamannya sebagai objek
. PdfReader
Page
Dapatkan bilangan halaman:
import PyPDF2 with open('beauty-and-the-beast.pdf', 'rb') as book: book_reader = PyPDF2.PdfReader(book) number_of_pages = len(book_reader.pages) print(number_of_pages) # 输出:48Akses langsung ke nombor halaman
Kaedah
untuk mendapatkan nombor halaman:
get_page_number()
import random from PyPDF2 import PdfReader with open('beauty-and-the-beast.pdf', 'rb') as book: book_reader = PdfReader(book) page_list = book_reader.pages last_page = page_list[-1] print(book_reader.get_page_number(last_page)) # 输出:47 (实际为第48页) some_page = page_list[random.randint(15, 35)] print(book_reader.get_page_number(some_page)) # 输出:随机页码mod halaman dan susun atur halaman
>
page_mode
page_layout
from PyPDF2 import PdfReader with open('beauty-and-the-beast.pdf', 'rb') as book: book_reader = PdfReader(book) print(book_reader.page_mode) # 输出:None print(book_reader.page_layout) # 输出:None
metadata
from PyPDF2 import PdfReader with open('beauty-and-the-beast.pdf', 'rb') as book: book_reader = PdfReader(book) book_metadata = book_reader.metadata print(book_metadata.title) # 输出:Beauty and the Beast print(book_metadata.author) # 输出:Anonymous print(book_metadata.creation_date) # 输出:例如 2006-11-30 01:13:00-08:00 print(book_metadata.producer) # 输出:例如 pdfeTeX-1.21a
Python memudahkan pemprosesan fail PDF melalui modul PYPDF2. Artikel ini hanya memperkenalkan beberapa fungsi PYPDF2.
Atas ialah kandungan terperinci Cara Bekerja Dengan Dokumen PDF Menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!