如何使用Python使用PDF文檔-Python教學-PHP中文網

首頁

後端開發

Python教學

如何使用Python使用PDF文檔

Joseph Gordon-Levitt

Mar 02, 2025 am 09:54 AM

How to Work With PDF Documents Using Python

PDF 文件因其跨平台兼容性而廣受歡迎，內容和佈局在不同操作系統、閱讀設備和軟件上保持一致。然而，與 Python 處理純文本文件不同，PDF 文件是二進製文件，結構更複雜，包含字體、顏色和圖像等元素。

幸運的是，借助 Python 的外部模塊，處理 PDF 文件並非難事。本文將使用 PyPDF2 模塊演示如何打開 PDF 文件、打印頁面和提取文本。關於 PDF 文件的創建和編輯，請參考我的另一篇教程。

準備工作

核心在於使用外部模塊 PyPDF2。首先，使用 pip 安裝它：

pip 是 Python 的包管理系統，用於安裝和管理 Python 軟件包，許多包可在 Python 包索引 (PyPI) 中找到。

如果您是從 python.org 下載的 Python，pip 很可能已自動安裝。在終端輸入以下命令安裝 PyPDF2：

pip install PyPDF2

要使用 PyPDF2 的全部功能（包括加密、解密和圖像處理），可以使用以下命令：

pip install PyPDF2[full]

如果您只需要 AES 加密/解密功能，則可以使用：

pip install PyPDF2[crypto]

PyPDF2 默認支持 RC4 加密。

PyPDF2 基礎

PyPDF2 是一個免費開源庫，支持 PDF 文件的讀取、寫入、分割和合併等操作。本教程使用 PyPDF2 版本 2.11.1。

讀取 PDF 文件

我們將使用 Project Gutenberg 上的《美女與野獸》PDF 版本作為示例文件。您可以下載該文件或使用任何其他 PDF 文件。

以下代碼演示如何打開並讀取 PDF 文件：

import PyPDF2

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PyPDF2.PdfReader(book)

第一行導入 PyPDF2 模塊。 PdfReader 類用於讀取 PDF 文件，並將其頁面表示為 Page 對象。

獲取頁面數量：

import PyPDF2

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PyPDF2.PdfReader(book)
    number_of_pages = len(book_reader.pages)
    print(number_of_pages)  # 输出：48

直接訪問頁面編號

get_page_number() 方法可獲取頁面的編號：

import random
from PyPDF2 import PdfReader

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PdfReader(book)
    page_list = book_reader.pages
    last_page = page_list[-1]
    print(book_reader.get_page_number(last_page))  # 输出：47 (实际为第48页)
    some_page = page_list[random.randint(15, 35)]
    print(book_reader.get_page_number(some_page))  # 输出：随机页码

頁面模式和頁面佈局

page_mode 和 page_layout 屬性分別返回頁面模式和頁面佈局信息：

from PyPDF2 import PdfReader

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PdfReader(book)
    print(book_reader.page_mode)  # 输出：None
    print(book_reader.page_layout)  # 输出：None

metadata 屬性返回 PDF 文件的元數據，例如作者、標題、創建時間和生成器等信息：

from PyPDF2 import PdfReader

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PdfReader(book)
    book_metadata = book_reader.metadata
    print(book_metadata.title)       # 输出：Beauty and the Beast
    print(book_metadata.author)      # 输出：Anonymous
    print(book_metadata.creation_date) # 输出：例如 2006-11-30 01:13:00-08:00
    print(book_metadata.producer)    # 输出：例如 pdfeTeX-1.21a

總結

Python 通過 PyPDF2 模塊簡化了 PDF 文件的處理。本文僅介紹了 PyPDF2 的部分功能，更多細節請參考 PyPDF2 官方文檔。

以上是如何使用Python使用PDF文檔的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

在Python陣列上可以執行哪些常見操作？Apr 26, 2025 am 12:22 AM

Pythonarrayssupportvariousoperations:1)Slicingextractssubsets,2)Appending/Extendingaddselements,3)Insertingplaceselementsatspecificpositions,4)Removingdeleteselements,5)Sorting/Reversingchangesorder,and6)Listcomprehensionscreatenewlistsbasedonexistin

在哪些類型的應用程序中，Numpy數組常用？Apr 26, 2025 am 12:13 AM

NumPyarraysareessentialforapplicationsrequiringefficientnumericalcomputationsanddatamanipulation.Theyarecrucialindatascience,machinelearning,physics,engineering,andfinanceduetotheirabilitytohandlelarge-scaledataefficiently.Forexample,infinancialanaly

您什麼時候選擇在Python中的列表上使用數組？Apr 26, 2025 am 12:12 AM

useanArray.ArarayoveralistinpythonwhendeAlingwithHomoGeneData，performance-Caliticalcode，orinterfacingwithccode.1）同質性data：arraysSaveMemorywithTypedElements.2）績效code-performance-calitialcode-calliginal-clitical-clitical-calligation-Critical-Code：Arraysofferferbetterperbetterperperformanceformanceformancefornallancefornalumericalical.3）

所有列表操作是否由數組支持，反之亦然？為什麼或為什麼不呢？Apr 26, 2025 am 12:05 AM

不，notalllistoperationsareSupportedByArrays，andviceversa.1）arraysdonotsupportdynamicoperationslikeappendorinsertwithoutresizing，wheremactsperformance.2）listssdonotguaranteeconecontanttanttanttanttanttanttanttanttanttimecomplecomecomplecomecomecomecomecomecomplecomectacccesslectaccesslecrectaccesslerikearraysodo。

您如何在python列表中訪問元素？Apr 26, 2025 am 12:03 AM

toAccesselementsInapythonlist，useIndIndexing，負索引，切片，口頭化。 1）indexingStartSat0.2）否定indexingAccessesessessessesfomtheend.3）slicingextractsportions.4）iterationerationUsistorationUsisturessoreTionsforloopsoreNumeratorseforeporloopsorenumerate.alwaysCheckListListListListlentePtotoVoidToavoIndexIndexIndexIndexIndexIndExerror。

Python的科學計算中如何使用陣列？Apr 25, 2025 am 12:28 AM

Arraysinpython，尤其是Vianumpy，ArecrucialInsCientificComputingfortheireftheireffertheireffertheirefferthe.1）Heasuedfornumerericalicerationalation，dataAnalysis和Machinelearning.2）Numpy'Simpy'Simpy'simplementIncressionSressirestrionsfasteroperoperoperationspasterationspasterationspasterationspasterationspasterationsthanpythonlists.3）inthanypythonlists.3）andAreseNableAblequick

您如何處理同一系統上的不同Python版本？Apr 25, 2025 am 12:24 AM

你可以通過使用pyenv、venv和Anaconda來管理不同的Python版本。 1）使用pyenv管理多個Python版本：安裝pyenv，設置全局和本地版本。 2）使用venv創建虛擬環境以隔離項目依賴。 3）使用Anaconda管理數據科學項目中的Python版本。 4）保留系統Python用於系統級任務。通過這些工具和策略，你可以有效地管理不同版本的Python，確保項目順利運行。

與標準Python陣列相比，使用Numpy數組的一些優點是什麼？Apr 25, 2025 am 12:21 AM

numpyarrayshaveseveraladagesoverandastardandpythonarrays：1）基於基於duetoc的iMplation，2）2）他們的aremoremoremorymorymoremorymoremorymoremorymoremoremory，尤其是WithlargedAtasets和3）效率化，效率化，矢量化函數函數函數函數構成和穩定性構成和穩定性的操作，製造

See all articles