首頁  >  文章  >  後端開發  >  怎麼用Python批次擷取PDF中的信息

怎麼用Python批次擷取PDF中的信息

PHPz
PHPz轉載
2024-03-02 09:25:16538瀏覽

怎麼用Python批次擷取PDF中的信息

要使用python批次擷取pdf中的信息,可以使用Python的一個函式庫叫做PyPDF2。以下是一個簡單的例子,可以幫助你開始擷取PDF中的文字資訊:

首先,你需要安裝PyPDF2庫。可以使用以下命令在終端機或命令提示字元中安裝該庫:

pip install PyPDF2

然後,你可以使用以下程式碼來提取PDF中的文字資訊:

import PyPDF2

def extract_text_from_pdf(pdf_path):
with open(pdf_path, 'rb') as file:
pdf = PyPDF2.PdfFileReader(file)
text = ""
for page_number in range(pdf.getNumPages()):
page = pdf.getPage(page_number)
text += page.extractText()
return text

# 批量提取PDF中的文本信息
pdf_folder = "pdf文件夹路径"
output_folder = "输出文件夹路径"

import os

for filename in os.listdir(pdf_folder):
if filename.endswith(".pdf"):
pdf_path = os.path.join(pdf_folder, filename)
text = extract_text_from_pdf(pdf_path)

output_path = os.path.join(output_folder, f"{filename}.txt")
with open(output_path, 'w', encoding='utf-8') as file:
file.write(text)

在上面的程式碼中,pdf_folder是包含PDF檔案的資料夾的路徑,output_folder是將提取的文字輸出到的資料夾路徑。程式碼將遍歷資料夾中的所有PDF文件,提取每個文件的文字內容,並將提取的文字儲存到相應的文字檔案中。

請注意,程式碼只能提取PDF中的純文字訊息,如果PDF中包含圖像或表格等非文字內容,則該程式碼可能無法提取或正確提取。

以上是怎麼用Python批次擷取PDF中的信息的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:lsjlt.com。如有侵權,請聯絡admin@php.cn刪除