利用python將pdf輸出為txt的實例-Python教學-PHP中文網

首頁

後端開發

Python教學

利用python將pdf輸出為txt的實例

不言

Apr 23, 2018 pm 03:16 PM

python實例輸出

下面為大家分享一篇利用python將pdf輸出為txt的實例講解，具有很好的參考價值，希望對大家有幫助。一起來看看吧

一個禮拜前一個同學問我這個事情，由於之前在參加華為的比賽，所以賽後看了一下，據說需要用到pdfminer這個包。於是安裝了一下，安裝過程很簡單：

sudo pip install pdfminer;

#中間也沒有任何的報錯。至於如何調用，本人也沒有很好的研究過pdfminer這個函式庫，於是開始了百度…

官方文件：##http://www.unixuser .org/~euske/python/pdfminer/index.html

完全使用python編寫。（適用於2.4或更新版本）

解析，分析，並轉換成PDF文件。

PDF-1.7規範的支持。（幾乎）

中日韓語言和垂直書寫腳本支援。

各種字型類型（Type1、TrueType、Type3，和CID）的支援。

基本加密（RC4）的支援。

PDF與HTML轉換。

綱要（TOC）的提取。

標籤內容提取。

透過分組文字區塊重建原始的佈局。

一些基本的類別

PDFParser：從一個檔案中取得資料

PDFDocument：儲存取得的數據，和PDFParser是相互關聯的

PDFPageInterpreter處理頁面內容

PDFDevice將其翻譯成你需要的格式

PDFResourceManager用於儲存共享資源，如字體或圖像。

簡單的實作

#讀取test.pdf輸出為output.txt:

# -*- coding: utf-8 -*-  
from pdfminer.pdfparser import PDFParser 
from pdfminer.pdfdocument import PDFDocument 
from pdfminer.pdfpage import PDFPage 
from pdfminer.pdfpage import PDFTextExtractionNotAllowed 
from pdfminer.pdfinterp import PDFResourceManager 
from pdfminer.pdfinterp import PDFPageInterpreter 
from pdfminer.pdfdevice import PDFDevice 
from pdfminer.layout import * 
from pdfminer.converter import PDFPageAggregator 
import os 
fp = open(&#39;test.pdf&#39;, &#39;rb&#39;) 
#来创建一个pdf文档分析器 
parser = PDFParser(fp) 
#创建一个PDF文档对象存储文档结构 
document = PDFDocument(parser) 
# 检查文件是否允许文本提取 
if not document.is_extractable: 
 raise PDFTextExtractionNotAllowed 
else: 
 # 创建一个PDF资源管理器对象来存储共赏资源 
 rsrcmgr=PDFResourceManager() 
 # 设定参数进行分析 
 laparams=LAParams() 
 # 创建一个PDF设备对象 
 # device=PDFDevice(rsrcmgr) 
 device=PDFPageAggregator(rsrcmgr,laparams=laparams) 
 # 创建一个PDF解释器对象 
 interpreter=PDFPageInterpreter(rsrcmgr,device) 
 # 处理每一页 
 for page in PDFPage.create_pages(document): 
  interpreter.process_page(page) 
  # 接受该页面的LTPage对象 
  layout=device.get_result() 
  for x in layout: 
   if(isinstance(x,LTTextBoxHorizontal)): 
    with open(&#39;output.txt&#39;,&#39;a&#39;) as f: 
     f.write(x.get_text().encode(&#39;utf-8&#39;)+&#39;\n&#39;)

相關推薦：

Python 將pdf轉換成圖片的方法

以上是利用python將pdf輸出為txt的實例的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

了解差異：用於循環和python中的循環May 16, 2025 am 12:17 AM

theDifferenceBetweewneaforoopandawhileLoopInpythonisthataThataThataThataThataThataThataNumberoFiterationSiskNownInAdvance，而leleawhileLoopisusedWhenaconDitionNeedneedneedneedNeedStobeCheckedStobeCheckedStobeCheckedStobeCheckedStobeceDrepeTysepectients.peatsiveSectlyStheStobeCeptellyWithnumberofiterations.1）forloopsareAceareIdealForitoringercortersence

Python循環控制：對於vs -a -a比較May 16, 2025 am 12:16 AM

在Python中，for循環適用於已知迭代次數的情況，而while循環適合未知迭代次數且需要更多控制的情況。 1）for循環適用於遍歷序列，如列表、字符串等，代碼簡潔且Pythonic。 2）while循環在需要根據條件控制循環或等待用戶輸入時更合適，但需注意避免無限循環。 3）性能上，for循環略快，但差異通常不大。選擇合適的循環類型可以提高代碼的效率和可讀性。

如何在Python中結合兩個列表：5種簡單的方法May 16, 2025 am 12:16 AM

在Python中，可以通過五種方法合併列表：1)使用運算符，簡單直觀，適用於小列表；2)使用extend()方法，直接修改原列表，適用於需要頻繁更新的列表；3)使用列表解析式，簡潔且可對元素進行操作；4)使用itertools.chain()函數，內存高效，適合大數據集；5)使用*運算符和zip()函數，適用於需要配對元素的場景。每種方法都有其特定用途和優缺點，選擇時應考慮項目需求和性能。

循環時循環：python語法，用例和示例May 16, 2025 am 12:14 AM

foroopsare whenthenemberofiterationsisknown，而whileLoopsareUseduntilacTitionismet.1）ForloopSareIdealForeSequencesLikeLists，UsingSyntaxLike'forfruitinFruitinFruitinFruitIts：print（fruit）'。 2）'

python串聯列表列表May 16, 2025 am 12:08 AM

toConcateNateAlistofListsInpython，useextend，listComprehensions，itertools.Chain，orrecursiveFunctions.1）ExtendMethodStraightForwardButverBose.2）listComprechencomprechensionsareconconconciseandemandeconeandefforlargerdatasets.3）