ホームページ >バックエンド開発 >Python チュートリアル >Pythonを使用してpdfをtxtに出力する例
以下はPythonを使ってpdfをtxtに出力する方法の例です。参考になると思います。見に来てみましょう
1週間前にクラスメートからこのことについて尋ねられました。以前ファーウェイのコンテストに参加していたので、コンテスト後に見てみたところ、pdfminerパッケージを使用する必要があると言われました。それでインストールしてみましたが、インストールプロセスは非常に簡単でした:
sudo pip install pdfminer;
プロセス中にエラーはありませんでした。呼び出し方については、pdfminer ライブラリをよく勉強していないので、Baidu を起動してみました...
公式ドキュメント: http://www.unixuser.org/~euske/python/pdfminer/ Index.html
はすべてPythonで書かれています。 (バージョン 2.4 以降に適用)
PDF ドキュメントを解析、分析、変換します。
PDF-1.7仕様のサポート。 (ほぼ)
CJK 言語と縦書きスクリプトのサポート。
さまざまなフォントタイプ (Type1、TrueType、Type3、および CID) のサポート。
基本暗号化 (RC4) のサポート。
PDFからHTMLへの変換。
アウトライン(TOC)の抽出。
タグコンテンツの抽出。
テキストブロックをグループ化して元のレイアウトを再構築します。
いくつかの基本クラス
PDFParser: ファイルからデータを取得します
PDFDocument: 取得したデータを保存し、PDFParser は相互に関連しています
PDFPageInterpreter はページコンテンツを処理します
PDFDevice はそれを必要なものに変換します
PDFResourceManager の形式は、フォントや画像などの共有リソースを保存するために使用されます。
簡単な実装
test.pdfを読み取り、output.txtとして出力します:
# -*- coding: utf-8 -*- from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument from pdfminer.pdfpage import PDFPage from pdfminer.pdfpage import PDFTextExtractionNotAllowed from pdfminer.pdfinterp import PDFResourceManager from pdfminer.pdfinterp import PDFPageInterpreter from pdfminer.pdfdevice import PDFDevice from pdfminer.layout import * from pdfminer.converter import PDFPageAggregator import os fp = open('test.pdf', 'rb') #来创建一个pdf文档分析器 parser = PDFParser(fp) #创建一个PDF文档对象存储文档结构 document = PDFDocument(parser) # 检查文件是否允许文本提取 if not document.is_extractable: raise PDFTextExtractionNotAllowed else: # 创建一个PDF资源管理器对象来存储共赏资源 rsrcmgr=PDFResourceManager() # 设定参数进行分析 laparams=LAParams() # 创建一个PDF设备对象 # device=PDFDevice(rsrcmgr) device=PDFPageAggregator(rsrcmgr,laparams=laparams) # 创建一个PDF解释器对象 interpreter=PDFPageInterpreter(rsrcmgr,device) # 处理每一页 for page in PDFPage.create_pages(document): interpreter.process_page(page) # 接受该页面的LTPage对象 layout=device.get_result() for x in layout: if(isinstance(x,LTTextBoxHorizontal)): with open('output.txt','a') as f: f.write(x.get_text().encode('utf-8')+'\n')
関連推奨事項:
以上がPythonを使用してpdfをtxtに出力する例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。