ホームページ >バックエンド開発 >Python チュートリアル >Python の PDFMiner を使用して PDF からテキストを抽出する方法
Python の PDFMiner を使用して PDF からテキストを抽出する
質問:
どのように抽出できますかPython で PDFMiner を使用して PDF ファイルからテキストを取得するには?
回答:
PDFMiner の API の最近の更新により、一部の既存のドキュメントに古いコードが含まれている可能性があります。最新バージョンの PDFMiner を使用して PDF ファイルからテキストを抽出するには、次の手順に従います。
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import StringIO def extract_pdf_text(path): rsrcmgr = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) fp = open(path, 'rb') interpreter = PDFPageInterpreter(rsrcmgr, device) password = "" maxpages = 0 caching = True pagenos = set() for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching, check_extractable=True): interpreter.process_page(page) text = retstr.getvalue() fp.close() device.close() retstr.close() return text
この更新されたコードは、PDFMiner の構文の変更に対応しています。 Python 3.x、3.7、および 2018 年 11 月にリリースされた pdfminer.six を使用した Python 3.7、2019 年 10 月 3 日で検証されたとおり、PDF ファイルからテキストを正常に抽出できます。
以上がPython の PDFMiner を使用して PDF からテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。