ホームページ >バックエンド開発 >Python チュートリアル >Python の PDFMiner を使用して PDF からテキストを抽出する方法

Python の PDFMiner を使用して PDF からテキストを抽出する方法

Patricia Arquette
Patricia Arquetteオリジナル
2024-10-17 14:26:02813ブラウズ

How to Extract Text from PDFs with PDFMiner in Python?

Python の PDFMiner を使用して PDF からテキストを抽出する

質問:

どのように抽出できますかPython で PDFMiner を使用して PDF ファイルからテキストを取得するには?

回答:

PDFMiner の API の最近の更新により、一部の既存のドキュメントに古いコードが含まれている可能性があります。最新バージョンの PDFMiner を使用して PDF ファイルからテキストを抽出するには、次の手順に従います。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def extract_pdf_text(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos = set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

この更新されたコードは、PDFMiner の構文の変更に対応しています。 Python 3.x、3.7、および 2018 年 11 月にリリースされた pdfminer.six を使用した Python 3.7、2019 年 10 月 3 日で検証されたとおり、PDF ファイルからテキストを正常に抽出できます。

以上がPython の PDFMiner を使用して PDF からテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。