ホームページ  >  記事  >  バックエンド開発  >  最新の API 変更を適用した Python で PDFMiner を使用して PDF ファイルからテキストを抽出する方法

最新の API 変更を適用した Python で PDFMiner を使用して PDF ファイルからテキストを抽出する方法

Linda Hamilton
Linda Hamiltonオリジナル
2024-10-17 14:23:29588ブラウズ

How to Extract Text from PDF Files using PDFMiner in Python with the Latest API Changes?

Python で PDFMiner を使用した PDF ファイルからのテキスト抽出

PDF ファイルからのテキストの抽出は、構造化データを扱う場合の一般的なタスクです。 Python は、このプロセスを容易にする PDFMiner ライブラリを提供します。ただし、PDFMiner API の最近の更新により、以前の多くの例が廃止されました。

これに対処するために、PDFMiner の現在のバージョンを使用したテキスト抽出の実例を見て​​みましょう。

<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text</code>

これ関数は PDF ファイルのパスを入力として受け取り、抽出されたテキストを文字列として返します。パスワードで保護された PDF や複数ページのドキュメントなどの一般的なシナリオを処理します。

最新バージョンの PDFMiner を使用してこの機能を実装すると、Python アプリケーションで PDF ファイルからテキストを効率的に抽出できます。

以上が最新の API 変更を適用した Python で PDFMiner を使用して PDF ファイルからテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。