집 >백엔드 개발 >파이썬 튜토리얼 >Python에서 PDFMiner를 사용하여 PDF에서 텍스트를 추출하는 방법은 무엇입니까?

Python에서 PDFMiner를 사용하여 PDF에서 텍스트를 추출하는 방법은 무엇입니까?

Patricia Arquette원래의: 2024-10-17 14:26:02887검색

How to Extract Text from PDFs with PDFMiner in Python?

Extracting Text from PDFs with PDFMiner in Python

Question:

How can I extract text from a PDF file using PDFMiner in Python?

Answer:

Due to recent updates in PDFMiner's API, some existing documentation may contain outdated code. To extract text from a PDF file using the latest version of PDFMiner, follow these steps:

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def extract_pdf_text(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos = set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

This updated code addresses the changes in PDFMiner's syntax. It successfully extracts text from PDF files, as verified with Python 3.x, 3.7, and October 3, 2019 Python 3.7 using pdfminer.six, released in November 2018.

위 내용은 Python에서 PDFMiner를 사용하여 PDF에서 텍스트를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python using this

성명：

이전 기사：Python에서 업데이트된 PDFMiner API를 사용하여 PDF 파일에서 텍스트를 추출하는 방법은 무엇입니까?다음 기사：Python에서 업데이트된 PDFMiner API를 사용하여 PDF 파일에서 텍스트를 추출하는 방법은 무엇입니까?