Python에서 PDFMiner를 사용하여 PDF 파일에서 텍스트 추출
질문:
어떻게 할 수 있나요? Python에서 최신 버전의 PDFMiner를 사용하여 PDF 파일에서 텍스트를 추출하시겠습니까?
답변:
PDFMiner는 최근에 중요한 API 업데이트를 거쳤습니다. 현재 버전을 사용하여 텍스트를 추출하는 방법은 다음과 같습니다.
<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import StringIO def convert_pdf_to_txt(path): rsrcmgr = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) fp = open(path, 'rb') interpreter = PDFPageInterpreter(rsrcmgr, device) password = "" maxpages = 0 caching = True pagenos=set() for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True): interpreter.process_page(page) text = retstr.getvalue() fp.close() device.close() retstr.close() return text</code>
참고: 이 솔루션은 PDFMiner의 최신 업데이트로 도입된 API 변경 사항을 해결하여 현재 버전의 라이브러리와의 호환성을 보장합니다.
위 내용은 Python에서 최신 버전의 PDFMiner를 사용하여 PDF 파일에서 텍스트를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!