>백엔드 개발 >파이썬 튜토리얼 >Python PDF 텍스트 추출이 잘못된 출력을 생성하는 이유는 무엇이며 어떻게 해결할 수 있습니까?

Python PDF 텍스트 추출이 잘못된 출력을 생성하는 이유는 무엇이며 어떻게 해결할 수 있습니까?

Barbara Streisand
Barbara Streisand원래의
2024-12-03 15:53:11945검색

Why Does My Python PDF Text Extraction Produce Garbled Output, and How Can I Fix It?

Python으로 PDF 텍스트 추출: 출력 불일치 문제 해결

Python의 PyPDF2 라이브러리를 사용하여 PDF 파일에서 텍스트를 추출하려고 하면 다음과 같은 문제가 발생합니다. 출력이 PDF 문서 내의 텍스트와 다르다는 것을 의미합니다. 특히, 출력이 왜곡되어 읽을 수 없는 문자가 포함되어 있습니다.

PDF 텍스트를 효과적으로 추출하려면 Tika 패키지를 사용하는 것이 좋습니다. PyPDF2와 달리 원본 형식을 유지하면서 PDF 텍스트 추출을 지원합니다.

Tika를 사용하여 텍스트를 추출하는 방법은 다음과 같습니다.

from tika import parser # pip install tika

raw = parser.from_file('sample.pdf')
print(raw['content'])

Tika는 Java 런타임에 의존합니다. Python과 함께 사용하기 전에 먼저 설치하세요.

위 내용은 Python PDF 텍스트 추출이 잘못된 출력을 생성하는 이유는 무엇이며 어떻게 해결할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.