Python으로 PDF 텍스트 추출: 출력 불일치 문제 해결
Python의 PyPDF2 라이브러리를 사용하여 PDF 파일에서 텍스트를 추출하려고 하면 다음과 같은 문제가 발생합니다. 출력이 PDF 문서 내의 텍스트와 다르다는 것을 의미합니다. 특히, 출력이 왜곡되어 읽을 수 없는 문자가 포함되어 있습니다.
PDF 텍스트를 효과적으로 추출하려면 Tika 패키지를 사용하는 것이 좋습니다. PyPDF2와 달리 원본 형식을 유지하면서 PDF 텍스트 추출을 지원합니다.
Tika를 사용하여 텍스트를 추출하는 방법은 다음과 같습니다.
from tika import parser # pip install tika raw = parser.from_file('sample.pdf') print(raw['content'])
Tika는 Java 런타임에 의존합니다. Python과 함께 사용하기 전에 먼저 설치하세요.
위 내용은 Python PDF 텍스트 추출이 잘못된 출력을 생성하는 이유는 무엇이며 어떻게 해결할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!