이 기사에서는 Python을 사용하여 많은 PDF 파일의 텍스트 내용을 일괄 추출하는 방법을 보여줍니다.
먼저 파일 작업을 수행하기 위해 일부 모듈을 읽었습니다. (추천 학습: Python 비디오 튜토리얼)
import glob import os
demo 디렉토리 아래에는 pdf와 newpdf라는 두 개의 폴더가 있습니다.
pdf 파일이 있는 경로를 pdf 폴더로 지정합니다.
pdf_path = "pdf/"
우리는 모든 PDF 파일의 경로를 얻고 싶습니다. glob을 사용하면 이 기능을 하나의 명령으로 완료할 수 있습니다.
pdfs = glob.glob("{}/*.pdf".format(pdf_path))
우리가 얻은 pdf 파일 경로가 올바른지 확인하세요.
pdfs
['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf', 'pdf/面向影子分析的社交媒体竞争情报搜集.pdf', 'pdf/面向人机协同的移动互联网政务门户探析.pdf']
인증되었습니다. 정확한.
다음으로 pdfminer를 사용하여 pdf 파일에서 콘텐츠를 추출합니다. 도우미 Python 파일 pdf_extractor.py에서 extract_pdf_content 함수를 읽어야 합니다.
from pdf_extractor import extract_pdf_content
이 함수를 사용하여 pdf 파일 목록의 첫 번째 기사에서 내용을 추출하고 해당 텍스트를 content 변수에 저장하려고 합니다.
content = extract_pdf_content(pdfs[0])
분명히 내용 추출이 완벽하지 않고 머리글, 바닥글 및 기타 정보가 섞여 있습니다. 그러나 대부분의 텍스트 분석 목적에서는 이는 중요하지 않습니다.
더 많은 Python 관련 기술 기사를 보려면 Python Tutorial 칼럼을 방문하여 알아보세요!
위 내용은 Python에서 PDF 텍스트를 추출하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python은 데이터 과학, 웹 개발 및 자동화 작업에 적합한 반면 C는 시스템 프로그래밍, 게임 개발 및 임베디드 시스템에 적합합니다. Python은 단순성과 강력한 생태계로 유명하며 C는 고성능 및 기본 제어 기능으로 유명합니다.

2 시간 이내에 Python의 기본 프로그래밍 개념과 기술을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우기, 2. 마스터 제어 흐름 (조건부 명세서 및 루프), 3. 기능의 정의 및 사용을 이해하십시오. 4. 간단한 예제 및 코드 스 니펫을 통해 Python 프로그래밍을 신속하게 시작하십시오.

Python은 웹 개발, 데이터 과학, 기계 학습, 자동화 및 스크립팅 분야에서 널리 사용됩니다. 1) 웹 개발에서 Django 및 Flask 프레임 워크는 개발 프로세스를 단순화합니다. 2) 데이터 과학 및 기계 학습 분야에서 Numpy, Pandas, Scikit-Learn 및 Tensorflow 라이브러리는 강력한 지원을 제공합니다. 3) 자동화 및 스크립팅 측면에서 Python은 자동화 된 테스트 및 시스템 관리와 같은 작업에 적합합니다.

2 시간 이내에 파이썬의 기본 사항을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우십시오. 이를 통해 간단한 파이썬 프로그램 작성을 시작하는 데 도움이됩니다.

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

Python 3.6에 피클 파일로드 3.6 환경 보고서 오류 : modulenotfounderror : nomodulename ...

경치 좋은 스팟 댓글 분석에서 Jieba Word 세분화 문제를 해결하는 방법은 무엇입니까? 경치가 좋은 스팟 댓글 및 분석을 수행 할 때 종종 Jieba Word 세분화 도구를 사용하여 텍스트를 처리합니다 ...


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

WebStorm Mac 버전
유용한 JavaScript 개발 도구

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기
