이 기사에서는 python에 대한 관련 지식을 제공합니다. 이 기사에서는 pdfplumber 모듈 설치, PDF 로드 및 일부 실제 작업 등을 포함하여 pdfplumumber가 PDF를 읽고 Excel에 쓰는 것과 관련된 문제를 주로 소개합니다. 함께 살펴보겠습니다. , 모든 사람에게 도움이 되기를 바랍니다.
추천 학습: python 동영상 튜토리얼
1. Python에서 PDF를 운영하기 위한 13개 주요 라이브러리 비교
PDF(Portable Document Format)는 운영 체제 간에 문서의 확산을 용이하게 하는 이식 가능한 문서 형식입니다. PDF 문서는 표준 형식을 따르므로 PDF 문서에서 작업할 수 있는 도구가 많이 있으며 Python도 예외는 아닙니다.
Python이 운영하는 PDF 모듈의 비교표는 다음과 같습니다.
이 글에서는 텍스트(위치, 글꼴, 색상 등)와 PDF 내용 추출에 초점을 맞춘 pdfplumumber
를 주로 소개합니다. 모양(직사각형, 직선, 곡선) 및 테이블 구문 분석 기능을 제공합니다. pdfplumber
专注PDF内容提取,例如文本(位置、字体及颜色等)和形状(矩形、直线、曲线),还有解析表格的功能。
二、pdfplumber模块
其他几个 Python 库帮助用户从 PDF 中提取信息。作为一个广泛的概述,pdfplumber它通过结合以下功能将自己与其他 PDF 处理库区分开来:
- 轻松访问有关每个 PDF 对象的详细信息
- 用于提取文本和表格的更高级别、可自定义的方法
- 紧密集成的可视化调试
- 其他有用的实用功能,例如通过裁剪框过滤对象
1. 安装
cmd控制台输入:
pip install pdfplumber
导包:
import pdfplumber
案例PDF截图(两页未截全):
2. 加载PDF
读取PDF代码:pdfplumber.open("路径/文件名.pdf", password = "test", laparams = { "line_overlap": 0.7 })
参数解读:
-
password
:要加载受密码保护的 PDF,请传递password关键字参数
-
laparams
:要将布局分析参数设置为pdfminer.six的布局引擎,请传递laparams关键字参数
案例代码:
import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
print(pdf)
print(type(pdf))
输出结果:
<pdfplumber.pdf.pdf><class></class></pdfplumber.pdf.pdf>
3. pdfplumber.PDF类
pdfplumber.PDF
类表示单个 PDF,并具有两个主要属性:
属性 |
说明 |
.metadata |
从PDF的Info中获取元数据键 /值对 字典。 通常包括“ CreationDate”,“ ModDate”,“ Producer”等。 |
.pages |
返回一个包含pdfplumber.Page实例的列表,每一个实例代表PDF每一页的信息 |
1. 读取PDF文档信息(.metadata
):
import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
print(pdf.metadata)
运行结果:
{'Author': 'wangwangyuqing', 'Comments': '', 'Company': '', 'CreationDate': "D:20220330113508+03'35'", 'Creator': 'WPS 文字', 'Keywords': '', 'ModDate': "D:20220330113508+03'35'", 'Producer': '', 'SourceModified': "D:20220330113508+03'35'", 'Subject': '', 'Title': '', 'Trapped': 'False'}
2. 输出总页数
import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
print(len(pdf.pages))
运行结果:
2
4. pdfplumber.Page类
pdfplumber.Page
类是pdfplumber整个的核心,大多数操作都围绕这个类进行操作,它具有以下几个属性:
属性 |
说明 |
.page_number |
顺序页码,从1第一页开始,从第二页开始2,依此类推。 |
.width |
页面的宽度。 |
.height |
页面的高度。 |
.objects/.chars/.lines/.rects/.curves/.figures/.images |
这些属性中的每一个都是一个列表,每个列表包含一个字典,用于嵌入页面上的每个此类对象。有关详细信息,请参阅下面的“对象”。 |
常用方法如下:
方法名 |
说明 |
.extract_text() |
用来提页面中的文本,将页面的所有字符对象整理为的那个字符串 |
.extract_words() |
返回的是所有的单词及其相关信息 |
.extract_tables() |
提取页面的表格 |
.to_image() |
用于可视化调试时,返回PageImage类的一个实例 |
.close() | 2.pdfplumber 모듈 | 다른 여러 Python 라이브러리는 사용자가 PDF에서 정보를 추출하는 데 도움이 됩니다. 광범위한 개요로서 pdfplumber는 다음 기능을 결합하여 다른 PDF 처리 라이브러리와 차별화됩니다.
- 각 PDF 개체에 대한 자세한 정보에 쉽게 액세스
- 추출을 위해 더 높은 수준의 사용자 정의 가능한 접근 방식 텍스트 및 테이블에
- 밀접하게 통합된 시각적 디버깅
- 자르기 상자로 개체 필터링과 같은 기타 유용한 유틸리티 기능
ul>
1 설치
🎜 cmd 콘솔 입력: 🎜
import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
first_page = pdf.pages[0] # pdfplumber.Page对象的第一页
# 查看页码
print('页码:', first_page.page_number)
# 查看页宽
print('页宽:', first_page.width)
# 查看页高
print('页高:', first_page.height)
🎜가이드 패키지: 🎜
页码: 1页宽: 595.3页高: 841.9
🎜사례 PDF 스크린샷(두 페이지가 잘리지 않음):
🎜🎜2. PDF 로드🎜🎜PDF 코드 읽기:
pdfplumber.open(" path/filename.pdf", 비밀번호 = " test", laparams = { "line_overlap": 0.7 })
🎜🎜매개변수 해석:🎜
-
password
: 필수 비밀번호로 보호된 PDF를 로드하려면 비밀번호를 전달하세요. 키워드 인수
-
laparams
: 레이아웃 분석 매개변수를 pdfminer.six의 레이아웃 엔진으로 설정하려면 laparams 키워드 인수를 전달하세요.
🎜사례 코드: 🎜
import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
first_page = pdf.pages[0] # pdfplumber.Page对象的第一页
text = first_page.extract_text()
print(text)
🎜출력 결과: 🎜
店铺名 价格 销量 地址
小罐茶旗舰店 449 474 安徽
零趣食品旗舰店 6.9 60000 福建
天猫超市 1304 3961 上海
天猫超市 139 25000 上海
天猫超市 930 692 上海
天猫超市 980 495 上海
天猫超市 139 100000 上海
三只松鼠旗舰店 288 25000 安徽
红小厨旗舰店 698 1767 北京
三只松鼠旗舰店 690 15000 安徽
一统领鲜旗舰店 1098 1580 上海
新大猩食品专营9.8 7000 湖南.......舰店
蟹纳旗舰店 498 1905 上海
三只松鼠坚果at茶 188 35000 安徽
嘉禹沪晓旗舰店 598 1517 上海
🎜3.pdfplumber.PDF class🎜🎜
pdfplumber.PDF
클래스는 단일 PDF를 나타내며 🎜
속성 |
설명 | 🎜
🎜.metadata code>🎜🎜메타데이터 가져오기 <code>키/값 PDF 정보의 쌍
사전입니다. 일반적으로 "CreationDate", "ModDate", "Producer" 등이 포함됩니다. 🎜🎜
🎜.pages
🎜🎜pdfplumber.Page 인스턴스가 포함된 목록을 반환합니다. 각 인스턴스는 PDF🎜🎜🎜🎜🎜1. 정보(.metadata
): 🎜import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf:
page_one = pdf.pages[0] # PDF第一页
table_1 = page_one.extract_table() # 读取表格数据
# 1. 创建Excel表对象
workbook = xlwt.Workbook(encoding='utf8')
# 2. 新建sheet表
worksheet = workbook.add_sheet('Sheet1')
# 3. 自定义列名
col1 = table_1[0]
# print(col1)# ['店铺名', '价格', '销量', '地址']
# 4. 将列属性元组col写进sheet表单中第一行
for i in range(0, len(col1)):
worksheet.write(0, i, col1[i])
# 5. 将数据写进sheet表单中
for i in range(0, len(table_1[1:])):
data = table_1[1:][i]
for j in range(0, len(col1)):
worksheet.write(i + 1, j, data[j])
# 6. 保存文件分两种格式
workbook.save('test.xls')
🎜실행 결과: 🎜import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf:
# 1. 把所有页的数据存在一个临时列表中
item = []
for page in pdf.pages:
text = page.extract_table()
for i in text:
item.append(i)
# 2. 创建Excel表对象
workbook = xlwt.Workbook(encoding='utf8')
# 3. 新建sheet表
worksheet = workbook.add_sheet('Sheet1')
# 4. 自定义列名
col1 = item[0]
# print(col1)# ['店铺名', '价格', '销量', '地址']
# 5. 将列属性元组col写进sheet表单中第一行
for i in range(0, len(col1)):
worksheet.write(0, i, col1[i])
# 6. 将数据写进sheet表单中
for i in range(0, len(item[1:])):
data = item[1:][i]
for j in range(0, len(col1)):
worksheet.write(i + 1, j, data[j])
# 7. 保存文件分两种格式
workbook.save('test.xls')
🎜2. 총 페이지 수 출력🎜import pdfplumber
import xlwt
import os
# 一、获取文件下所有pdf文件路径
file_dir = r'E:\Python学习\pdf文件'
file_list = []
for files in os.walk(file_dir):
# print(files)
# ('E:\Python学习\pdf文件', [],
# ['1.pdf', '1的副本.pdf', '1的副本10.pdf', '1的副本11.pdf', '1的副本2.pdf', '1的副本3.pdf', '1的副本4.pdf', '1的副本5.pdf', '1的副本6.pdf',
# '1的副本7.pdf', '1的副本8.pdf', '1的副本9.pdf'])
for file in files[2]:
# 以. 进行分割如果后缀为PDF或pdf就拼接地址存入file_list
if file.split(".")[1] == 'pdf' or file.split(".")[1] == 'PDF':
file_list.append(file_dir + '\' + file)
# 二、存入Excel
# 1. 把所有PDF文件的所有页的数据存在一个临时列表中
item = []
for file_path in file_list:
with pdfplumber.open(file_path) as pdf:
for page in pdf.pages:
text = page.extract_table()
for i in text:
item.append(i)
# 2. 创建Excel表对象
workbook = xlwt.Workbook(encoding='utf8')
# 3. 新建sheet表
worksheet = workbook.add_sheet('Sheet1')
# 4. 自定义列名
col1 = item[0]
# print(col1)# ['店铺名', '价格', '销量', '地址']
# 5. 将列属性元组col写进sheet表单中第一行
for i in range(0, len(col1)):
worksheet.write(0, i, col1[i])
# 6. 将数据写进sheet表单中
for i in range(0, len(item[1:])):
data = item[1:][i]
for j in range(0, len(col1)):
worksheet.write(i + 1, j, data[j])
# 7. 保存文件分两种格式
workbook.save('test.xls')
🎜실행 결과: 🎜rrreee🎜4 .pdfplumber.Page 클래스 🎜🎜pdfplumber.Page
클래스는 pdfplumber의 핵심입니다. 대부분의 작업은 이 클래스를 중심으로 진행됩니다. 🎜
속성 |
설명 | 🎜
🎜.page_number
🎜🎜1부터 시작하는 순차적 페이지 번호 1페이지, 2페이지부터 시작하는 식입니다. 🎜🎜
🎜.width
🎜🎜페이지 너비입니다. 🎜🎜
🎜.height
🎜🎜페이지 높이입니다. 🎜🎜
🎜.objects/.chars/.lines/.lects/.curves/.Figures/.images
🎜🎜이러한 각 속성은 목록이며, 각 목록에는 각각에 대한 사전이 포함되어 있습니다. 페이지에 포함된 개체입니다. 자세한 내용은 아래의 "객체"를 참조하세요. 🎜🎜🎜🎜🎜일반적으로 사용되는 메소드는 다음과 같습니다: 🎜
메소드 이름 |
설명 | 🎜
🎜.extract_text()
🎜🎜는 페이지의 텍스트를 추출하고 페이지의 모든 문자 개체를 문자열🎜🎜🎜.extract_words()🎜🎜모든 단어와 관련 정보를 반환합니다🎜🎜
🎜.extract_tables()
🎜🎜페이지의 테이블 추출🎜 🎜
🎜.to_image()
🎜🎜시각적 디버깅에 사용될 때 PageImage 클래스의 인스턴스를 반환합니다.🎜🎜
🎜.close()
🎜🎜By 기본값, 페이지 개체는 재처리를 방지하기 위해 레이아웃과 개체 정보를 캐시합니다. 그러나 이러한 캐시된 속성은 대용량 PDF를 구문 분석할 때 많은 메모리를 요구할 수 있습니다. 이 방법을 사용하여 캐시를 플러시하고 메모리를 확보할 수 있습니다. 🎜🎜🎜🎜1. 读取第一页宽度、高度等信息
import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
first_page = pdf.pages[0] # pdfplumber.Page对象的第一页
# 查看页码
print('页码:', first_page.page_number)
# 查看页宽
print('页宽:', first_page.width)
# 查看页高
print('页高:', first_page.height)
运行结果:
页码: 1页宽: 595.3页高: 841.9
2. 读取文本第一页
import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
first_page = pdf.pages[0] # pdfplumber.Page对象的第一页
text = first_page.extract_text()
print(text)
运行结果:
店铺名 价格 销量 地址
小罐茶旗舰店 449 474 安徽
零趣食品旗舰店 6.9 60000 福建
天猫超市 1304 3961 上海
天猫超市 139 25000 上海
天猫超市 930 692 上海
天猫超市 980 495 上海
天猫超市 139 100000 上海
三只松鼠旗舰店 288 25000 安徽
红小厨旗舰店 698 1767 北京
三只松鼠旗舰店 690 15000 安徽
一统领鲜旗舰店 1098 1580 上海
新大猩食品专营9.8 7000 湖南.......舰店
蟹纳旗舰店 498 1905 上海
三只松鼠坚果at茶 188 35000 安徽
嘉禹沪晓旗舰店 598 1517 上海
3. 读取表格第一页
import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf:
page_one = pdf.pages[0] # PDF第一页
table_1 = page_one.extract_table() # 读取表格数据
# 1. 创建Excel表对象
workbook = xlwt.Workbook(encoding='utf8')
# 2. 新建sheet表
worksheet = workbook.add_sheet('Sheet1')
# 3. 自定义列名
col1 = table_1[0]
# print(col1)# ['店铺名', '价格', '销量', '地址']
# 4. 将列属性元组col写进sheet表单中第一行
for i in range(0, len(col1)):
worksheet.write(0, i, col1[i])
# 5. 将数据写进sheet表单中
for i in range(0, len(table_1[1:])):
data = table_1[1:][i]
for j in range(0, len(col1)):
worksheet.write(i + 1, j, data[j])
# 6. 保存文件分两种格式
workbook.save('test.xls')
运行结果:
三、实战操作
1. 提取单个PDF全部页数
测试代码:
import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf:
# 1. 把所有页的数据存在一个临时列表中
item = []
for page in pdf.pages:
text = page.extract_table()
for i in text:
item.append(i)
# 2. 创建Excel表对象
workbook = xlwt.Workbook(encoding='utf8')
# 3. 新建sheet表
worksheet = workbook.add_sheet('Sheet1')
# 4. 自定义列名
col1 = item[0]
# print(col1)# ['店铺名', '价格', '销量', '地址']
# 5. 将列属性元组col写进sheet表单中第一行
for i in range(0, len(col1)):
worksheet.write(0, i, col1[i])
# 6. 将数据写进sheet表单中
for i in range(0, len(item[1:])):
data = item[1:][i]
for j in range(0, len(col1)):
worksheet.write(i + 1, j, data[j])
# 7. 保存文件分两种格式
workbook.save('test.xls')
运行结果(上面得没截全):
2. 批量提取多个PDF文件
测试代码:
import pdfplumber
import xlwt
import os
# 一、获取文件下所有pdf文件路径
file_dir = r'E:\Python学习\pdf文件'
file_list = []
for files in os.walk(file_dir):
# print(files)
# ('E:\\Python学习\\pdf文件', [],
# ['1.pdf', '1的副本.pdf', '1的副本10.pdf', '1的副本11.pdf', '1的副本2.pdf', '1的副本3.pdf', '1的副本4.pdf', '1的副本5.pdf', '1的副本6.pdf',
# '1的副本7.pdf', '1的副本8.pdf', '1的副本9.pdf'])
for file in files[2]:
# 以. 进行分割如果后缀为PDF或pdf就拼接地址存入file_list
if file.split(".")[1] == 'pdf' or file.split(".")[1] == 'PDF':
file_list.append(file_dir + '\\' + file)
# 二、存入Excel
# 1. 把所有PDF文件的所有页的数据存在一个临时列表中
item = []
for file_path in file_list:
with pdfplumber.open(file_path) as pdf:
for page in pdf.pages:
text = page.extract_table()
for i in text:
item.append(i)
# 2. 创建Excel表对象
workbook = xlwt.Workbook(encoding='utf8')
# 3. 新建sheet表
worksheet = workbook.add_sheet('Sheet1')
# 4. 自定义列名
col1 = item[0]
# print(col1)# ['店铺名', '价格', '销量', '地址']
# 5. 将列属性元组col写进sheet表单中第一行
for i in range(0, len(col1)):
worksheet.write(0, i, col1[i])
# 6. 将数据写进sheet表单中
for i in range(0, len(item[1:])):
data = item[1:][i]
for j in range(0, len(col1)):
worksheet.write(i + 1, j, data[j])
# 7. 保存文件分两种格式
workbook.save('test.xls')
运行结果(12个文件,一个文件50行总共600行):
推荐学习:python视频教程
위 내용은 pdfplumumber가 PDF를 읽고 Excel에 쓰는 방법에 대한 Python 예제 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!