search
HomeBackend DevelopmentPython TutorialDetailed operations of PDF in Python office automation

Python 办公自动化之 PDF 的详细操作

Today’s specific content will be expanded from the following sections:

  • Related introduction
  • Batch split
  • Batch Merge
  • Extract text content
  • Lift table content
  • Lift image content
  • Convert to PDF image
  • Add watermark
  • Encryption and decoding

The above operations are relatively common and can also solve many office contents. Let’s start this section directly:

Python uses two libraries to operate PDF, namely: PyPDF2 and pdfplumber.

PyPDF2 can better read, write, split, and merge PDF files, while pdfplumber can better read the content of PDF files and extract tables in PDFs. The corresponding official websites of

are:

  • PyPDF2: https://pythonhosted.org/PyPDF2/
  • pdfplumber: https://github.com/jsvine /pdfplumber

Since these two libraries are not Python’s standard libraries, they need to be installed separately before use.

win r and then enter cmd to open the command window, enter the following commands in order to install:

  • pip install PyPDF2
  • pip install pdfplumber

After the installation is completed, if success is displayed, it means the installation is successful.

Python 办公自动化之 PDF 的详细操作

2. Batch split

Split a complete PDF into several small PDFs, because it mainly involves the overall operation of the PDF, so This section requires the use of the PyPDF2 library.

The general idea of ​​splitting is as follows:

  • Read the overall information of the PDF, the total number of pages, etc.
  • Traverse the content of each page, taking each step as Save PDF into each small file block at intervals
  • Resave small file blocks as new PDF files

It should be noted that during the splitting process, Intervals can be set manually, for example: every 5 pages are saved as a small PDF file.

The split code is as follows:

import os
from PyPDF2 import PdfFileWriter, PdfFileReader
def split_pdf(filename, filepath, save_dirpath, step=5):
 """
 拆分PDF为多个小的PDF文件,
 @param filename:文件名
 @param filepath:文件路径
 @param save_dirpath:保存小的PDF的文件路径
 @param step: 每step间隔的页面生成一个文件,例如step=5,表示0-4页、5-9页...为一个文件
 @return:
 """
 if not os.path.exists(save_dirpath):
 os.mkdir(save_dirpath)
 pdf_reader = PdfFileReader(filepath)
 # 读取每一页的数据
 pages = pdf_reader.getNumPages()
 for page in range(0, pages, step):
 pdf_writer = PdfFileWriter()
 # 拆分pdf,每 step 页的拆分为一个文件
 for index in range(page, page+step):
 if index < pages:
 pdf_writer.addPage(pdf_reader.getPage(index))
 # 保存拆分后的小文件
 save_path = os.path.join(save_dirpath, filename+str(int(page/step)+1)+'.pdf')
 print(save_path)
 with open(save_path, "wb") as out:
 pdf_writer.write(out)
 print("文件已成功拆分,保存路径为:"+save_dirpath)
split_pdf(filename, filepath, save_dirpath, step=5)

Take "E Fund's 2020 Interim Report of Small and Medium Cap Hybrid Securities Investment Fund" as an example. The entire PDF file has a total of 46 pages, with intervals of 5 pages. Finally, 10 small PDF files were generated.

Python 办公自动化之 PDF 的详细操作

3. Batch merge

Compared with splitting, the idea of ​​merging is simpler:

  • Determine what you want to merge File sequence
  • Append to a file block in a loop
  • Save as a new file

The corresponding code is relatively simple:

import os
from PyPDF2 import PdfFileReader, PdfFileWriter
def concat_pdf(filename, read_dirpath, save_filepath):
 """
 合并多个PDF文件
 @param filename:文件名
 @param read_dirpath:要合并的PDF目录
 @param save_filepath:合并后的PDF文件路径
 @return:
 """
 pdf_writer = PdfFileWriter()
 # 对文件名进行排序
 list_filename = os.listdir(read_dirpath)
 list_filename.sort(key=lambda x: int(x[:-4].replace(filename, "")))
 for filename in list_filename:
 print(filename)
 filepath = os.path.join(read_dirpath, filename)
 # 读取文件并获取文件的页数
 pdf_reader = PdfFileReader(filepath)
 pages = pdf_reader.getNumPages()
 # 逐页添加
 for page in range(pages):
 pdf_writer.addPage(pdf_reader.getPage(page))
 # 保存合并后的文件
 with open(save_filepath, "wb") as out:
 pdf_writer.write(out)
 print("文件已成功合并,保存路径为:"+save_filepath)
concat_pdf(filename, read_dirpath, save_filepath)

4 . Extracting text content

involves specific PDF content operations. This section requires the use of the pdfplumber library.

When extracting text, the extract_text function is mainly used.

The specific code is as follows:

import os
import pdfplumber
def extract_text_info(filepath):
 """
 提取PDF中的文字
 @param filepath:文件路径
 @return:
 """
 with pdfplumber.open(filepath) as pdf:
 # 获取第2页数据
 page = pdf.pages[1]
 print(page.extract_text())
# 提取文字内容
extract_text_info(filepath)

As you can see, you can locate the corresponding page number directly through the subscript, and then extract all the text of the page through the extract_text function.

And if you want to extract the text of all pages, you only need to change it to:

with pdfplumber.open(filepath) as pdf:
# 获取全部数据
for page in pdf.pages
print(page.extract_text())

For example, extract the content of the first page of "E Fund Small and Medium Cap Hybrid Securities Investment Fund 2020 Interim Report" When running the code, the source file looks like this:

Python 办公自动化之 PDF 的详细操作

After running the code, it looks like this:

Python 办公自动化之 PDF 的详细操作

5. Extraction Table content

Similarly, this section is about the operation of specific content, so you also need to use the pdfplumber library.

Very similar to extracting text, extracting table content only replaces the extract_text function with the extract_table function.

The corresponding code is as follows:

import os
import pandas as pd
import pdfplumber
def extract_table_info(filepath):
 """
 提取PDF中的图表数据
 @param filepath:
 @return:
 """
 with pdfplumber.open(filepath) as pdf:
 # 获取第18页数据
 page = pdf.pages[17]
 # 如果一页有一个表格,设置表格的第一行为表头,其余为数据
 table_info = page.extract_table()
 df_table = pd.DataFrame(table_info[1:], columns=table_info[0])
 df_table.to_csv('dmeo.csv', index=False, encoding='gbk')
# 提取表格内容
extract_table_info(filepath)

The above code can get the first table content on page 18 and save it as a csv file locally.

  • But what if there are multiple table contents on page 18?

Because the read table will be stored as a two-dimensional array, and multiple two-dimensional arrays form a three-dimensional array.

Traverse this three-digit array to get each table data on the page. Correspondingly, change the extract_table function to extract_tables.

The specific code is as follows:

# 如果一页有多个表格,对应的数据是一个三维数组
tables_info = page.extract_tables()
for index in range(len(tables_info)):
 # 设置表格的第一行为表头,其余为数据
 df_table = pd.DataFrame(tables_info[index][1:], columns=tables_info[index][0])
 print(df_table)
 # df_table.to_csv('dmeo.csv', index=False, encoding='gbk')

Take the first table on page xx of "E Fund Small and Medium Cap Hybrid Securities Investment Fund 2020 Interim Report" as an example:

Source The table in the file looks like this:

Python 办公自动化之 PDF 的详细操作

The table after extracting and saving it into excel looks like this:

Python 办公自动化之 PDF 的详细操作

6. 提取图片内容

提取 PDF 中的图片和将 PDF 转存为图片是不一样的(下一小节),需要区分开。

提取图片:顾名思义,就是将内容中的图片都提取出来;

转存为图片:则是将每一页的 PDF 内容存成一页一页的图片,下一小节会详细说明

转存为图片中,需要用到一个模块叫 fitz,fitz 的最新版 1.18.13,非最新版的在部分函数名称上存在差异,代码中会标记出来

使用 fitz 需要先安装 PyMuPDF 模块,安装方式如下:

  • pip install PyMuPDF

提取图片的整体逻辑如下:

  • 使用 fitz 打开文档,获取文档详细数据
  • 遍历每一个元素,通过正则找到图片的索引位置
  • 使用 Pixmap 将索引对应的元素生成图片
  • 通过 size 函数过滤较小的图片

实现的具体代码如下:

import os
import re
import fitz
def extract_pic_info(filepath, pic_dirpath):
 """
 提取PDF中的图片
 @param filepath:pdf文件路径
 @param pic_dirpath:要保存的图片目录路径
 @return:
 """
 if not os.path.exists(pic_dirpath):
 os.makedirs(pic_dirpath)
 # 使用正则表达式来查找图片
 check_XObject = r"/Type(?= */XObject)"
 check_Image = r"/Subtype(?= */Image)"
 img_count = 0
 """1. 打开pdf,打印相关信息"""
 pdf_info = fitz.open(filepath)
 # 1.16.8版本用法 xref_len = doc._getXrefLength()
 # 最新版本
 xref_len = pdf_info.xref_length()
 # 打印PDF的信息
 print("文件名:{}, 页数: {}, 对象: {}".format(filepath, len(pdf_info), xref_len-1))
 """2. 遍历PDF中的对象,遇到是图像才进行下一步,不然就continue"""
 for index in range(1, xref_len):
 # 1.16.8版本用法 text = doc._getXrefString(index)
 # 最新版本
 text = pdf_info.xref_object(index)
 is_XObject = re.search(check_XObject, text)
 is_Image = re.search(check_Image, text)
 # 如果不是对象也不是图片,则不操作
 if is_XObject or is_Image:
 img_count += 1
 # 根据索引生成图像
 pix = fitz.Pixmap(pdf_info, index)
 pic_filepath = os.path.join(pic_dirpath, 'img_' + str(img_count) + '.png')
 """pix.size 可以反映像素多少,简单的色素块该值较低,可以通过设置一个阈值过滤。以阈值 10000 为例过滤"""
 # if pix.size < 10000:
 # continue
 """三、 将图像存为png格式"""
 if pix.n >= 5:
 # 先转换CMYK
 pix = fitz.Pixmap(fitz.csRGB, pix)
 # 存为PNG
 pix.writePNG(pic_filepath)
# 提取图片内容
extract_pic_info(filepath, pic_dirpath)

以本节示例的“易方达中小盘混合型证券投资基金2020年中期报告” 中的图片为例,代码运行后提取的图片如下:

Python 办公自动化之 PDF 的详细操作

这个结果和文档中的共 1 张图片的结果符合。

7. 转换为图片

转换为照片比较简单,就是将一页页的 PDF 转换为一张张的图片。大致过程如下:

安装 pdf2image

首先需要安装对应的库,最新的 pdf2image 库版本应该是 1.14.0。

它的 github地址 为:https://github.com/Belval/pdf2image ,感兴趣的可以自行了解。

安装方式如下:

  • pip install pdf2image

安装组件

对于不同的平台,需要安装相应的组件,这里以 windows 平台和 mac 平台为例:

Windows 平台

对于 windows 用户需要安装 poppler for Windows,安装链接是:http://blog.alivate.com.au/poppler-windows/

另外,还需要添加环境变量, 将 bin 文件夹的路径添加到环境变量 PATH 中。

  • 注意这里配置之后需要重启一下电脑才会生效,不然会报错

Mac

对于 mac 用户,需要安装 poppler for Mac,具体可以参考这个链接:http://macappstore.org/poppler/

详细代码如下:

import os
from pdf2image import convert_from_path, convert_from_bytes
def convert_to_pic(filepath, pic_dirpath):
 """
 每一页的PDF转换成图片
 @param filepath:pdf文件路径
 @param pic_dirpath:图片目录路径
 @return:
 """
 print(filepath)
 if not os.path.exists(pic_dirpath):
 os.makedirs(pic_dirpath)
 images = convert_from_bytes(open(filepath, 'rb').read())
 # images = convert_from_path(filepath, dpi=200)
 for image in images:
 # 保存图片
 pic_filepath = os.path.join(pic_dirpath, 'img_'+str(images.index(image))+'.png')
 image.save(pic_filepath, 'PNG')
# PDF转换为图片
convert_to_pic(filepath, pic_dirpath)

以本节示例的“易方达中小盘混合型证券投资基金2020年中期报告” 中的图片为例,该文档共 46 页,保存后的 PDF 照片如下:

Python 办公自动化之 PDF 的详细操作

一共 46 张图片

8. 添加水印

添加水印后的效果如下:

Python 办公自动化之 PDF 的详细操作

在制作水印的时候,可以自定义水印内容、透明度、斜度、字间宽度等等,可操作性比较好。

前面专门写过一篇文章,讲的特别详细:Python快速给PDF文件添加自定义水印。

9. 文档加密与解密

你可能在打开部分 PDF 文件的时候,会弹出下面这个界面:

Python 办公自动化之 PDF 的详细操作

这种就是 PDF 文件被加密了,在打开的时候需要相应的密码才行。

本节所提到的也只是基于 PDF 文档的加密解密,而不是所谓的 PDF 密码破解。

在对 PDF 文件加密需要使用 encrypt 函数,对应的加密代码也比较简单:

import os
from PyPDF2 import PdfFileReader, PdfFileWriter
def encrypt_pdf(filepath, save_filepath, passwd='xiaoyi'):
 """
 PDF文档加密
 @param filepath:PDF文件路径
 @param save_filepath:加密后的文件保存路径
 @param passwd:密码
 @return:
 """
 pdf_reader = PdfFileReader(filepath)
 pdf_writer = PdfFileWriter()
 for page_index in range(pdf_reader.getNumPages()):
 pdf_writer.addPage(pdf_reader.getPage(page_index))
 # 添加密码
 pdf_writer.encrypt(passwd)
 with open(save_filepath, "wb") as out:
 pdf_writer.write(out)
# 文档加密
encrypt_pdf(filepath, save_filepath, passwd='xiaoyi')

代码执行成功后再次打开 PDF 文件则需要输入密码才行。

根据这个思路,破解 PDF 也可以通过暴力求解实现,例如:通过本地密码本一个个去尝试,或者根据数字+字母的密码形式循环尝试,最终成功打开的密码就是破解密码。

  • 上述破解方法耗时耗力,不建议尝试

另外,针对已经加密的 PDF 文件,也可以使用 decrypt 函数进行解密操作。

解密代码如下:

def decrypt_pdf(filepath, save_filepath, passwd='xiaoyi'):
 """
 解密 PDF 文档并且保存为未加密的 PDF
 @param filepath:PDF文件路径
 @param save_filepath:解密后的文件保存路径
 @param passwd:密码
 @return:
 """
 pdf_reader = PdfFileReader(filepath)
 # PDF文档解密
 pdf_reader.decrypt('xiaoyi')
 pdf_writer = PdfFileWriter()
 for page_index in range(pdf_reader.getNumPages()):
 pdf_writer.addPage(pdf_reader.getPage(page_index))
 with open(save_filepath, "wb") as out:
 pdf_writer.write(out)
# 文档解密
decrypt_pdf(filepath, save_filepath, passwd='xiaoyi')

解密完成后的 PDF 文档打开后不再需要输入密码,如需加密可再次执行加密代码。

以上就是 Python 操作 PDF 的全部内容,文中贴出的代码都已经测试过,可正常运行。

The above is the detailed content of Detailed operations of PDF in Python office automation. For more information, please follow other related articles on the PHP Chinese website!

Statement
This article is reproduced at:51CTO.COM. If there is any infringement, please contact admin@php.cn delete
Python 文本终端 GUI 框架,太酷了Python 文本终端 GUI 框架,太酷了Apr 12, 2023 pm 12:52 PM

Curses首先出场的是 Curses[1]。CurseCurses 是一个能提供基于文本终端窗口功能的动态库,它可以: 使用整个屏幕 创建和管理一个窗口 使用 8 种不同的彩色 为程序提供鼠标支持 使用键盘上的功能键Curses 可以在任何遵循 ANSI/POSIX 标准的 Unix/Linux 系统上运行。Windows 上也可以运行,不过需要额外安装 windows-curses 库:pip install windows-curses 上面图片,就是一哥们用 Curses 写的 俄罗斯

五个方便好用的Python自动化脚本五个方便好用的Python自动化脚本Apr 11, 2023 pm 07:31 PM

相比大家都听过自动化生产线、自动化办公等词汇,在没有人工干预的情况下,机器可以自己完成各项任务,这大大提升了工作效率。编程世界里有各种各样的自动化脚本,来完成不同的任务。尤其Python非常适合编写自动化脚本,因为它语法简洁易懂,而且有丰富的第三方工具库。这次我们使用Python来实现几个自动化场景,或许可以用到你的工作中。1、自动化阅读网页新闻这个脚本能够实现从网页中抓取文本,然后自动化语音朗读,当你想听新闻的时候,这是个不错的选择。代码分为两大部分,第一通过爬虫抓取网页文本呢,第二通过阅读工

用Python写了个小工具,再复杂的文件夹,分分钟帮你整理!用Python写了个小工具,再复杂的文件夹,分分钟帮你整理!Apr 11, 2023 pm 08:19 PM

糟透了我承认我不是一个爱整理桌面的人,因为我觉得乱糟糟的桌面,反而容易找到文件。哈哈,可是最近桌面实在是太乱了,自己都看不下去了,几乎占满了整个屏幕。虽然一键整理桌面的软件很多,但是对于其他路径下的文件,我同样需要整理,于是我想到使用Python,完成这个需求。效果展示我一共为将文件分为9个大类,分别是图片、视频、音频、文档、压缩文件、常用格式、程序脚本、可执行程序和字体文件。# 不同文件组成的嵌套字典 file_dict = { '图片': ['jpg','png','gif','webp

用 WebAssembly 在浏览器中运行 Python用 WebAssembly 在浏览器中运行 PythonApr 11, 2023 pm 09:43 PM

长期以来,Python 社区一直在讨论如何使 Python 成为网页浏览器中流行的编程语言。然而网络浏览器实际上只支持一种编程语言:JavaScript。随着网络技术的发展,我们已经把越来越多的程序应用在网络上,如游戏、数据科学可视化以及音频和视频编辑软件。这意味着我们已经把繁重的计算带到了网络上——这并不是JavaScript的设计初衷。所有这些挑战提出了对新编程语言的需求,这种语言可以提供快速、可移植、紧凑和安全的代码执行。因此,主要的浏览器供应商致力于实现这个想法,并在2017年向世界推出

一文读懂层次聚类(Python代码)一文读懂层次聚类(Python代码)Apr 11, 2023 pm 09:13 PM

首先要说,聚类属于机器学习的无监督学习,而且也分很多种方法,比如大家熟知的有K-means。层次聚类也是聚类中的一种,也很常用。下面我先简单回顾一下K-means的基本原理,然后慢慢引出层次聚类的定义和分层步骤,这样更有助于大家理解。层次聚类和K-means有什么不同?K-means 工作原理可以简要概述为: 决定簇数(k) 从数据中随机选取 k 个点作为质心 将所有点分配到最近的聚类质心 计算新形成的簇的质心 重复步骤 3 和 4这是一个迭代过程,直到新形成的簇的质心不变,或者达到最大迭代次数

从头开始构建,DeepMind新论文用伪代码详解Transformer从头开始构建,DeepMind新论文用伪代码详解TransformerApr 09, 2023 pm 08:31 PM

2017 年 Transformer 横空出世,由谷歌在论文《Attention is all you need》中引入。这篇论文抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。这一开创性的研究颠覆了以往序列建模和 RNN 划等号的思路,如今被广泛用于 NLP。大热的 GPT、BERT 等都是基于 Transformer 构建的。Transformer 自推出以来,研究者已经提出了许多变体。但大家对 Transformer 的描述似乎都是以口头形式、图形解释等方式介绍该架构。关于 Tra

提高Python代码可读性的五个基本技巧提高Python代码可读性的五个基本技巧Apr 11, 2023 pm 09:07 PM

译者 | 赵青窕审校 | 孙淑娟你是否经常回头看看6个月前写的代码,想知道这段代码底是怎么回事?或者从别人手上接手项目,并且不知道从哪里开始?这样的情况对开发者来说是比较常见的。Python中有许多方法可以帮助我们理解代码的内部工作方式,因此当您从头来看代码或者写代码时,应该会更容易地从停止的地方继续下去。在此我给大家举个例子,我们可能会得到如下图所示的代码。这还不是最糟糕的,但有一些事情需要我们去确认,例如:在load_las_file函数中f和d代表什么?为什么我们要在clay函数中检查结果

用 Python 实现导弹自动追踪,超燃!用 Python 实现导弹自动追踪,超燃!Apr 12, 2023 am 08:04 AM

大家好,我是J哥。这个没有点数学基础是很难算出来的。但是我们有了计算机就不一样了,依靠计算机极快速的运算速度,我们利用微分的思想,加上一点简单的三角学知识,就可以实现它。好,话不多说,我们来看看它的算法原理,看图:由于待会要用pygame演示,它的坐标系是y轴向下,所以这里我们也用y向下的坐标系。算法总的思想就是根据上图,把时间t分割成足够小的片段(比如1/1000,这个时间片越小越精确),每一个片段分别构造如上三角形,计算出导弹下一个时间片走的方向(即∠a)和走的路程(即vt=|AC|),这时

See all articles

Hot AI Tools

Undresser.AI Undress

Undresser.AI Undress

AI-powered app for creating realistic nude photos

AI Clothes Remover

AI Clothes Remover

Online AI tool for removing clothes from photos.

Undress AI Tool

Undress AI Tool

Undress images for free

Clothoff.io

Clothoff.io

AI clothes remover

AI Hentai Generator

AI Hentai Generator

Generate AI Hentai for free.

Hot Article

R.E.P.O. Energy Crystals Explained and What They Do (Yellow Crystal)
2 weeks agoBy尊渡假赌尊渡假赌尊渡假赌
Repo: How To Revive Teammates
1 months agoBy尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: How To Get Giant Seeds
4 weeks agoBy尊渡假赌尊渡假赌尊渡假赌

Hot Tools

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser is a secure browser environment for taking online exams securely. This software turns any computer into a secure workstation. It controls access to any utility and prevents students from using unauthorized resources.

PhpStorm Mac version

PhpStorm Mac version

The latest (2018.2.1) professional PHP integrated development tool

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Powerful PHP integrated development environment

SublimeText3 Linux new version

SublimeText3 Linux new version

SublimeText3 Linux latest version

Notepad++7.3.1

Notepad++7.3.1

Easy-to-use and free code editor