＃|自动提取 PDF 数据：构建-Python教程-PHP中文网

首页

后端开发

Python教程

＃|自动提取 PDF 数据：构建

Barbara Streisand

Dec 15, 2024 am 11:06 AM

概述

我编写了一个 Python 脚本，将 PDF 数据提取业务逻辑转换为工作代码。

该脚本在71 页 涵盖 10 个月期间（2024 年 1 月至 10 月）的托管人声明 PDF 中进行了测试。处理 PDF 大约需要 4 秒 才能完成 - 比手动处理快得多。

# | Automate PDF data extraction: Build

据我所知，输出看起来正确并且代码没有遇到任何错误。

三个 CSV 输出的快照如下所示。请注意，敏感数据已显示为灰色。

快照1：持股

# | Automate PDF data extraction: Build

快照2：基金持仓

# | Automate PDF data extraction: Build

快照3：现金持有

# | Automate PDF data extraction: Build

此工作流程显示了我生成 CSV 文件所采取的主要步骤。

# | Automate PDF data extraction: Build

现在，我将更详细地阐述我如何将业务逻辑转换为 Python 代码。

第1步：阅读PDF文档

我使用了 pdfplumber 的 open() 函数。

# Open the PDF file
with pdfplumber.open(file_path) as pdf:

file_path 是一个声明的变量，它告诉 pdfplumber 打开哪个文件。

步骤2.0：从每个页面中提取和过滤表格

extract_tables() 函数完成从每个页面提取所有表格的艰苦工作。

虽然我不太熟悉底层逻辑，但我认为这个功能做得相当不错。例如，下面的两个快照显示了提取的表格与原始表格（来自 PDF）

快照 A：VS Code 终端的输出

# | Automate PDF data extraction: Build

快照 B：PDF 中的表格

# | Automate PDF data extraction: Build

然后我需要对每个表进行唯一标记，以便稍后我可以从特定表中“挑选”数据。

理想的选择是使用每个表的标题。然而，确定标题坐标超出了我的能力。

作为解决方法，我通过连接前三列的标题来标识每个表。例如，快照 B 中的 Stock Holdings 表标记为 Stocks/ETFsnNameExchangeQuantity。

⚠️这种方法有一个严重的缺点 - 前三个标头名称不能使所有表都足够唯一。幸运的是，这只会影响不相关的表。

步骤2.1：提取、过滤和转换非表格文本

我需要的具体值 - 帐号和对账单日期 - 是每个 PDF 第 1 页中的子字符串。

例如“帐号M1234567”包含帐号“M1234567”。

# | Automate PDF data extraction: Build

我使用了 Python 的 re 库并让 ChatGPT 推荐了合适的正则表达式（“regex”）。正则表达式将每个字符串分为两组，所需数据位于第二组中。

账单日期和帐号字符串的正则表达式

# Open the PDF file
with pdfplumber.open(file_path) as pdf:

接下来我将报表日期转换为“yyyymmdd”格式。这使得查询和排序数据变得更加容易。

regex_date=r'Statement for \b([A-Za-z]{3}-\d{4})\b'
regex_acc_no=r'Account Number ([A-Za-z]\d{7})'

match_date 是在找到与正则表达式匹配的字符串时声明的变量。

步骤 3：创建表格数据

硬码 - 提取相关数据点 - 此时已经基本完成。

接下来，我使用 pandas 的 DataFrame() 函数根据 第 2 步 和 第 3 步 中的输出创建表格数据。我还使用此功能删除不必要的列和行。

最终结果可以轻松写入 CSV 或存储在数据库中。

步骤 4：将数据写入 CSV 文件

我使用 Python 的 write_to_csv() 函数将每个数据帧写入 CSV 文件。

 if match_date:
    # Convert string to a mmm-yyyy date
    date_obj=datetime.strptime(match_date.group(1),"%b-%Y")
    # Get last day of the month
    last_day=calendar.monthrange(date_obj.year,date_obj.month[1]
    # Replace day with last day of month
    last_day_of_month=date_obj.replace(day=last_day)
    statement_date=last_day_of_month.strftime("%Y%m%d")

df_cash_selected 是 Cash Holdings 数据框，而 file_cash_holdings 是 Cash Holdings CSV 的文件名。

➡️一旦掌握了一些数据库知识，我就会将数据写入合适的数据库。

下一步

工作脚本现已到位，可从托管人声明 PDF 中提取表格和文本数据。

在继续之前，我将运行一些测试来查看脚本是否按预期工作。

--结束

以上是＃|自动提取 PDF 数据：构建的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

Python中的合并列表：选择正确的方法May 14, 2025 am 12:11 AM

Tomergelistsinpython，YouCanusethe操作员，estextMethod，ListComprehension，Oritertools

如何在Python 3中加入两个列表？May 14, 2025 am 12:09 AM

在Python3中，可以通过多种方法连接两个列表：1)使用运算符，适用于小列表，但对大列表效率低；2)使用extend方法，适用于大列表，内存效率高，但会修改原列表；3)使用*运算符，适用于合并多个列表，不修改原列表；4)使用itertools.chain，适用于大数据集，内存效率高。

Python串联列表字符串May 14, 2025 am 12:08 AM

使用join()方法是Python中从列表连接字符串最有效的方法。1)使用join()方法高效且易读。2)循环使用运算符对大列表效率低。3)列表推导式与join()结合适用于需要转换的场景。4)reduce()方法适用于其他类型归约，但对字符串连接效率低。完整句子结束。

Python执行，那是什么？May 14, 2025 am 12:06 AM

pythonexecutionistheprocessoftransformingpypythoncodeintoExecutablestructions.1）InternterPreterReadSthecode，ConvertingTingitIntObyTecode，whepythonvirtualmachine（pvm）theglobalinterpreterpreterpreterpreterlock（gil）the thepythonvirtualmachine（pvm）

Python：关键功能是什么May 14, 2025 am 12:02 AM

Python的关键特性包括：1.语法简洁易懂，适合初学者；2.动态类型系统，提高开发速度；3.丰富的标准库，支持多种任务；4.强大的社区和生态系统，提供广泛支持；5.解释性，适合脚本和快速原型开发；6.多范式支持，适用于各种编程风格。

Python：编译器还是解释器？May 13, 2025 am 12:10 AM

Python是解释型语言，但也包含编译过程。1）Python代码先编译成字节码。2）字节码由Python虚拟机解释执行。3）这种混合机制使Python既灵活又高效，但执行速度不如完全编译型语言。

python用于循环与循环时：何时使用哪个？May 13, 2025 am 12:07 AM

useeAforloopWheniteratingOveraseQuenceOrforAspecificnumberoftimes; useAwhiLeLoopWhenconTinuingUntilAcIntiment.ForloopSareIdeAlforkNownsences，而WhileLeleLeleLeleLoopSituationSituationSituationsItuationSuationSituationswithUndEtermentersitations。