首页  >  文章  >  后端开发  >  如何从存在字体问题和非英文文本的 PDF 中提取结构化表格?

如何从存在字体问题和非英文文本的 PDF 中提取结构化表格?

Linda Hamilton
Linda Hamilton原创
2024-10-30 16:55:03291浏览

How Can I Extract Structured Tables from a PDF with Font Issues and Non-English Text?

从 PDF 文档中提取结构化表格

问题:

尽管尝试了不同的方法,但您无法提取结构化表格PDF 文档中的数据。具体来说,由于字体问题和非英语文本,将 PDF 转换为 HTML 会产生不令人满意的结果。此外,由于未来 PDF 中的表格位置可能会发生变化,基于 XY 坐标进行提取是不切实际的。

专家分析:

与结构化电子表格不同,PDF 缺乏明确的表格数据。相反,它们呈现了人类视为表格的线条和字符字形的组合。提取表格数据需要类似于人类感知的计算识别技术。

在某些情况下,如果 PDF 始终遵循特定格式,则可以识别模式并制定识别表格内容的规则。然而,所提供的 PDF 文档提出了进一步的挑战:

嵌入字体问题:

PDF 包含未使用声明的 WinAnsiEncoding 进行编码的文本。这种差异会导致提取不可预测的字符,从而导致直接文本检索不切实际。

文本提取限制:

从可靠的文本提取工具 Adob​​e Reader 复制和粘贴,也无法产生有意义的结果。这表明在这种情况下,不使用光学字符识别 (OCR) 进行文本提取是不可行的。

因此,目前无法在不借助 OCR 的情况下从 PDF 文档中提取结构化表格。

以上是如何从存在字体问题和非英文文本的 PDF 中提取结构化表格?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn