从 PDF 文档中进行非 OCR 表格提取
PDF 文档通常包含表格,表格是许多应用程序的基本数据结构。然而,从 PDF 中提取表格作为结构化数据仍然是一个挑战,尤其是当 OCR 不可行时。
PDF 渲染的局限性
许多提取表格的尝试开始通过将 PDF 转换为 HTML。然而,由于字体问题和文本识别效果差,这种方法通常会产生不令人满意的结果,尤其是对于非英语文档。或者,对于具有不同表格位置的文档,基于 x 和 y 坐标提取表格是不可行的。
人类表格识别的复杂性
根本困难在于事实上,PDF 没有明确定义表结构。相反,它们呈现人类解释为表格的文本和线条。在代码中复制这种解释是一项艰巨的任务。
不可提取的文本
在提供的具体示例中,出现了另一个问题:文档包含损坏的文本数据,使得直接文本提取变得不可能。从 Adobe Reader 复制和粘贴文本不会产生有意义的结果,从而妨碍了基于文本的提取方法的可行性。
结论
虽然从 PDF 中进行简单的文本提取是由于结构化数据相对简单、可靠的表提取仍然是一个挑战,特别是当 OCR 不可行时。 PDF 渲染的局限性、人工表格识别的复杂性以及潜在的文本损坏问题给自动表格提取带来了重大障碍。因此,通常需要针对特定文档结构和格式定制的解决方案才能有效地从 PDF 中提取表格。
以上是如何在没有 OCR 的情况下从 PDF 中提取表格?的详细内容。更多信息请关注PHP中文网其他相关文章!