问题:
尽管尝试了不同的方法,但您无法提取结构化表格PDF 文档中的数据。具体来说,由于字体问题和非英语文本,将 PDF 转换为 HTML 会产生不令人满意的结果。此外,由于未来 PDF 中的表格位置可能会发生变化,基于 XY 坐标进行提取是不切实际的。
专家分析:
与结构化电子表格不同,PDF 缺乏明确的表格数据。相反,它们呈现了人类视为表格的线条和字符字形的组合。提取表格数据需要类似于人类感知的计算识别技术。
在某些情况下,如果 PDF 始终遵循特定格式,则可以识别模式并制定识别表格内容的规则。然而,所提供的 PDF 文档提出了进一步的挑战:
嵌入字体问题:
PDF 包含未使用声明的 WinAnsiEncoding 进行编码的文本。这种差异会导致提取不可预测的字符,从而导致直接文本检索不切实际。
文本提取限制:
从可靠的文本提取工具 Adobe Reader 复制和粘贴,也无法产生有意义的结果。这表明在这种情况下,不使用光学字符识别 (OCR) 进行文本提取是不可行的。
因此,目前无法在不借助 OCR 的情况下从 PDF 文档中提取结构化表格。
以上是如何从存在字体问题和非英文文本的 PDF 中提取结构化表格?的详细内容。更多信息请关注PHP中文网其他相关文章!