問題:
儘管嘗試了不同的方法,但您無法擷取結構化表格PDF 文件中的資料。具體來說,由於字體問題和非英語文本,將 PDF 轉換為 HTML 會產生不令人滿意的結果。此外,由於未來 PDF 中的表格位置可能會發生變化,基於 XY 座標進行擷取是不切實際的。
專家分析:
與結構化電子表格不同,PDF 缺乏明確的表格資料。相反,它們呈現了人類視為表格的線條和字元字形的組合。提取表格資料需要類似於人類感知的計算識別技術。
在某些情況下,如果 PDF 始終遵循特定格式,則可以識別模式並製定識別表格內容的規則。然而,所提供的 PDF 文件提出了進一步的挑戰:
嵌入字體問題:
PDF 包含未使用聲明的 WinAnsiEncoding 進行編碼的文字。這種差異會導致提取不可預測的字符,從而導致直接文字檢索不切實際。
文字擷取限制:
從可靠的文字擷取工具 Adobe Reader 複製和貼上,也無法產生有意義的結果。這表明在這種情況下,不使用光學字元辨識 (OCR) 進行文字擷取是不可行的。
因此,目前無法在不借助 OCR 的情況下從 PDF 文件中提取結構化表格。
以上是如何從存在字體問題和非英文文字的 PDF 中提取結構化表格?的詳細內容。更多資訊請關注PHP中文網其他相關文章!