在不使用OCR 的情況下從PDF 文件中提取表格並同時保留其結構可能具有挑戰性。此任務需要在程式碼中模擬人類表格識別功能。
在提供的範例中,還有一個需要克服的額外障礙:PDF 不包含直接文字擷取資料。嘗試在 Adobe Reader 中複製並貼上文字會產生半隨機字符,這表示文件中使用的字體編碼不正確。
這表示如果不使用 OCR,就不可能進行可靠的文字擷取。要確定是否可以提取文本,建議嘗試從 Adobe Reader 進行複製和貼上,因為它的文本提取方法非常強大。如果無法提取有意義的文本,找到合適的文本提取解決方案將更具挑戰性。
對於未來由相同軟體產生的 PDF,仍可根據文件的內部開發自訂解決方案結構。然而,對於具有不同表格位置的 PDF,這種方法可能不實用。
以上是您可以在不使用 OCR 的情況下從 PDF 中提取結構化表格資料嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!