首頁  >  文章  >  後端開發  >  如何從存在字體問題和非英文文字的 PDF 中提取結構化表格?

如何從存在字體問題和非英文文字的 PDF 中提取結構化表格?

Linda Hamilton
Linda Hamilton原創
2024-10-30 16:55:03291瀏覽

How Can I Extract Structured Tables from a PDF with Font Issues and Non-English Text?

從PDF 文件中提取結構化表格

問題:

儘管嘗試了不同的方法,但您無法擷取結構化表格PDF 文件中的資料。具體來說,由於字體問題和非英語文本,將 PDF 轉換為 HTML 會產生不令人滿意的結果。此外,由於未來 PDF 中的表格位置可能會發生變化,基於 XY 座標進行擷取是不切實際的。

專家分析:

與結構化電子表格不同,PDF 缺乏明確的表格資料。相反,它們呈現了人類視為表格的線條和字元字形的組合。提取表格資料需要類似於人類感知的計算識別技術。

在某些情況下,如果 PDF 始終遵循特定格式,則可以識別模式並製定識別表格內容的規則。然而,所提供的 PDF 文件提出了進一步的挑戰:

嵌入字體問題:

PDF 包含未使用聲明的 WinAnsiEncoding 進行編碼的文字。這種差異會導致提取不可預測的字符,從而導致直接文字檢索不切實際。

文字擷取限制:

從可靠的文字擷取工具 Adob​​e Reader 複製和貼上,也無法產生有意義的結果。這表明在這種情況下,不使用光學字元辨識 (OCR) 進行文字擷取是不可行的。

因此,目前無法在不借助 OCR 的情況下從 PDF 文件中提取結構化表格。

以上是如何從存在字體問題和非英文文字的 PDF 中提取結構化表格?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn