使用iTextSharp擷取帶格式文字
簡介:
iTextSharp是一個強大的函式庫,用於操作和產生PDF文檔,但有時難以提取具有所需格式的文字。本文提供了一種使用iTextSharp從PDF中提取文字和格式資訊的方法。
自訂擷取策略:
要提取帶格式的文本,您可以建立一個自訂的ITextExtractionStrategy實作。此策略定義如何處理文字渲染資訊。
程式碼片段:
以下程式碼定義了一個自訂策略,該策略追蹤基線、字體名稱和字體大小的變化,並產生具有適當樣式的HTML:
<code>public class TextWithFontExtractionStategy : iTextSharp.text.pdf.parser.ITextExtractionStrategy { // ... (此处省略) public void RenderText(iTextSharp.text.pdf.parser.TextRenderInfo renderInfo) { // 确定字体属性 string curFont = renderInfo.GetFont().PostscriptFontName; if (renderInfo.GetTextRenderMode() == (int)TextRenderMode.FillThenStrokeText) { curFont += "-Bold"; } // 检查基线、字体或字体大小的变化 Vector curBaseline = renderInfo.GetBaseline().GetStartPoint(); Single curFontSize = renderInfo.GetAscentLine().GetEndPoint()[Vector.I2] - curBaseline[Vector.I2]; if ((this.lastBaseLine == null) || (curBaseline[Vector.I2] != lastBaseLine[Vector.I2]) || (curFontSize != lastFontSize) || (curFont != lastFont)) { // 生成带有更新样式的HTML span result.AppendFormat("</code>
使用方法:
要使用自訂策略,您可以在擷取文字時指定它:
<code>PdfReader reader = new PdfReader("MyDocument.pdf"); TextWithFontExtractionStategy strategy = new TextWithFontExtractionStategy(); string textWithFormatting = PdfTextExtractor.GetTextFromPage(reader, 1, strategy);</code>
輸出:
textWithFormatting變數將包含提取的文本,其中包含反映格式資訊的HTML標籤,包括字體和字體大小。
結論:
此自訂擷取策略可讓您擷取具有所需格式的PDF文字。這是一個強大的工具,可用於準確地再現PDF文件中的文字和樣式。
以上是如何使用 iTextSharp 從 PDF 中提取帶格式的文字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本文解釋了C標準模板庫(STL),重點關注其核心組件:容器,迭代器,算法和函子。 它詳細介紹了這些如何交互以啟用通用編程,提高代碼效率和可讀性t

本文詳細介紹了c中有效的STL算法用法。 它強調了數據結構選擇(向量與列表),算法複雜性分析(例如,std :: sort vs. std vs. std :: partial_sort),迭代器用法和並行執行。 常見的陷阱

本文詳細介紹了C中的有效異常處理,涵蓋了嘗試,捕捉和投擲機制。 它強調了諸如RAII之類的最佳實踐,避免了不必要的捕獲塊,並為強大的代碼登錄例外。 該文章還解決了Perf

本文討論了C中的動態調度,其性能成本和優化策略。它突出了動態調度會影響性能並將其與靜態調度進行比較的場景,強調性能和之間的權衡

C 20範圍通過表現力,合成性和效率增強數據操作。它們簡化了複雜的轉換並集成到現有代碼庫中,以提高性能和可維護性。

本文討論了使用C中的移動語義來通過避免不必要的複制來提高性能。它涵蓋了使用std :: Move的實施移動構造函數和任務運算符,並確定了關鍵方案和陷阱以有效

文章討論了在C中有效使用RVALUE參考,以進行移動語義,完美的轉發和資源管理,重點介紹最佳實踐和性能改進。(159個字符)


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

WebStorm Mac版
好用的JavaScript開發工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能