如何利用Itextsharp 的PdfReader 類別在VB.NET 或C# 中閱讀PDF 內容
在這個程式設計難題中,我們的目標是擷取使用iTextSharp 函式庫及其多功能PdfReader 類別來讀取PDF 文件的內容。無論 PDF 包含純文字還是文字圖像,此類都使我們能夠有效地存取其內容。
首先,我們建立一個 StringBuilder 物件來累積擷取的文字。假設 PDF 文件存在並且可以透過指定的文件路徑訪問,我們實例化一個 PdfReader 物件來與文件互動。
接下來,我們開始一個循環,遍歷 PDF 文件的每個頁面。對於每個頁面,我們使用 ITextExtractionStrategy(特別是 SimpleTextExtractionStrategy)來分析頁面內容。此策略從目前頁面提取文字並將其儲存在臨時變數中。
為了確保正確的字元編碼,我們將擷取的文字從擷取期間使用的編碼轉換為 UTF-8。此步驟保證所有字元的準確表示,無論其原始編碼為何。最後,我們將提取的文字附加到 StringBuilder。
完成循環後,我們關閉 PdfReader 以釋放任何獲取的資源。累積文字現在儲存在 StringBuilder 中,可以根據需要存取和使用。
以上是如何在 VB.NET 或 C# 中使用 iTextSharp 的 PdfReader 從 PDF 擷取文字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!