C# 實作將 PDF 轉文本的功能

伊谢尔伦原創: 2016-11-24 13:17:391380瀏覽

　更新

　　2014年2月27日：這篇文章最初只描述使用 PDFBox 解析PDF文件。現在它已經擴展到包括使用 IFilter 和 iTextSharp 的例程了。

　　這篇文章和對應的Visual Studio專案已經更新到目前最新的 PDFBox 版本（1.8.4）。可以從 http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ 下載包含所有依賴內容的完整專案（要消除依賴關係有點棘手）。

　如何解析 PDF 文件

　　在.NET中從PDF文件中提取文本的幾種主要方法有:

Microsoft 的 IFilter 接口和 Adobe 的 IFilter 實作；

Microsoft 的 IFilter 介面和 Adobe 的 IFilter 實作；

iSharp；

　　不幸的是這些 PDF 解析方案都不完美。我們將在下面討論這些方法。

　Adobe PDF IFilter

　　為了使用IFilter 介面來解析 PDF 文件，你需要：

Windows 2000 或後續版本

Adobe Acrobat 或Reader 7.0.5+ (S7.0.5+).

IFilter COM 封裝類別 [dotlucene.net]

　　範例程式碼：

using IFilter;
 
// ...
 
public static string ExtractTextFromPdf(string path) {
  return DefaultParser.Extract(path); 
}

　缺點：

使用了不可靠的COM 互通性連接來處理IFilter 介面(並且組合IFilter 、Adobe」

需要在目標系統上單獨安裝 Adobe IFilter。如果你需要對其它人發布可索引的解決方案，會很痛苦。

　iTextSharp

　　iTextSharp（http://sourceforge.net/projects/itextsharp/）是 Java 的PDF 操作庫 iText（http://itextpdf.com/）的.NET輸出。它主要著眼於編輯PDF而不是閱讀，但它當然也支援從PDF中提取文字（儘管有點大材小用）。

　　例程:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
 
// ...
  
public static string ExtractTextFromPdf(string path)
{
  using (PdfReader reader = new PdfReader(path))
  {
    StringBuilder text = new StringBuilder();
 
    for (int i = 1; i <= reader.NumberOfPages; i++)
    {
        text.Append(PdfTextExtractor.GetTextFromPage(reader, i));
    }
 
    return text.ToString();
  }
}

　信用證: 成員號 10364982

　　缺點：

需要許可證（如果你不喜歡的庫嗎PLPL 。它同時也可以與原來的Java Lucene一起使用（請參閱LucenePDFDocument）。

　　幸運的是，PDFBox有一個使用IKVM.NET開發的.NET版本（只需訪問PDFBox下載頁）。

　　在.NET中使用PDFBox需要引用：

IKVM.OpenJDK.Core.dll

IKVM.OpenJDK.SwingAWT.dllll

pdf-1.8.4. ：

commons-logging.dll

fontbox-1.8.4.dll

IKVM.OpenJDK.Util.dll

IKVM.Runtime.dllllo

＜

IKVM.Runtime.dlldsBox

起來差不多有18MB：

IKVM.OpenJDK.Core.dll (4 MB)

IKVM.OpenJDK.SwingAWT.dll (6 MB)

-pdfbox-1.8.4.dll (4 MB)

dll (82 kB)

fontbox-1.8.4.dll (180 kB)

IKVM.OpenJDK.Util.dll (2 MB)

IKVM.Runtime.dll (1 MB)

〜

IKVM.Runtime.dll (1 MB)

。 Copyright Act PDF (5.1 MB)檔案花了13秒。

　　感謝bobrien100提供的改進建議。

　　缺點：

IKVM.NET依賴 (18 MB)

速度（尤其是IKVM.NET的啟動時間）

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：C# 程式設計師最常犯的 10 個錯誤下一篇：C# 程式設計師最常犯的 10 個錯誤

看更多

C# 實作將 PDF 轉文本的功能

相關文章