更新
2014年2月27日: 這篇文章最初只描述使用 PDFBox 解析PDF文件。現在它已經擴展到包括使用 IFilter 和 iTextSharp 的例程了。
這篇文章和對應的Visual Studio專案已經更新到目前最新的 PDFBox 版本(1.8.4)。可以從 http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ 下載包含所有依賴內容的完整專案(要消除依賴關係有點棘手)。
如何解析 PDF 文件
在.NET中從PDF文件中提取文本的幾種主要方法有:
Microsoft 的 IFilter 接口 和 Adobe 的 IFilter 實作;
Microsoft 的 IFilter 介面 和 Adobe 的 IFilter 實作;
iSharp;
不幸的是這些 PDF 解析方案都不完美。我們將在下面討論這些方法。
Adobe PDF IFilter
為了使用IFilter 介面來解析 PDF 文件,你需要:
Windows 2000 或後續版本
Adobe Acrobat 或Reader 7.0.5+ (S7.0.5+).
IFilter COM 封裝類別 [dotlucene.net] 範例程式碼:using IFilter; // ... public static string ExtractTextFromPdf(string path) { return DefaultParser.Extract(path); }缺點:使用了不可靠的COM 互通性連接來處理IFilter 介面(並且組合IFilter 、Adobe」 需要在目標系統上單獨安裝 Adobe IFilter。如果你需要對其它人發布可索引的解決方案,會很痛苦。 iTextSharp iTextSharp(http://sourceforge.net/projects/itextsharp/) 是 Java 的PDF 操作庫 iText(http://itextpdf.com/) 的.NET輸出。它主要著眼於編輯PDF而不是閱讀,但它當然也支援從PDF中提取文字(儘管有點大材小用)。 例程:
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; // ... public static string ExtractTextFromPdf(string path) { using (PdfReader reader = new PdfReader(path)) { StringBuilder text = new StringBuilder(); for (int i = 1; i <= reader.NumberOfPages; i++) { text.Append(PdfTextExtractor.GetTextFromPage(reader, i)); } return text.ToString(); } }信用證: 成員號 10364982 缺點:需要許可證(如果你不喜歡的庫嗎PLPL 。它同時也可以與原來的Java Lucene一起使用(請參閱LucenePDFDocument)。 幸運的是,PDFBox有一個使用IKVM.NET開發的.NET版本 (只需訪問PDFBox下載頁)。 在.NET中使用PDFBox需要引用:IKVM.OpenJDK.Core.dllIKVM.OpenJDK.SwingAWT.dllllpdf-1.8.4. :commons-logging.dllfontbox-1.8.4.dllIKVM.OpenJDK.Util.dllIKVM.Runtime.dllllo<
IKVM.Runtime.dlldsBox
起來差不多有18MB:IKVM.OpenJDK.Core.dll (4 MB)IKVM.OpenJDK.SwingAWT.dll (6 MB)-pdfbox-1.8.4.dll (4 MB)dll (82 kB)
fontbox-1.8.4.dll (180 kB)
IKVM.OpenJDK.Util.dll (2 MB)
IKVM.Runtime.dll (1 MB)
〜IKVM.Runtime.dll (1 MB)
。 Copyright Act PDF (5.1 MB)檔案花了13秒。 感謝bobrien100提供的改進建議。 缺點:IKVM.NET依賴 (18 MB)速度(尤其是IKVM.NET的啟動時間)