C# 实现将 PDF 转文本的功能

伊谢尔伦 2016-11-24 13:17 1443浏览原创

　更新

　　2014年2月27日：这篇文章最初只描述使用 pdfbox 来解析pdf文件。现在它已经被扩展到包括使用 ifilter 和 itextsharp 的例程了。

　　这篇文章和对应的Visual Studio项目已经更新到目前最新的 PDFBox 版本（1.8.4）。可以从 http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ 下载包含所有依赖内容的完整项目（要消除依赖关系有点棘手）。

　如何解析 PDF 文件

　　在.NET中从PDF文件里提取文本的几种主要方法有:

Microsoft 的 IFilter 接口和 Adobe 的 IFilter 实现；

iTextSharp；

PDFBox。

　　不幸的是这些 PDF 解析方案都不完美。我们将在下面讨论这些方法。

　Adobe PDF IFilter

　　为了使用 IFilter 接口来解析 PDF 文件，你需要：

Windows 2000 或者后续版本

Adobe Acrobat 或 Reader 7.0.5+ (或单独的 Adobe PDF IFilter [adobe.com])

IFilter COM 封装类 [dotlucene.net]

　　样例代码：

using IFilter;
 
// ...
 
public static string ExtractTextFromPdf(string path) {
  return DefaultParser.Extract(path); 
}

　缺点：

使用了不可靠的 COM 互操作来处理 IFilter 接口 (并且组合 IFilter COM、 Adobe PDF IFilter 特别麻烦)。

需要在目标系统上单独安装 Adobe IFilter。如果你需要对其它人发布可索引的解决方案，会很痛苦。

　iTextSharp

　　iTextSharp（http://sourceforge.net/projects/itextsharp/）是一个 Java 的PDF 操作库 iText（http://itextpdf.com/）的.NET输出。它主要着眼于编辑PDF而不是阅读，但它当然也支持从PDF中提取文本（尽管有点大材小用）。

　　例程:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
 
// ...
  
public static string ExtractTextFromPdf(string path)
{
  using (PdfReader reader = new PdfReader(path))
  {
    StringBuilder text = new StringBuilder();
 
    for (int i = 1; i <p>　信用证: 成员号 10364982</p><p>　　缺点：</p><p>需要许可证（如果你不喜欢 AGPL许可证 的话）</p><p style="margin: 20px 0px; padding: 5px 5px 5px 10px; font-weight: normal; font-family: Verdana, " microsoft yahei border-left: solid rgb font-size: color: line-height: white-space: normal widows: background:>　PDFBox</p><p>　　PDFBox是另一个Java PDF类库。它同时也可以与原来的Java Lucene一同使用（参见LucenePDFDocument）。</p><p>　　幸运的是，PDFBox有一个使用IKVM.NET开发的.NET版本 （只需访问PDFBox下载页）。</p><p>　　在.NET中使用PDFBox需要引用：</p><p>IKVM.OpenJDK.Core.dll</p><p>IKVM.OpenJDK.SwingAWT.dll</p><p>pdfbox-1.8.4.dll</p><p>　　并将下列文件复制到bin文件夹下：</p><p>commons-logging.dll</p><p>fontbox-1.8.4.dll</p><p>IKVM.OpenJDK.Util.dll</p><p>IKVM.Runtime.dll</p><p>　　使用PDFBox解析PDF十分简单：</p><pre class="brush:c#;toolbar:false">using org.apache.pdfbox.pdmodel;
using org.apache.pdfbox.util;
 
// ...
 
private static string ExtractTextFromPdf(string path)
{
  PDDocument doc = null;
  try {
    doc = PDDocument.load(path)
    PDFTextStripper stripper = new PDFTextStripper();
    return stripper.getText(doc);
  }
  finally {
    if (doc != null) {
      doc.close();
    }
  }
}

　编译后的大小加起来差不多有18MB：

IKVM.OpenJDK.Core.dll (4 MB)

IKVM.OpenJDK.SwingAWT.dll (6 MB)

pdfbox-1.8.4.dll (4 MB)

commons-logging.dll (82 kB)

fontbox-1.8.4.dll (180 kB)

IKVM.OpenJDK.Util.dll (2 MB)

IKVM.Runtime.dll (1 MB)

　　速度还可以：解析U.S. Copyright Act PDF (5.1 MB)文件用了13秒。

　　感谢bobrien100提供的改进建议。

　　缺点：

IKVM.NET依赖 (18 MB)