Heim  >  Artikel  >  Backend-Entwicklung  >  C# implementiert die Funktion zum Konvertieren von PDF in Text

C# implementiert die Funktion zum Konvertieren von PDF in Text

伊谢尔伦
伊谢尔伦Original
2016-11-24 13:17:391279Durchsuche

Update

27. Februar 2014: In diesem Artikel wurde ursprünglich nur die Verwendung von PDFBox zum Parsen von PDF-Dateien beschrieben. Es wurde nun um Routinen zur Verwendung von IFilter und iTextSharp erweitert.

Dieser Artikel und das entsprechende Visual Studio-Projekt wurden auf die neueste PDFBox-Version (1.8.4) aktualisiert. Das komplette Projekt mit allen Abhängigkeiten kann von http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ heruntergeladen werden (das Entfernen von Abhängigkeiten ist etwas knifflig).

So analysieren Sie PDF-Dateien

Die wichtigsten Methoden zum Extrahieren von Text aus PDF-Dateien in .NET sind:

Microsofts IFilter-Schnittstelle und Adobes IFilter-Implementierung; >iTextSharp;

PDFBox.

Leider ist keine dieser PDF-Parsing-Lösungen perfekt. Wir besprechen diese Methoden im Folgenden.

Adobe PDF IFilter

Um die IFilter-Schnittstelle zum Parsen von PDF-Dateien verwenden zu können, benötigen Sie:

Windows 2000 oder höher

Adobe Acrobat oder Reader 7.0.5+ (oder separater Adobe PDF IFilter [adobe.com])

IFilter COM-Wrapper-Klasse [dotlucene.net]

Beispielcode:

Nachteile:
using IFilter;
 
// ...
 
public static string ExtractTextFromPdf(string path) {
  return DefaultParser.Extract(path); 
}

Verwendet unzuverlässiges COM-Interop zur Handhabung der IFilter-Schnittstelle (und die Kombination von IFilter COM und Adobe PDF IFilter ist besonders problematisch).

Adobe IFilter muss separat auf dem Zielsystem installiert werden. Es ist mühsam, wenn Sie eine indexierbare Lösung für andere veröffentlichen müssen.

iTextSharp

iTextSharp (http://sourceforge.net/projects/itextsharp/) ist eine Java-PDF-Operationsbibliothek iText (http://itextpdf.com/) für die .NET-Ausgabe. Es konzentriert sich hauptsächlich auf das Bearbeiten von PDFs und nicht auf deren Lesen, unterstützt aber sicherlich auch das Extrahieren von Text aus PDFs (obwohl es etwas übertrieben ist).

Routine:

Credit: Mitgliedsnr. 10364982
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
 
// ...
  
public static string ExtractTextFromPdf(string path)
{
  using (PdfReader reader = new PdfReader(path))
  {
    StringBuilder text = new StringBuilder();
 
    for (int i = 1; i <= reader.NumberOfPages; i++)
    {
        text.Append(PdfTextExtractor.GetTextFromPage(reader, i));
    }
 
    return text.ToString();
  }
}

Nachteile:

Lizenz erforderlich (wenn Ihnen die AGPL-Lizenz nicht gefällt) )

PDFBox

PDFBox ist eine weitere Java-PDF-Klassenbibliothek. Es kann auch mit Original Java Lucene verwendet werden (siehe LucenePDFDocument).

Glücklicherweise gibt es von PDFBox eine .NET-Version, die mit IKVM.NET entwickelt wurde (besuchen Sie einfach die PDFBox-Downloadseite).

Für die Verwendung von PDFBox in .NET sind Anführungszeichen erforderlich:

IKVM.OpenJDK.Core.dll

IKVM.OpenJDK.SwingAWT.dll

pdfbox-1.8 . 4.dll

 Und kopieren Sie die folgenden Dateien in den Bin-Ordner:

commons-logging.dll

fontbox-1.8.4.dll

IKVM .OpenJDK.Util.dll

IKVM.Runtime.dll

Die Verwendung von PDFBox zum Parsen von PDF-Dateien ist sehr einfach:

Die kompilierte Gesamtgröße beträgt fast 18 MB :
using org.apache.pdfbox.pdmodel;
using org.apache.pdfbox.util;
 
// ...
 
private static string ExtractTextFromPdf(string path)
{
  PDDocument doc = null;
  try {
    doc = PDDocument.load(path)
    PDFTextStripper stripper = new PDFTextStripper();
    return stripper.getText(doc);
  }
  finally {
    if (doc != null) {
      doc.close();
    }
  }
}

IKVM.OpenJDK.Core.dll (4 MB)

IKVM.OpenJDK.SwingAWT.dll (6 MB)

pdfbox-1.8.4.dll (4 MB)

commons-logging.dll (82 kB)

fontbox-1.8.4.dll (180 kB)

IKVM.OpenJDK.Util.dll (2 MB)

IKVM.Runtime.dll (1 MB)

Die Geschwindigkeit ist in Ordnung: Das Parsen der U.S. Copyright Act PDF-Datei (5,1 MB) dauerte 13 Sekunden.

Danke bobrien100 für die Verbesserungsvorschläge.

Nachteile:

IKVM.NET-Abhängigkeit (18 MB)

Geschwindigkeit (insbesondere die Startzeit von IKVM.NET)

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn