Heim >Backend-Entwicklung >C++ >Wie extrahiere ich Text und Bilder aus PDFs mit iTextSharp in .NET?
Extrahieren von PDF-Inhalten mit iTextSharp in .NET
In .NET-Anwendungen bietet iTextSharp robuste Funktionen für die Verarbeitung von PDF-Dokumenten. Eine seiner Hauptfunktionen ist die Möglichkeit, Inhalte aus PDFs zu extrahieren, einschließlich Text und Bildern.
Einfachen Text aus PDFs lesen
Um einfachen Text aus einem PDF zu lesen Mit iTextSharp können Sie den folgenden Code nutzen:
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; using System.IO; public string ReadPdfText(string fileName) { StringBuilder text = new StringBuilder(); if (File.Exists(fileName)) { PdfReader pdfReader = new PdfReader(fileName); for (int page = 1; page <= pdfReader.NumberOfPages; page++) { ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); text.Append(currentText); } pdfReader.Close(); } return text.ToString(); }
In diesem Beispiel liest die ReadPdfText-Methode den Inhalt einer PDF-Datei und Sammelt den Text in einem StringBuilder-Objekt. Die SimpleTextExtractionStrategy wird verwendet, um Text aus jeder Seite des PDFs zu extrahieren.
Umgang mit Bildern in PDFs
Während sich der obige Code auf das Extrahieren von Text konzentriert, ermöglicht Ihnen iTextSharp auch dies Extrahieren Sie Bilder aus PDFs. Sie können den folgenden Ansatz verwenden:
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; using System; using System.Drawing; using System.IO; public void ReadPdfImages(string fileName) { if (File.Exists(fileName)) { PdfReader pdfReader = new PdfReader(fileName); for (int page = 1; page <= pdfReader.NumberOfPages; page++) { PdfReaderContentParser parser = new PdfReaderContentParser(pdfReader); string content = parser.ProcessContent(page, new ImageRenderListener()); } } }
In diesem Code wird ein PdfReaderContentParser verwendet, um den Inhalt jeder Seite zu analysieren. Der ImageRenderListener stellt eine Rückrufmethode bereit, die das Rendern von Bildern übernimmt. Jedes Bild wird als Bitmap-Objekt gerendert, das weiterverarbeitet oder gespeichert werden kann.
Das obige ist der detaillierte Inhalt vonWie extrahiere ich Text und Bilder aus PDFs mit iTextSharp in .NET?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!