Heim >Backend-Entwicklung >C++ >Wie kann der PdfReader von iTextSharp Text und Bilder aus PDF-Dateien extrahieren?

Wie kann der PdfReader von iTextSharp Text und Bilder aus PDF-Dateien extrahieren?

Susan Sarandon
Susan SarandonOriginal
2025-01-06 07:43:45300Durchsuche

How Can iTextSharp's PdfReader Extract Text and Images from PDF Files?

Techniken zum Lesen von PDF-Inhalten mit dem PdfReader von iTextSharp

Bei der Arbeit mit PDF-Dokumenten ist das Extrahieren von Inhalten für die Datenanalyse, Textsuche usw. von entscheidender Bedeutung Weiterverarbeitung. iTextSharp, eine renommierte C#- und VB.NET-Bibliothek, bietet leistungsstarke Tools zum Lesen und Parsen von PDF-Inhalten.

Die PdfReader-Klasse in iTextSharp ermöglicht Entwicklern einen effizienten Zugriff auf den Inhalt von PDF-Dateien. Es bietet verschiedene Optionen zum Extrahieren von reinem Text und in das Dokument eingebetteten Bildern.

Nur-Text-Extraktion

Um einfachen Text aus einer PDF-Datei zu extrahieren, können Sie die SimpleTextExtractionStrategy nutzen Klasse:

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

Hier enthält currentText den extrahierten Textinhalt von der angegebenen Seite. Beachten Sie, dass der Text möglicherweise Nicht-Unicode-Zeichen enthält, die Sie zur ordnungsgemäßen Verarbeitung in das UTF-8-Format konvertieren können.

Bildextraktion

Wenn das PDF eingebettete Bilder enthält , können Sie sie mit der PdfImageExtender-Klasse extrahieren:

PdfImageExtender extender = new PdfImageExtender();
List<Image> images = extender.GetImagesFromPage(pdfReader, page);

Dieser Code ruft eine Liste von Bildobjekten ab, die die Bilder auf der angegebenen Seite darstellen. Anschließend können Sie auf die Daten jedes Bildes zugreifen und diese in einem geeigneten Format speichern.

Das obige ist der detaillierte Inhalt vonWie kann der PdfReader von iTextSharp Text und Bilder aus PDF-Dateien extrahieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn