Heim >Backend-Entwicklung >C++ >Wie kann der PdfReader von iTextSharp Text und Bilder aus PDF-Dateien extrahieren?
Techniken zum Lesen von PDF-Inhalten mit dem PdfReader von iTextSharp
Bei der Arbeit mit PDF-Dokumenten ist das Extrahieren von Inhalten für die Datenanalyse, Textsuche usw. von entscheidender Bedeutung Weiterverarbeitung. iTextSharp, eine renommierte C#- und VB.NET-Bibliothek, bietet leistungsstarke Tools zum Lesen und Parsen von PDF-Inhalten.
Die PdfReader-Klasse in iTextSharp ermöglicht Entwicklern einen effizienten Zugriff auf den Inhalt von PDF-Dateien. Es bietet verschiedene Optionen zum Extrahieren von reinem Text und in das Dokument eingebetteten Bildern.
Nur-Text-Extraktion
Um einfachen Text aus einer PDF-Datei zu extrahieren, können Sie die SimpleTextExtractionStrategy nutzen Klasse:
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
Hier enthält currentText den extrahierten Textinhalt von der angegebenen Seite. Beachten Sie, dass der Text möglicherweise Nicht-Unicode-Zeichen enthält, die Sie zur ordnungsgemäßen Verarbeitung in das UTF-8-Format konvertieren können.
Bildextraktion
Wenn das PDF eingebettete Bilder enthält , können Sie sie mit der PdfImageExtender-Klasse extrahieren:
PdfImageExtender extender = new PdfImageExtender(); List<Image> images = extender.GetImagesFromPage(pdfReader, page);
Dieser Code ruft eine Liste von Bildobjekten ab, die die Bilder auf der angegebenen Seite darstellen. Anschließend können Sie auf die Daten jedes Bildes zugreifen und diese in einem geeigneten Format speichern.
Das obige ist der detaillierte Inhalt vonWie kann der PdfReader von iTextSharp Text und Bilder aus PDF-Dateien extrahieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!