Maison >développement back-end >C++ >Comment extraire efficacement du contenu PDF à l'aide d'iTextSharp en C# ou VB.NET ?
Question :
Comment récupérer efficacement le contenu d'un document PDF à l'aide d'iTextSharp dans soit VB.NET ou C#?
Réponse :
iTextSharp fournit un mécanisme fiable pour lire le contenu PDF via sa classe PdfReader. Voici une solution C# complète pour extraire à la fois du texte et des images d'un document PDF :
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; using System; using System.IO; using System.Text; namespace PdfContentReader { public static class Program { public static string ReadPdfFile(string fileName) { StringBuilder text = new StringBuilder(); if (File.Exists(fileName)) { PdfReader pdfReader = new PdfReader(fileName); for (int page = 1; page <= pdfReader.NumberOfPages; page++) { ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText))); text.Append(currentText); } pdfReader.Close(); } return text.ToString(); } public static void Main(string[] args) { string fileName = @"path\to\file.pdf"; string extractedText = ReadPdfFile(fileName); Console.WriteLine(extractedText); } } }
Dans cette implémentation :
Cette solution extrait efficacement le contenu du texte du document PDF, en gérant à la fois le texte brut et images intégrées efficacement.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!