Maison >développement back-end >C++ >Comment extraire efficacement du contenu PDF à l'aide d'iTextSharp en C# ou VB.NET ?

Comment extraire efficacement du contenu PDF à l'aide d'iTextSharp en C# ou VB.NET ?

Barbara Streisand
Barbara Streisandoriginal
2025-01-06 07:46:40820parcourir

How to Extract PDF Content Efficiently using iTextSharp in C# or VB.NET?

Extraire du contenu PDF à l'aide d'iTextSharp

Question :

Comment récupérer efficacement le contenu d'un document PDF à l'aide d'iTextSharp dans soit VB.NET ou C#?

Réponse :

iTextSharp fournit un mécanisme fiable pour lire le contenu PDF via sa classe PdfReader. Voici une solution C# complète pour extraire à la fois du texte et des images d'un document PDF :

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.IO;
using System.Text;

namespace PdfContentReader
{
    public static class Program
    {
        public static string ReadPdfFile(string fileName)
        {
            StringBuilder text = new StringBuilder();

            if (File.Exists(fileName))
            {
                PdfReader pdfReader = new PdfReader(fileName);

                for (int page = 1; page <= pdfReader.NumberOfPages; page++)
                {
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                    string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                    currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
                    text.Append(currentText);
                }
                pdfReader.Close();
            }
            return text.ToString();
        }

        public static void Main(string[] args)
        {
            string fileName = @"path\to\file.pdf";
            string extractedText = ReadPdfFile(fileName);

            Console.WriteLine(extractedText);
        }
    }
}

Dans cette implémentation :

  • La méthode ReadPdfFile prend le nom de fichier comme argument et extrait le contenu textuel de chaque page du document PDF.
  • Nous utilisons SimpleTextExtractionStrategy pour extraire le texte brut du PDF. document.
  • Nous traitons les problèmes d'encodage potentiels en convertissant le texte extrait en encodage UTF-8.

Cette solution extrait efficacement le contenu du texte du document PDF, en gérant à la fois le texte brut et images intégrées efficacement.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn