質問:
iTextSharp を使用して PDF ドキュメントのコンテンツを効果的に取得する方法VB.NET またはC#?
答え:
iTextSharp は、PdfReader クラスを通じて PDF コンテンツを読み取るための信頼できるメカニズムを提供します。 PDF ドキュメントからテキストと画像の両方を抽出する包括的な C# ソリューションを次に示します。
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; using System; using System.IO; using System.Text; namespace PdfContentReader { public static class Program { public static string ReadPdfFile(string fileName) { StringBuilder text = new StringBuilder(); if (File.Exists(fileName)) { PdfReader pdfReader = new PdfReader(fileName); for (int page = 1; page <= pdfReader.NumberOfPages; page++) { ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText))); text.Append(currentText); } pdfReader.Close(); } return text.ToString(); } public static void Main(string[] args) { string fileName = @"path\to\file.pdf"; string extractedText = ReadPdfFile(fileName); Console.WriteLine(extractedText); } } }
この実装では:
このソリューションは、PDF ドキュメントからテキスト コンテンツを効率的に抽出し、プレーン テキストとテキストの両方を処理します。画像を効果的に埋め込みます。
以上がC# または VB.NET で iTextSharp を使用して PDF コンテンツを効率的に抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。