iTextSharp を使用して PDF から書式設定されたテキストを抽出する方法-C++-php.cn

ホームページ

バックエンド開発

C++

iTextSharp を使用して PDF から書式設定されたテキストを抽出する方法

Mary-Kate Olsen

Jan 11, 2025 am 10:46 AM

How to Extract Text with Formatting from PDFs Using iTextSharp?

iTextSharp を使用して書式設定されたテキストを抽出する

紹介:

iTextSharp は PDF ドキュメントを操作および生成するための強力なライブラリですが、目的の形式でテキストを抽出することが難しい場合があります。この記事では、iTextSharp を使用して PDF からテキストと書式情報を抽出する方法を説明します。

カスタム抽出戦略:

書式設定されたテキストを抽出するには、カスタムの ITextExtractionStrategy 実装を作成できます。このポリシーは、テキストレンダリング情報の処理方法を定義します。

コードスニペット:

次のコードは、ベースライン、フォント名、フォントサイズの変更を追跡し、適切なスタイルで HTML を生成するカスタム戦略を定義します。

<code>public class TextWithFontExtractionStategy : iTextSharp.text.pdf.parser.ITextExtractionStrategy
{
    // ... (此处省略)

    public void RenderText(iTextSharp.text.pdf.parser.TextRenderInfo renderInfo)
    {
        // 确定字体属性
        string curFont = renderInfo.GetFont().PostscriptFontName;
        if (renderInfo.GetTextRenderMode() == (int)TextRenderMode.FillThenStrokeText)
        {
            curFont += "-Bold";
        }

        // 检查基线、字体或字体大小的变化
        Vector curBaseline = renderInfo.GetBaseline().GetStartPoint();
        Single curFontSize = renderInfo.GetAscentLine().GetEndPoint()[Vector.I2] - curBaseline[Vector.I2];
        if ((this.lastBaseLine == null) || (curBaseline[Vector.I2] != lastBaseLine[Vector.I2]) ||
            (curFontSize != lastFontSize) || (curFont != lastFont))
        {
            // 生成带有更新样式的HTML span
            result.AppendFormat("</code>

使用法:

カスタム戦略を使用するには、テキストを抽出するときにそれを指定できます:

<code>PdfReader reader = new PdfReader("MyDocument.pdf");
TextWithFontExtractionStategy strategy = new TextWithFontExtractionStategy();
string textWithFormatting = PdfTextExtractor.GetTextFromPage(reader, 1, strategy);</code>

出力:

textWithFormatting 変数には、フォントやフォントサイズなどの書式設定情報を反映する HTML タグを含む抽出されたテキストが含まれます。

結論:

このカスタム抽出戦略を使用すると、希望の形式で PDF テキストを抽出できます。これは、PDF ドキュメント内のテキストとスタイルを正確に再現するために使用できる強力なツールです。

以上がiTextSharp を使用して PDF から書式設定されたテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

C＃対C：プログラミング言語の比較分析May 04, 2025 am 12:03 AM

C＃とCの主な違いは、構文、メモリ管理、パフォーマンスです。1）C＃構文は最新であり、LambdaとLinqをサポートし、CはC機能を保持し、テンプレートをサポートします。 2）C＃はメモリを自動的に管理し、Cは手動で管理する必要があります。 3）CパフォーマンスはC＃よりも優れていますが、C＃パフォーマンスも最適化されています。

Cを使用したXMLアプリケーションの構築：実用的な例May 03, 2025 am 12:16 AM

tinyxml、pugixml、またはlibxml2ライブラリを使用して、CでXMLデータを処理できます。1）XMLファイルを解析する：DOMまたはSAXメソッドを使用し、DOMは小さなファイルに適しており、SAXは大きなファイルに適しています。 2）XMLファイルを生成：データ構造をXML形式に変換し、ファイルに書き込みます。これらの手順を通じて、XMLデータを効果的に管理および操作できます。

CのXML：複雑なデータ構造の処理May 02, 2025 am 12:04 AM

CのXMLデータ構造を使用すると、TinyXMLまたはPUGIXMLライブラリを使用できます。 1）PUGIXMLライブラリを使用して、XMLファイルを解析して生成します。 2）本情報などの複雑なネストされたXML要素を処理します。 3）XML処理コードを最適化し、効率的なライブラリとストリーミング解析を使用することをお勧めします。これらの手順を通じて、XMLデータを効率的に処理できます。

Cとパフォーマンス：それがまだ支配している場所May 01, 2025 am 12:14 AM

Cは、低レベルのメモリ管理と効率的な実行機能により、ゲーム開発、金融取引システム、組み込みシステムに不可欠であるため、パフォーマンスの最適化を支配しています。具体的には、次のように現れます。1）ゲーム開発では、Cの低レベルのメモリ管理と効率的な実行機能により、ゲームエンジン開発に適した言語になります。 2）金融取引システムでは、Cのパフォーマンスの利点は、非常に低いレイテンシと高スループットを保証します。 3）組み込みシステムでは、Cの低レベルのメモリ管理と効率的な実行機能により、リソースに制約のある環境で非常に人気があります。

c xmlフレームワーク：あなたにぴったりのフレームワークを選択しますApr 30, 2025 am 12:01 AM

C XMLフレームワークの選択は、プロジェクトの要件に基づいている必要があります。 1）TinyXMLは、リソースに制約のある環境に適しています。2）PUGIXMLは高性能要件に適しています。

C＃対C：プロジェクトに適した言語を選択するApr 29, 2025 am 12:51 AM

C＃は、開発効率とタイプの安全性を必要とするプロジェクトに適していますが、Cは高性能とハードウェア制御を必要とするプロジェクトに適しています。 1）C＃は、エンタープライズアプリケーションやWindows開発に適したGarbage CollectionとLINQを提供します。 2）Cは、その高性能と根本的な制御で知られており、ゲームやシステムのプログラミングで広く使用されています。

コードを最適化する方法Apr 28, 2025 pm 10:27 PM

Cコードの最適化は、次の戦略を通じて実現できます。1。最適化のためにメモリを手動で管理する。 2。コンパイラ最適化ルールに準拠したコードを書きます。 3.適切なアルゴリズムとデータ構造を選択します。 4.インライン関数を使用して、コールオーバーヘッドを削減します。 5.コンパイル時に最適化するために、テンプレートメタプログラムを適用します。 6.不要なコピーを避け、移動セマンティクスと参照パラメーターを使用します。 7. constを正しく使用して、コンパイラの最適化を支援します。 8。std :: vectorなどの適切なデータ構造を選択します。

Cの揮発性キーワードを理解する方法は？Apr 28, 2025 pm 10:24 PM

Cの揮発性キーワードは、変数の値がコード制御の外側に変更され、したがって最適化できないことをコンパイラに通知するために使用されます。 1）センサー状態などのハードウェアまたは割り込みサービスプログラムによって変更される可能性のある変数の読み取りによく使用されます。 2）揮発性は、マルチスレッドの安全性を保証することはできず、Mutexロックまたは原子操作を使用する必要があります。 3）揮発性を使用すると、パフォーマンスがわずかに減少する可能性がありますが、プログラムの正確性を確保します。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。