Wie extrahiere ich mit iTextSharp Text mit Formatierung aus PDFs?-C++-php.cn

Heim

Backend-Entwicklung

C++

Wie extrahiere ich mit iTextSharp Text mit Formatierung aus PDFs?

Mary-Kate Olsen

Jan 11, 2025 am 10:46 AM

How to Extract Text with Formatting from PDFs Using iTextSharp?

Formatierten Text mit iTextSharp extrahieren

Einleitung:

iTextSharp ist eine leistungsstarke Bibliothek zum Bearbeiten und Generieren von PDF-Dokumenten, aber es ist manchmal schwierig, Text im gewünschten Format zu extrahieren. Dieser Artikel bietet eine Methode zum Extrahieren von Text und Formatierungsinformationen aus PDF mithilfe von iTextSharp.

Benutzerdefinierte Extraktionsstrategie:

Um formatierten Text zu extrahieren, können Sie eine benutzerdefinierte ITextExtractionStrategy-Implementierung erstellen. Diese Richtlinie definiert, wie mit Informationen zur Textwiedergabe umgegangen wird.

Codeausschnitt:

Der folgende Code definiert eine benutzerdefinierte Strategie, die Änderungen an Grundlinie, Schriftartname und Schriftgröße verfolgt und HTML mit entsprechendem Stil generiert:

<code>public class TextWithFontExtractionStategy : iTextSharp.text.pdf.parser.ITextExtractionStrategy
{
    // ... (此处省略)

    public void RenderText(iTextSharp.text.pdf.parser.TextRenderInfo renderInfo)
    {
        // 确定字体属性
        string curFont = renderInfo.GetFont().PostscriptFontName;
        if (renderInfo.GetTextRenderMode() == (int)TextRenderMode.FillThenStrokeText)
        {
            curFont += "-Bold";
        }

        // 检查基线、字体或字体大小的变化
        Vector curBaseline = renderInfo.GetBaseline().GetStartPoint();
        Single curFontSize = renderInfo.GetAscentLine().GetEndPoint()[Vector.I2] - curBaseline[Vector.I2];
        if ((this.lastBaseLine == null) || (curBaseline[Vector.I2] != lastBaseLine[Vector.I2]) ||
            (curFontSize != lastFontSize) || (curFont != lastFont))
        {
            // 生成带有更新样式的HTML span
            result.AppendFormat("</code>

Verwendung:

Um eine benutzerdefinierte Strategie zu verwenden, können Sie diese beim Extrahieren von Text angeben:

<code>PdfReader reader = new PdfReader("MyDocument.pdf");
TextWithFontExtractionStategy strategy = new TextWithFontExtractionStategy();
string textWithFormatting = PdfTextExtractor.GetTextFromPage(reader, 1, strategy);</code>

Ausgabe:

Die Variable

textWithFormatting enthält den extrahierten Text mit HTML-Tags, die die Formatierungsinformationen widerspiegeln, einschließlich Schriftart und Schriftgröße.

Fazit:

Mit dieser benutzerdefinierten Extraktionsstrategie können Sie PDF-Text im gewünschten Format extrahieren. Dabei handelt es sich um ein leistungsstarkes Tool, mit dem sich Text und Stile in PDF-Dokumenten präzise reproduzieren lassen.

Das obige ist der detaillierte Inhalt vonWie extrahiere ich mit iTextSharp Text mit Formatierung aus PDFs?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Die fortgesetzte Verwendung von C: Gründe für seine AusdauerApr 11, 2025 am 12:02 AM

C Gründe für die kontinuierliche Verwendung sind seine hohe Leistung, breite Anwendung und sich weiterentwickelnde Eigenschaften. 1) Leistung mit hoher Effizienz. 2) weit verbreitete: Glanz in den Feldern der Spieleentwicklung, eingebettete Systeme usw. 3) Kontinuierliche Entwicklung: Seit seiner Veröffentlichung im Jahr 1983 hat C weiterhin neue Funktionen hinzugefügt, um seine Wettbewerbsfähigkeit aufrechtzuerhalten.

Die Zukunft von C und XML: aufkommende Trends und TechnologienApr 10, 2025 am 09:28 AM

Die zukünftigen Entwicklungstrends von C und XML sind: 1) C werden neue Funktionen wie Module, Konzepte und Coroutinen in den Standards C 20 und C 23 einführen, um die Programmierungseffizienz und -sicherheit zu verbessern. 2) XML nimmt weiterhin eine wichtige Position in den Datenaustausch- und Konfigurationsdateien ein, steht jedoch vor den Herausforderungen von JSON und YAML und entwickelt sich in einer prägnanteren und einfacheren Analyse wie die Verbesserungen von XMLSchema1.1 und XPATH3.1.

Moderne C -Entwurfsmuster: Erstellen skalierbarer und wartbarer SoftwareApr 09, 2025 am 12:06 AM

Das moderne C -Designmodell verwendet neue Funktionen von C 11 und darüber hinaus, um flexiblere und effizientere Software aufzubauen. 1) Verwenden Sie Lambda -Ausdrücke und STD :: Funktion, um das Beobachtermuster zu vereinfachen. 2) Die Leistung durch mobile Semantik und perfekte Weiterleitung optimieren. 3) Intelligente Zeiger gewährleisten die Sicherheit und das Management von Ressourcen.

C Multithreading und Parallelität: Parallele Programmierung beherrschenApr 08, 2025 am 12:10 AM

C Die Kernkonzepte von Multithreading und gleichzeitiger Programmierung umfassen Thread -Erstellung und -management, Synchronisation und gegenseitige Ausschluss, bedingte Variablen, Thread -Pooling, asynchrones Programmieren, gemeinsame Fehler und Debugging -Techniken sowie Leistungsoptimierung sowie Best Practices. 1) Erstellen Sie Threads mit der STD :: Thread -Klasse. Das Beispiel zeigt, wie der Thread erstellt und wartet. 2) Synchronisieren und gegenseitige Ausschluss, um std :: mutex und std :: lock_guard zu verwenden, um gemeinsam genutzte Ressourcen zu schützen und den Datenwettbewerb zu vermeiden. 3) Zustandsvariablen realisieren Kommunikation und Synchronisation zwischen Threads über std :: Condition_Variable. 4) Das Beispiel des Thread -Pools zeigt, wie die Threadpool -Klasse verwendet wird, um Aufgaben parallel zu verarbeiten, um die Effizienz zu verbessern. 5) Asynchrones Programmieren verwendet std :: als

C Deep Dive: Mastering Memory Management, Zeiger und Vorlagen beherrschenApr 07, 2025 am 12:11 AM

Die Speicherverwaltung, Hinweise und Vorlagen von C sind Kernfunktionen. 1. Die Speicherverwaltung zuteilt manuell manuell und freisetzt Speicher durch neue und löscht und achten Sie auf den Unterschied zwischen Haufen und Stapel. 2. Zeiger erlauben den direkten Betrieb von Speicheradressen und verwenden Sie sie mit Vorsicht. Intelligente Zeiger können das Management vereinfachen. 3. Template implementiert die generische Programmierung, verbessert die Wiederverwendbarkeit und Flexibilität der Code und muss die Typableitung und Spezialisierung verstehen.

C- und Systemprogrammierung: Steuerung und Hardware-Interaktion mit niedriger EbeneApr 06, 2025 am 12:06 AM

C eignet sich für die Systemprogrammierung und Hardware-Interaktion, da es Steuerfunktionen in der Nähe von Hardware und leistungsstarke Funktionen der objektorientierten Programmierung bietet. 1) C über Merkmale auf niedrigem Niveau wie Zeiger, Speicherverwaltung und Bitbetrieb können effizienter Betrieb auf Systemebene erreicht werden. 2) Die Hardware -Interaktion wird über Geräte -Treiber implementiert, und C kann diese Treiber so schreiben, dass sie mit Hardware -Geräten über die Kommunikation umgehen.

Spielentwicklung mit C: Aufbau von Hochleistungsspielen und SimulationenApr 05, 2025 am 12:11 AM

C eignet sich zum Aufbau von Hochleistungsspiel- und Simulationssystemen, da es nahezu Hardwaresteuerung und effiziente Leistung bietet. 1) Speicherverwaltung: Manuelle Steuerung reduziert die Fragmentierung und verbessert die Leistung. 2) Kompilierungszeitoptimierung: Inline-Funktionen und Schleifenerweiterung verbessern die Laufgeschwindigkeit. 3) Niedrige Operationen: Direkter Zugriff auf Hardware, Optimierung von Grafiken und physischem Computer.

Die Wahrheit hinter dem Problem der C -SprachdateiApr 04, 2025 am 11:24 AM

Die Wahrheit über Probleme mit der Dateibetrieb: Dateiöffnung fehlgeschlagen: unzureichende Berechtigungen, falsche Pfade und Datei besetzt. Das Schreiben von Daten fehlgeschlagen: Der Puffer ist voll, die Datei ist nicht beschreibbar und der Speicherplatz ist nicht ausreichend. Andere FAQs: Langsame Dateitraversal, falsche Textdateicodierung und Binärdatei -Leser -Fehler.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vorByDDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

MantisBT

Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.

ZendStudio 13.5.1 Mac

Leistungsstarke integrierte PHP-Entwicklungsumgebung

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

PHPStorm Mac-Version

Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7456

CakePHP-Tutorial

1376

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten