cari
Rumahpembangunan bahagian belakangC++Bagaimana untuk Mengekstrak Teks dengan Pemformatan daripada PDF Menggunakan iTextSharp?

How to Extract Text with Formatting from PDFs Using iTextSharp?

Ekstrak teks berformat menggunakan iTextSharp

Pengenalan:

iTextSharp ialah perpustakaan yang berkuasa untuk memanipulasi dan menjana dokumen PDF, tetapi kadangkala sukar untuk mengekstrak teks dengan format yang dikehendaki. Artikel ini menyediakan kaedah untuk mengekstrak maklumat teks dan pemformatan daripada PDF menggunakan iTextSharp.

Strategi pengekstrakan tersuai:

Untuk mengekstrak teks berformat, anda boleh membuat pelaksanaan ITextExtractionStrategy tersuai. Dasar ini mentakrifkan cara maklumat pemaparan teks dikendalikan.

Coretan kod:

Kod berikut mentakrifkan strategi tersuai yang menjejaki perubahan dalam garis dasar, nama fon dan saiz fon serta menjana HTML dengan gaya yang sesuai:

<code>public class TextWithFontExtractionStategy : iTextSharp.text.pdf.parser.ITextExtractionStrategy
{
    // ... (此处省略)

    public void RenderText(iTextSharp.text.pdf.parser.TextRenderInfo renderInfo)
    {
        // 确定字体属性
        string curFont = renderInfo.GetFont().PostscriptFontName;
        if (renderInfo.GetTextRenderMode() == (int)TextRenderMode.FillThenStrokeText)
        {
            curFont += "-Bold";
        }

        // 检查基线、字体或字体大小的变化
        Vector curBaseline = renderInfo.GetBaseline().GetStartPoint();
        Single curFontSize = renderInfo.GetAscentLine().GetEndPoint()[Vector.I2] - curBaseline[Vector.I2];
        if ((this.lastBaseLine == null) || (curBaseline[Vector.I2] != lastBaseLine[Vector.I2]) ||
            (curFontSize != lastFontSize) || (curFont != lastFont))
        {
            // 生成带有更新样式的HTML span
            result.AppendFormat("</code>

Penggunaan:

Untuk menggunakan strategi tersuai, anda boleh menentukannya semasa mengekstrak teks:

<code>PdfReader reader = new PdfReader("MyDocument.pdf");
TextWithFontExtractionStategy strategy = new TextWithFontExtractionStategy();
string textWithFormatting = PdfTextExtractor.GetTextFromPage(reader, 1, strategy);</code>

Output:

Pembolehubah

textWithFormatting akan mengandungi teks yang diekstrak dengan teg HTML yang mencerminkan maklumat pemformatan, termasuk fon dan saiz fon.

Kesimpulan:

Strategi pengekstrakan tersuai ini membolehkan anda mengekstrak teks PDF dengan format yang diingini. Ini ialah alat berkuasa yang boleh digunakan untuk menghasilkan semula teks dan gaya dengan tepat dalam dokumen PDF.

Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Teks dengan Pemformatan daripada PDF Menggunakan iTextSharp?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Bagaimana Perpustakaan Templat St Standard (STL) berfungsi?Bagaimana Perpustakaan Templat St Standard (STL) berfungsi?Mar 12, 2025 pm 04:50 PM

Artikel ini menerangkan Perpustakaan Templat St Standard (STL), yang memberi tumpuan kepada komponen terasnya: bekas, iterator, algoritma, dan functors. Ia memperincikan bagaimana ini berinteraksi untuk membolehkan pengaturcaraan generik, meningkatkan kecekapan kod dan kebolehbacaan t

Bagaimanakah saya menggunakan algoritma dari STL (jenis, mencari, mengubah, dll) dengan cekap?Bagaimanakah saya menggunakan algoritma dari STL (jenis, mencari, mengubah, dll) dengan cekap?Mar 12, 2025 pm 04:52 PM

Artikel ini memperincikan penggunaan algoritma STL yang cekap dalam c. Ia menekankan pilihan struktur data (vektor vs senarai), analisis kerumitan algoritma (mis., Std :: Sort vs Std :: partial_sort), penggunaan iterator, dan pelaksanaan selari. Perangkap biasa seperti

Struktur Data Bahasa C: Perwakilan Data dan Operasi Pokok dan GrafikStruktur Data Bahasa C: Perwakilan Data dan Operasi Pokok dan GrafikApr 04, 2025 am 11:18 AM

Struktur Data Bahasa C: Perwakilan data pokok dan graf adalah struktur data hierarki yang terdiri daripada nod. Setiap nod mengandungi elemen data dan penunjuk kepada nod anaknya. Pokok binari adalah jenis pokok khas. Setiap nod mempunyai paling banyak dua nod kanak -kanak. Data mewakili structtreenode {intData; structtreenode*left; structtreenode*right;}; Operasi mewujudkan pokok traversal pokok (predecision, in-order, dan kemudian pesanan) Node Node Carian Pusat Node Node adalah koleksi struktur data, di mana unsur-unsur adalah simpul, dan mereka boleh dihubungkan bersama melalui tepi dengan data yang betul atau tidak jelas yang mewakili jiran.

Bagaimanakah saya menggunakan rujukan RValue dengan berkesan di C?Bagaimanakah saya menggunakan rujukan RValue dengan berkesan di C?Mar 18, 2025 pm 03:29 PM

Artikel membincangkan penggunaan rujukan RValue yang berkesan dalam C untuk bergerak semantik, pemajuan sempurna, dan pengurusan sumber, menonjolkan amalan terbaik dan penambahbaikan prestasi. (159 aksara)

Bagaimana saya mengendalikan pengecualian dengan berkesan di C?Bagaimana saya mengendalikan pengecualian dengan berkesan di C?Mar 12, 2025 pm 04:56 PM

Artikel ini butiran pengendalian pengecualian yang berkesan di C, meliputi percubaan, menangkap, dan membuang mekanik. Ia menekankan amalan terbaik seperti RAII, mengelakkan blok tangkapan yang tidak perlu, dan pengecualian pembalakan untuk kod yang mantap. Artikel ini juga menangani perf

Bagaimanakah saya menggunakan semantik bergerak di C untuk meningkatkan prestasi?Bagaimanakah saya menggunakan semantik bergerak di C untuk meningkatkan prestasi?Mar 18, 2025 pm 03:27 PM

Artikel ini membincangkan menggunakan semantik Move dalam C untuk meningkatkan prestasi dengan mengelakkan penyalinan yang tidak perlu. Ia meliputi pelaksanaan pembina bergerak dan pengendali tugasan, menggunakan STD :: bergerak, dan mengenal pasti senario utama dan perangkap untuk Appl yang berkesan

Bagaimanakah saya menggunakan julat dalam C 20 untuk manipulasi data yang lebih ekspresif?Bagaimanakah saya menggunakan julat dalam C 20 untuk manipulasi data yang lebih ekspresif?Mar 17, 2025 pm 12:58 PM

C 20 julat meningkatkan manipulasi data dengan ekspresi, komposiliti, dan kecekapan. Mereka memudahkan transformasi kompleks dan mengintegrasikan ke dalam kod sedia ada untuk prestasi dan kebolehkerjaan yang lebih baik.

Bagaimanakah penghantaran dinamik berfungsi di C dan bagaimana ia mempengaruhi prestasi?Bagaimanakah penghantaran dinamik berfungsi di C dan bagaimana ia mempengaruhi prestasi?Mar 17, 2025 pm 01:08 PM

Artikel ini membincangkan penghantaran dinamik dalam C, kos prestasinya, dan strategi pengoptimuman. Ia menyoroti senario di mana penghantaran dinamik memberi kesan kepada prestasi dan membandingkannya dengan penghantaran statik, menekankan perdagangan antara prestasi dan

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

SublimeText3 versi Inggeris

SublimeText3 versi Inggeris

Disyorkan: Versi Win, menyokong gesaan kod!

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.