cari
Rumahpembangunan bahagian belakangC++Bagaimana untuk Mengekstrak Teks dengan Pemformatan daripada PDF Menggunakan iTextSharp?

How to Extract Text with Formatting from PDFs Using iTextSharp?

Ekstrak teks berformat menggunakan iTextSharp

Pengenalan:

iTextSharp ialah perpustakaan yang berkuasa untuk memanipulasi dan menjana dokumen PDF, tetapi kadangkala sukar untuk mengekstrak teks dengan format yang dikehendaki. Artikel ini menyediakan kaedah untuk mengekstrak maklumat teks dan pemformatan daripada PDF menggunakan iTextSharp.

Strategi pengekstrakan tersuai:

Untuk mengekstrak teks berformat, anda boleh membuat pelaksanaan ITextExtractionStrategy tersuai. Dasar ini mentakrifkan cara maklumat pemaparan teks dikendalikan.

Coretan kod:

Kod berikut mentakrifkan strategi tersuai yang menjejaki perubahan dalam garis dasar, nama fon dan saiz fon serta menjana HTML dengan gaya yang sesuai:

<code>public class TextWithFontExtractionStategy : iTextSharp.text.pdf.parser.ITextExtractionStrategy
{
    // ... (此处省略)

    public void RenderText(iTextSharp.text.pdf.parser.TextRenderInfo renderInfo)
    {
        // 确定字体属性
        string curFont = renderInfo.GetFont().PostscriptFontName;
        if (renderInfo.GetTextRenderMode() == (int)TextRenderMode.FillThenStrokeText)
        {
            curFont += "-Bold";
        }

        // 检查基线、字体或字体大小的变化
        Vector curBaseline = renderInfo.GetBaseline().GetStartPoint();
        Single curFontSize = renderInfo.GetAscentLine().GetEndPoint()[Vector.I2] - curBaseline[Vector.I2];
        if ((this.lastBaseLine == null) || (curBaseline[Vector.I2] != lastBaseLine[Vector.I2]) ||
            (curFontSize != lastFontSize) || (curFont != lastFont))
        {
            // 生成带有更新样式的HTML span
            result.AppendFormat("</code>

Penggunaan:

Untuk menggunakan strategi tersuai, anda boleh menentukannya semasa mengekstrak teks:

<code>PdfReader reader = new PdfReader("MyDocument.pdf");
TextWithFontExtractionStategy strategy = new TextWithFontExtractionStategy();
string textWithFormatting = PdfTextExtractor.GetTextFromPage(reader, 1, strategy);</code>

Output:

Pembolehubah

textWithFormatting akan mengandungi teks yang diekstrak dengan teg HTML yang mencerminkan maklumat pemformatan, termasuk fon dan saiz fon.

Kesimpulan:

Strategi pengekstrakan tersuai ini membolehkan anda mengekstrak teks PDF dengan format yang diingini. Ini ialah alat berkuasa yang boleh digunakan untuk menghasilkan semula teks dan gaya dengan tepat dalam dokumen PDF.

Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Teks dengan Pemformatan daripada PDF Menggunakan iTextSharp?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
C# vs C: Analisis perbandingan bahasa pengaturcaraanC# vs C: Analisis perbandingan bahasa pengaturcaraanMay 04, 2025 am 12:03 AM

Perbezaan utama antara C# dan C ialah sintaks, pengurusan memori dan prestasi: 1) C# sintaks adalah moden, menyokong Lambda dan Linq, dan C mengekalkan ciri -ciri C dan menyokong templat. 2) C# secara automatik menguruskan memori, C perlu diuruskan secara manual. 3) Prestasi C lebih baik daripada C#, tetapi prestasi C# juga dioptimumkan.

Membina Aplikasi XML dengan C: Contoh PraktikalMembina Aplikasi XML dengan C: Contoh PraktikalMay 03, 2025 am 12:16 AM

Anda boleh menggunakan perpustakaan TinyXML, PuGixML, atau libxml2 untuk memproses data XML dalam C. 1) Parse XML Files: Gunakan kaedah DOM atau SAX, DOM sesuai untuk fail kecil, dan SAX sesuai untuk fail besar. 2) Menjana fail XML: Tukar struktur data ke dalam format XML dan tulis ke fail. Melalui langkah -langkah ini, data XML dapat diuruskan dan dimanipulasi dengan berkesan.

XML di C: Mengendalikan struktur data kompleksXML di C: Mengendalikan struktur data kompleksMay 02, 2025 am 12:04 AM

Bekerja dengan struktur data XML di C boleh menggunakan perpustakaan TinyXML atau PugixML. 1) Gunakan perpustakaan PugixML untuk menghuraikan dan menghasilkan fail XML. 2) Mengendalikan elemen XML bersarang kompleks, seperti maklumat buku. 3) Mengoptimumkan kod pemprosesan XML, dan disyorkan untuk menggunakan perpustakaan yang cekap dan parsing streaming. Melalui langkah -langkah ini, data XML dapat diproses dengan cekap.

C dan prestasi: di mana ia masih menguasaiC dan prestasi: di mana ia masih menguasaiMay 01, 2025 am 12:14 AM

C masih menguasai pengoptimuman prestasi kerana pengurusan memori peringkat rendah dan keupayaan pelaksanaan yang cekap menjadikannya sangat diperlukan dalam pembangunan permainan, sistem transaksi kewangan dan sistem tertanam. Khususnya, ia ditunjukkan sebagai: 1) dalam pembangunan permainan, pengurusan memori peringkat rendah C dan keupayaan pelaksanaan yang cekap menjadikannya bahasa pilihan untuk pembangunan enjin permainan; 2) Dalam sistem transaksi kewangan, kelebihan prestasi C memastikan latensi yang sangat rendah dan throughput yang tinggi; 3) Dalam sistem tertanam, pengurusan memori peringkat rendah C dan keupayaan pelaksanaan yang cekap menjadikannya sangat popular dalam persekitaran yang terkawal sumber.

Rangka Kerja C XML: Memilih yang sesuai untuk andaRangka Kerja C XML: Memilih yang sesuai untuk andaApr 30, 2025 am 12:01 AM

Pilihan kerangka C XML harus berdasarkan keperluan projek. 1) TinyXML sesuai untuk persekitaran yang terkawal sumber, 2) PugixML sesuai untuk keperluan berprestasi tinggi, 3) Xerces-C menyokong pengesahan XMLSchema kompleks, dan prestasi, kemudahan penggunaan dan lesen mesti dipertimbangkan ketika memilih.

C# vs C: Memilih bahasa yang sesuai untuk projek andaC# vs C: Memilih bahasa yang sesuai untuk projek andaApr 29, 2025 am 12:51 AM

C# sesuai untuk projek yang memerlukan kecekapan pembangunan dan keselamatan jenis, manakala C sesuai untuk projek yang memerlukan prestasi tinggi dan kawalan perkakasan. 1) C# menyediakan koleksi sampah dan LINQ, sesuai untuk aplikasi perusahaan dan pembangunan Windows. 2) C dikenali dengan prestasi tinggi dan kawalan asasnya, dan digunakan secara meluas dalam pengaturcaraan permainan dan sistem.

Cara Mengoptimumkan KodCara Mengoptimumkan KodApr 28, 2025 pm 10:27 PM

Pengoptimuman kod C boleh dicapai melalui strategi berikut: 1. Menguruskan memori secara manual untuk penggunaan pengoptimuman; 2. Tulis kod yang mematuhi peraturan pengoptimuman pengkompil; 3. Pilih algoritma dan struktur data yang sesuai; 4. Gunakan fungsi inline untuk mengurangkan overhead panggilan; 5. Memohon template metaprogramming untuk mengoptimumkan pada masa penyusunan; 6. Elakkan penyalinan yang tidak perlu, gunakan semantik bergerak dan parameter rujukan; 7. Gunakan Const dengan betul untuk membantu pengoptimuman pengkompil; 8. Pilih struktur data yang sesuai, seperti STD :: vektor.

Bagaimana untuk memahami kata kunci yang tidak menentu di C?Bagaimana untuk memahami kata kunci yang tidak menentu di C?Apr 28, 2025 pm 10:24 PM

Kata kunci yang tidak menentu dalam C digunakan untuk memaklumkan pengkompil bahawa nilai pembolehubah boleh diubah di luar kawalan kod dan oleh itu tidak dapat dioptimumkan. 1) Ia sering digunakan untuk membaca pembolehubah yang boleh diubahsuai oleh perkakasan atau program perkhidmatan mengganggu, seperti keadaan sensor. 2) Tidak menentu tidak dapat menjamin keselamatan multi-thread, dan harus menggunakan kunci mutex atau operasi atom. 3) Menggunakan tidak menentu boleh menyebabkan prestasi sedikit berkurangan, tetapi memastikan ketepatan program.

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Versi Mac WebStorm

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

MantisBT

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.