


Baca kandungan PDF dengan tepat
Apabila bekerja dengan fail PDF, pengekstrakan kandungan yang tepat adalah penting. Walau bagaimanapun, pengekodan aksara tertentu boleh menimbulkan cabaran, terutamanya apabila menggunakan teks bukan bahasa Inggeris. Artikel ini meneroka mengekstrak teks Parsi atau Arab daripada PDF menggunakan iTextSharp.
Masalah: Pengekodan tidak sepadan
Coretan kod asal menyediakan percubaan untuk membaca kandungan PDF menggunakan iTextSharp. Walau bagaimanapun, apabila berurusan dengan teks bukan bahasa Inggeris, hasilnya sering bercelaru. Masalahnya berpunca daripada ketidakpadanan pengekodan semasa penukaran bait kepada rentetan.
Penyelesaian: Alih keluar transkod
Penyelesaian terletak pada mengalih keluar baris penukaran pengekodan daripada kod, yang cuba menukar bait daripada pengekodan lalai kepada UTF-8. Penukaran ini tidak diperlukan dan boleh menyebabkan ralat. Dengan menghapuskan baris ini, kod memproses teks sebagai Unicode dengan betul.
Berikut ialah kod yang diperbetulkan:
public string ReadPdfFile(string fileName) { StringBuilder text = new StringBuilder(); if (File.Exists(fileName)) { PdfReader pdfReader = new PdfReader(fileName); for (int page = 1; page <= pdfReader.NumberOfPages; page++) { text.Append(pdfReader.GetPlainText(page)); } } return text.ToString(); }
Nota lain
Selain menyelesaikan isu pengekodan, ia juga penting untuk memastikan aplikasi paparan teks menyokong Unicode. Anda juga patut menyemak bahawa anda menggunakan versi terkini iTextSharp.
Kesimpulan
iTextSharp boleh mengekstrak teks bukan bahasa Inggeris dengan tepat daripada PDF dengan menghapuskan baris penukaran pengekodan. Ingat untuk mengesahkan sokongan Unicode dalam aplikasi paparan anda dan gunakan versi iTextSharp terkini untuk prestasi terbaik. Kaedah ini akan memastikan pengekstrakan kandungan PDF yang lancar dan betul dalam pelbagai bahasa.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengekstrak Teks Parsi atau Arab dengan Tepat daripada PDF Menggunakan iTextSharp?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Butiran artikel ini C jenis pulangan fungsi, merangkumi asas (int, float, char, dan lain -lain), diperolehi (tatasusunan, petunjuk, struktur), dan jenis kekosongan. Pengkompil menentukan jenis pulangan melalui pengisytiharan fungsi dan pernyataan pulangan, menguatkuasakan

GULC adalah perpustakaan C berprestasi tinggi yang mengutamakan overhead yang minimum, inlining agresif, dan pengoptimuman pengkompil. Sesuai untuk aplikasi kritikal prestasi seperti perdagangan frekuensi tinggi dan sistem tertanam, reka bentuknya menekankan kesederhanaan, modul

Artikel ini menerangkan perisytiharan fungsi C vs definisi, argumen lulus (dengan nilai dan penunjuk), nilai pulangan, dan perangkap umum seperti kebocoran memori dan jenis ketidakcocokan. Ia menekankan pentingnya pengisytiharan modularity dan provi

Butiran artikel ini C berfungsi untuk penukaran kes rentetan. Ia menerangkan menggunakan ToUpper () dan Tolower () dari CType.H, meleleh melalui rentetan, dan mengendalikan terminator null. Perangkap biasa seperti melupakan ctype.h dan mengubahsuai literal rentetan adalah

Artikel ini mengkaji fungsi penyimpanan nilai pulangan C. Nilai pulangan kecil biasanya disimpan dalam daftar untuk kelajuan; Nilai yang lebih besar boleh menggunakan petunjuk untuk memori (timbunan atau timbunan), memberi kesan kepada seumur hidup dan memerlukan pengurusan memori manual. Secara langsung acc

Artikel ini menganalisis kegunaan pelbagai kata sifat "berbeza," meneroka fungsi tatabahasa, frasa umum (mis., "Berbeza," "berbeza"), dan aplikasi bernuansa dalam formal vs tidak formal

Artikel ini menerangkan Perpustakaan Templat St Standard (STL), yang memberi tumpuan kepada komponen terasnya: bekas, iterator, algoritma, dan functors. Ia memperincikan bagaimana ini berinteraksi untuk membolehkan pengaturcaraan generik, meningkatkan kecekapan kod dan kebolehbacaan t

Artikel ini memperincikan penggunaan algoritma STL yang cekap dalam c. Ia menekankan pilihan struktur data (vektor vs senarai), analisis kerumitan algoritma (mis., Std :: Sort vs Std :: partial_sort), penggunaan iterator, dan pelaksanaan selari. Perangkap biasa seperti


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

MantisBT
Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

PhpStorm versi Mac
Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

VSCode Windows 64-bit Muat Turun
Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular
