Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimanakah Saya Boleh Mengekstrak Jadual Berstruktur daripada PDF dengan Isu Fon dan Teks Bukan Bahasa Inggeris?
Soalan:
Walaupun mencuba kaedah yang berbeza, anda tidak dapat mengekstrak jadual berstruktur data daripada dokumen PDF. Khususnya, menukar PDF kepada HTML menghasilkan hasil yang tidak memuaskan kerana isu fon dan teks bukan bahasa Inggeris. Selain itu, mengekstrak berdasarkan koordinat XY adalah tidak praktikal kerana kemungkinan peletakan jadual yang berbeza-beza dalam PDF akan datang.
Analisis Pakar:
Tidak seperti hamparan berstruktur, PDF kekurangan data jadual yang jelas. Sebaliknya, mereka membentangkan gabungan garis dan glif watak yang manusia anggap sebagai jadual. Mengekstrak data jadual memerlukan teknik pengecaman pengiraan yang serupa dengan persepsi manusia.
Dalam keadaan tertentu, apabila PDF secara konsisten mengikut format tertentu, adalah mungkin untuk mengenal pasti corak dan membangunkan peraturan untuk mengecam kandungan jadual. Walau bagaimanapun, dokumen PDF yang disediakan memberikan cabaran selanjutnya:
Isu Fon Terbenam:
PDF mengandungi teks yang tidak dikodkan menggunakan WinAnsiEncoding yang dituntut. Percanggahan ini mengakibatkan aksara yang tidak dapat diramalkan diekstrak, menjadikan pengambilan teks langsung tidak praktikal.
Had Pengekstrakan Teks:
Menyalin dan menampal daripada Adobe Reader, alat pengekstrakan teks yang boleh dipercayai, juga gagal membuahkan hasil yang bermakna. Ini menunjukkan bahawa pengekstrakan teks tanpa pengecaman aksara optik (OCR) tidak boleh dilaksanakan dalam kes ini.
Oleh itu, pengekstrakan jadual berstruktur daripada dokumen PDF anda, tanpa menggunakan OCR, tidak boleh dilakukan pada masa ini.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengekstrak Jadual Berstruktur daripada PDF dengan Isu Fon dan Teks Bukan Bahasa Inggeris?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!