Rumah >Peranti teknologi >AI >Model besar berbilang modal sumber terbuka Megvii menyokong OCR peringkat dokumen, meliputi bahasa Cina dan Inggeris Adakah ia menandakan tamatnya OCR?
Ingin menukar imej dokumen kepada format Markdown?
Pada masa lalu, tugasan ini memerlukan beberapa langkah seperti pengecaman teks, pengesanan susun atur dan pengisihan, pemprosesan jadual formula, pembersihan teks, dll. -
Kali ini, dengan hanya satu ayat perintah, Model besar berbilang modal Vary dihantar terus ke Keputusan output terminal:
gambar
Sama ada teks besar dalam bahasa Cina dan Inggeris:
gambar termasuk rumusan
. model, mengekalkan keupayaan sejagat adalah penting. Gambar
Vary menunjukkan potensi besar dan had atas yang sangat tinggi tidak lagi memerlukan talian paip yang panjang, secara langsung mengeluarkan hujung ke hujung, dan boleh mengeluarkan format yang berbeza seperti lateks. mengikut gesaan pengguna , perkataan, penurunan harga. Dengan pendahuluan bahasa yang kuat, seni bina ini boleh mengelakkan perkataan yang mudah menaip dalam OCR, seperti "leverage" dan "dupole", dsb. Untuk dokumen kabur, dengan bantuan bahasa dahulu, ia juga dijangka mencapai kesan OCR yang lebih kukuh
Projek yang menarik perhatian ramai netizen serta-merta membangkitkan perbincangan meluas sebaik sahaja ia dilancarkan. Salah seorang netizen berseru selepas melihatnya, "Ia sangat hebat!"Gambar
Bagaimana kesan ini dicapai? Diinspirasikan oleh model besar
Pada masa ini, hampir semua model besar berbilang modal menggunakan CLIP sebagai Vision Encoder atau perbendaharaan kata visual. Sesungguhnya, CLIP yang dilatih pada pasangan teks imej 400M mempunyai keupayaan penjajaran teks visual yang kukuh dan boleh merangkumi pengekodan imej dalam kebanyakan tugas harian.
Tetapi untuk tugas persepsi yang padat dan terperinci, seperti OCR peringkat dokumen dan pemahaman carta, terutamanya dalam senario bukan bahasa Inggeris, CLIP menunjukkan isu ketidakcekapan pengekodan dan perbendaharaan kata yang jelas.
Apabila model NLP tulen yang besar (seperti LLaMA) beralih daripada bahasa Inggeris kepada bahasa Cina ("bahasa asing" untuk model besar), kerana pengekodan kosa kata asal bahasa Cina tidak cekap, perbendaharaan kata teks mesti dikembangkan untuk mencapai hasil yang lebih baik. Pasukan penyelidik diilhamkan olehnya Ia adalah tepat kerana ciri ini Kini model besar berbilang modal berdasarkan perbendaharaan kata visual CLIP menghadapi masalah yang sama, menghadapi "imej bahasa asing", seperti halaman teks padat. dalam kertas kerja, sukar untuk mengimbangkan imej dengan cekap. Vary adalah penyelesaian yang disediakan untuk menyelesaikan masalah ini Ia boleh mengembangkan kosa kata visual dengan cekap tanpa membina semula kosa kata asalGambar
Berbeza dengan kaedah sedia ada secara langsung Menggunakan perbendaharaan kata, CLIP yang luar biasa. berfungsi dalam dua peringkat: Pertama, kami akan menggunakan rangkaian penyahkod kecil sahaja pada peringkat pertama untuk menjana perbendaharaan kata visual baharu yang berkuasa secara autoregresif Seterusnya, Pada peringkat kedua, perbendaharaan kata baharu dan perbendaharaan kata CLIP adalah digabungkan untuk melatih LVLM dengan cekap dan memberikan ciri baharuBerikut ialah ilustrasi kaedah latihan dan struktur model Vary:
GambarDengan Dilatih pada set data awam dan carta dokumen yang diberikan, Vary sangat meningkatkan butiran halus keupayaan persepsi visual.
Sambil mengekalkan keupayaan pelbagai mod vanila, ia memberi inspirasi kepada pemahaman menyeluruh tentang gambar Cina dan Inggeris, tangkapan skrin formula dan carta.
Selain itu, pasukan penyelidik mendapati bahawa kandungan halaman yang mungkin pada asalnya memerlukan beribu-ribu token telah dimasukkan melalui imej dokumen, dan maklumat itu dimampatkan menjadi 256 token imej, yang juga memberikan lebih banyak imaginasi untuk analisis halaman selanjutnya dan ruang ringkasan .
Pada masa ini, kod dan model Vary adalah sumber terbuka, dan demo web juga disediakan untuk semua orang mencuba.
Kawan-kawan yang berminat boleh cuba~
Atas ialah kandungan terperinci Model besar berbilang modal sumber terbuka Megvii menyokong OCR peringkat dokumen, meliputi bahasa Cina dan Inggeris Adakah ia menandakan tamatnya OCR?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!