Rumah >Peranti teknologi >AI >iFLYTEK ICDAR 2023: Pengiktirafan imej dan teks mencapai kegemilangan yang lebih besar sekali lagi, memenangi empat kejuaraan
ICDAR 2023 (International Conference on Document Analysis and Recognition) Sebagai salah satu persidangan antarabangsa terpenting dalam bidang analisis dan pengiktirafan imej dokumen, berita menarik datang baru-baru ini:
iFlytek Research The institute dan Pusat Penyelidikan Kejuruteraan Kebangsaan bagi Pemprosesan Maklumat Pertuturan dan Bahasa (selepas ini dirujuk sebagai Pusat Penyelidikan) Universiti Sains dan Teknologi China (selepas ini dirujuk sebagai Pusat Penyelidikan) memenangi empat kejohanan dalam tiga pertandingan: formula berbilang baris pengecaman, lokasi dan pengekstrakan maklumat dokumen, dan pengekstrakan maklumat teks berstruktur.
MLHME之冠: Fokus pada "tulisan berbilang baris" dan terobos dalam kerumitan
#🎜🎜🎜##🎜 ( Pertandingan pengecaman formula berbilang baris) menguji ketepatan output algoritma yang sepadan dengan rentetan LaTex selepas memasukkan imej yang mengandungi formula matematik tulisan tangan. Perlu dinyatakan bahawa berbanding dengan pertandingan pengecaman formula matematik sebelum ini, pertandingan ini telah menetapkan "penulisan berbilang baris" sebagai cabaran utama buat kali pertama dalam industri Berbeza daripada formula sebelum ini untuk mengenali tulisan tangan yang diimbas dan dalam talian, kali ini akan mengenali tulisan tangan bergambar Terutamanya formula berbilang baris. Pasukan pengiktirafan imej dan teks Institut Penyelidikan iFlytek memenangi kejuaraan dengan markah 67.9%, dan jauh mendahului penunjuk penilaian utama- kadar panggil balik formula Lebih daripada pasukan lain yang mengambil bahagian Kadar panggil balik formula sepadan dengan Keputusan Hantar dalam senarai Formula berbilang baris berbanding dengan struktur satu baris Kerumitan adalah lebih tinggi, dan saiz akan berubah apabila watak yang sama muncul berbilang kali dalam formula pada masa yang sama, set data yang digunakan dalam pertandingan berasal dari adegan sebenar, dan gambar formula tulisan tangan yang diambil mempunyai kualiti rendah, gangguan latar belakang, gangguan teks, Isu seperti calitan dan gangguan anotasi. Faktor-faktor ini menjadikan permainan lebih sukar. Struktur formula adalah kompleks dan mengambil beberapa baris#🎜 Kualiti gambar tidak bagus Tinggi, gangguan pembetulan
Sebagai tindak balas kepada masalah bahawa struktur formula adalah kompleks dan menduduki berbilang baris, pasukan menggunakan Conv2former dengan kernel lilitan besar sebagai struktur pengekod, yang mengembang bidang pandangan model dan lebih baik menangkap struktur formula berbilang baris. Ciri-ciri inovatif mencadangkan SSD penyahkod jujukan berstruktur berasaskan pengubah, yang secara eksplisit memodelkan perhubungan hierarki dalam formula berbilang baris dengan cara yang diperhalusi, meningkatkan generalisasi dengan lebih baik. struktur kompleks dan pemodelan struktur yang lebih baik.
Sebagai tindak balas kepada masalah kekaburan watak yang disebabkan oleh masalah kualiti gambar, pasukan secara inovatif mencadangkan algoritma latihan penyahkod yang dipertingkatkan secara semantik Melalui latihan bersama semantik dan penglihatan, penyahkod mempunyai pengetahuan domain intrinsik. Apabila aksara sukar dikenal pasti, model boleh menyesuaikan diri menggunakan pengetahuan domain untuk membuat inferens dan memberikan hasil pengiktirafan yang paling munasabah.
Untuk menangani masalah perubahan saiz aksara yang besar, pasukan mencadangkan algoritma anggaran skala aksara adaptif dan strategi penyahkodan gabungan berbilang skala, yang telah meningkatkan keteguhan model kepada perubahan dalam saiz aksara.
DocILEMahkota: "Pilih satu dalam barisan", pertandingan berkembar kedudukan maklumat dan pengekstrakan maklumat mendahului senarai# 🎜🎜 #DocILE (Lokasi Maklumat Dokumen dan Pertandingan Pengekstrakan) menilai prestasi kaedah pembelajaran mesin dalam mencari, mengekstrak dan mengenal pasti item baris maklumat utama dalam dokumen perniagaan separa berstruktur.
Permainan ini dibahagikan kepada dua tugasan trek: KILE dan LIR. Tugas KILE perlu mencari lokasi maklumat utama bagi kategori yang dipratentukan dalam dokumen Atas dasar ini, tugasan LIR selanjutnya mengumpulkan setiap maklumat utama ke dalam item baris yang berbeza (Item Baris), seperti objek tunggal (kuantiti, harga) dalam satu. baris dalam meja )tunggu. iFlytek dan Pusat Penyelidikan akhirnya memenangi kejuaraan dalam dua treksenarai trek KILE
ranking trek LIR
Kiri adalah penerangan trek KILE, kanan adalah penerangan trek LIR
Daripada rasmi acara Boleh dilihat daripada gambarajah tugasan bahawa jenis maklumat yang akan diekstrak daripada dokumen adalah sangat kompleks. Antaranya, tugas KILE bukan sahaja perlu mengekstrak maklumat utama bagi kategori yang telah ditetapkan, tetapi juga mendapatkan lokasi khusus maklumat utama dalam tugasan LIR, item baris mungkin mempunyai berbilang baris teks dalam satu jadual. Di samping itu, terdapat banyak jenis maklumat dan format dokumen yang kompleks dan pelbagai dalam set data pertandingan ini, yang sangat meningkatkan cabaran. Pasukan bersama mencadangkan dua penyelesaian inovasi teknikal di peringkat algoritma:Dalam peringkat pra-latihan, kami mereka bentuk penapis dokumen berdasarkan kualiti OCR dengan mengekstrak 2.74 juta halaman imej dokumen daripada dokumen tanpa nota yang disediakan oleh penganjur. Kemudian, kami menggunakan model bahasa pra-latihan untuk mendapatkan perwakilan semantik setiap baris teks dalam dokumen, dan menggunakan tugas pemulihan perwakilan ayat bertopeng, pra-latihan di bawah konfigurasi Top-K yang berbeza (jangka perhatian dokumen dalam GraphDoc model (hiperparameter)
Dalam peringkat penalaan halus set data, pasukan menggunakan GraphDoc terlatih untuk mengekstrak perwakilan berbilang mod kotak teks dan melaksanakan operasi pengelasan. Berdasarkan keputusan pengelasan, perwakilan berbilang mod dihantar ke modul gabungan perhatian peringkat rendah untuk pengagregatan contoh Berdasarkan pengagregatan contoh, modul gabungan perhatian peringkat tinggi digunakan untuk merealisasikan pengagregatan kejadian item baris. Gabungan perhatian yang dicadangkan Modul mempunyai struktur yang sama tetapi tidak berkongsi parameter antara satu sama lain Ia boleh digunakan untuk kedua-dua tugas KILE dan LIR dengan hasil yang baik. . tugasan, iFlytek Memenangi tempat pertama dalam subtrek pengekstrakan maklumat berstruktur sifar sampel yang sangat sukar (Tugas3: E2E pengekstrakan teks berstruktur sifar sampel) dengan pusat penyelidikan
tertib kedudukan dalam jenis berlainan yang ditetapkan secara rasmi invois yang perlu diekstrak Dalam konteks elemen utama, trek memerlukan pasukan yang mengambil bahagian untuk menggunakan model untuk mengeluarkan kandungan yang sepadan bagi elemen utama ini dalam gambar "Sampel sifar" bermakna tiada pertindihan antara jenis invois set latihan dan set ujian; trek meneliti ramalan hujung ke hujung model Untuk ketepatan, ambil purata wajaran skor1 dan skor2 sebagai indeks penilaian akhir. Untuk model pra-latihan, sampel sifar mengemukakan keperluan yang lebih tinggi. Pada masa yang sama, terdapat pelbagai format invois yang digunakan dalam pertandingan, dan nama perhentian perjalanan, masa berlepas dan elemen lain dalam setiap format adalah berbeza. Selain itu, foto invois mempunyai masalah seperti gangguan latar belakang, pantulan dan pertindihan teks, yang meningkatkan lagi kesukaran pengenalan dan pengekstrakan
Invois dalam format berbeza
Invois diganggu oleh latar belakang berjalur. Pasukan pada mulanya menerima pakai Strategi penyahkodan dwi-cawangan jana salinan digunakan untuk melaksanakan model pengekstrakan ciri Apabila keyakinan hasil OCR bahagian hadapan adalah tinggi, hasil OCR disalin secara langsung apabila keyakinan hasil OCR adalah rendah , hasil ramalan baharu dijana untuk mengurangkan ralat Pengecaman bahagian hadapan yang diperkenalkan oleh model OCRSelain itu, pasukan itu juga mengekstrak ciri graf graf peringkat ayat berdasarkan hasil OCR sebagai input kepada model pengekstrakan ciri ini menyepadukan ciri berbilang modal imej, teks, lokasi dan reka letak Berbanding dengan mod tunggal Input teks biasa mempunyai perwakilan ciri yang lebih kukuh.Atas dasar ini, pasukan juga menggabungkan model pengekstrakan berbilang elemen seperti UniLM, LiLT dan DocPrompt untuk meningkatkan lagi kesan pengekstrakan elemen akhir, membolehkannya menunjukkan kelebihan prestasi yang lebih baik dalam senario dan bahasa yang berbeza
Pendidikan, kewangan, penjagaan perubatan, dsb. telah dilaksanakan untuk membantu model besar meningkatkan keupayaan pelbagai modPemilihan acara yang berkaitan ICDAR 2023 untuk cabaran datang daripada keperluan senario sebenar iFlytek dalam perniagaan sebenar yang berkaitan dengan teknologi; juga telah menembusi bidang seperti pendidikan, kewangan, penjagaan perubatan, keadilan, dan perkakasan pintar, memperkasakan pelbagai perniagaan dan produk. Dalam bidang pendidikan, keupayaan teknikal pengecaman formula tulisan tangan kerap digunakan, dan mesin boleh memberikan pengenalan, pertimbangan dan pembetulan yang tepat. Contohnya, pembelajaran ketepatan yang diperibadikan dan diagnosis AI dalam mesin pembelajaran AI iFlytek; skrin pengajaran "iFlytek Smart Window" yang digunakan oleh guru di dalam kelas, dan manual pembelajaran peribadi pelajar, dsb., semuanya telah mencapai hasil yang hebat
Tidak lama dahulu, Pembantu Penyelidik Saintifik Spark telah dikeluarkan di forum utama Festival Pembangun iFlytek Global 1024 Salah satu daripada tiga fungsi teras pembacaan kertas boleh merealisasikan tafsiran pintar kertas dan menjawab soalan berkaitan dengan pantas. Selepas itu, berdasarkan pengecaman formula berketepatan tinggi, kesan formula struktur kimia organik, grafik, ikon, carta alir, jadual dan pengecaman pemandangan berstruktur lain akan dimajukan dengan lebih baik
Teknologi penentududukan dan pengekstrakan maklumat dokumen digunakan secara meluas dalam bidang kewangan, seperti pengekstrakan dan semakan elemen kontrak, pengekstrakan elemen bil bank, semakan perlindungan pengguna kandungan pemasaran dan senario lain. Teknologi ini boleh merealisasikan fungsi seperti analisis data, pengekstrakan maklumat dan semakan perbandingan dokumen atau fail, dan membantu data perniagaan dimasukkan, diekstrak dan dibandingkan dengan cepat, seterusnya meningkatkan kecekapan proses semakan dan mengurangkan kos Dalam ini 1024 utama Pembantu kesihatan AI peribadi yang disiarkan di forum ialah iFlytek Xiaoyi. Ia bukan sahaja boleh mengimbas senarai semak dan pesanan ujian dan memberikan analisis dan cadangan, tetapi ia juga boleh mengimbas kotak pil dan membuat pertanyaan lanjut dan memberikan cadangan ubat tambahan. Untuk laporan pemeriksaan fizikal, pengguna boleh mengambil gambar dan memuat naiknya, dan iFlytek Xiaoyi boleh mengenal pasti maklumat penting, mentafsir petunjuk abnormal secara menyeluruh, bertanya secara proaktif dan memberikan lebih banyak bantuan. Fungsi ini bergantung pada sokongan kedudukan maklumat dokumen dan teknologi pengekstrakan teknologi pengecaman imej dan teks iFlytek terus membuat penemuan dalam algoritma, daripada pengecaman perkataan tunggal dan pengecaman baris teks kepada pengecaman struktur dua dimensi dan pengecaman bab yang lebih kompleks . Teknologi pengecaman imej dan teks yang lebih berkuasa boleh meningkatkan kesan dan potensi model besar berbilang modal dalam penerangan imej, soalan dan jawapan imej, penciptaan pengecaman imej, pemahaman dan pemprosesan dokumen, dll. Pada masa yang sama, teknologi pengecaman imej dan teks juga menggabungkan pengecaman pertuturan, Sintesis pertuturan, terjemahan mesin dan teknologi lain telah membentuk inovasi yang sistematik, dan produk yang diperkasakan telah menunjukkan fungsi yang lebih berkuasa dan kelebihan nilai yang lebih jelas selepas permohonan juga memenangi hadiah pertama Anugerah Kemajuan Teknologi Kecerdasan Buatan Wu Wenjun 2022. . Dalam perjalanan baharu itu, "lebih mekar" dalam beberapa pertandingan ICDAR 2023 bukan sahaja maklum balas daripada kemajuan berterusan iFlytek dalam kedalaman teknologi pengecaman dan pemahaman imej dan teks, tetapi juga pengesahan pengembangan berterusannya secara meluas.
Atas ialah kandungan terperinci iFLYTEK ICDAR 2023: Pengiktirafan imej dan teks mencapai kegemilangan yang lebih besar sekali lagi, memenangi empat kejuaraan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!