Rumah > Artikel > Peranti teknologi > Teknologi pengecaman aksara optik: prinsip dan aplikasi
Pengecaman aksara optik (OCR) ialah salah satu teknologi penting untuk mendigitalkan dokumen. Ia menggunakan penglihatan komputer untuk mengesan dan membaca teks dalam imej, digabungkan dengan algoritma pemprosesan bahasa semula jadi untuk mentafsir dan memahami perkara yang disampaikan oleh dokumen. Artikel ini akan memperkenalkan prinsip dan aplikasi teknologi OCR secara terperinci.
Pendekatan berasaskan pembelajaran mesin
Walaupun kaedah berasaskan pembelajaran mesin pantas dibangunkan, ia mengambil masa yang lebih lama untuk dijalankan, dan ketepatannya adalah mudah dan inferens dikompromi oleh pembelajaran mendalam Algoritma melampaui.
Kaedah pengecaman aksara optik pra-diproses, dibersihkan dan hingar dikeluarkan, dan kemudian dokumen diduakan untuk pengesanan kontur, membantu pengesanan baris dan lajur.
Akhirnya, aksara diekstrak, dibahagikan dan dikenali melalui pelbagai algoritma pembelajaran mesin seperti jiran terdekat K dan algoritma mesin vektor sokongan. Walaupun ia berfungsi dengan baik pada set data OCR ringkas, ia mungkin gagal apabila memproses set data yang kompleks.
Kaedah berasaskan pembelajaran mendalam
Kaedah ini boleh mengekstrak sebilangan besar ciri dengan berkesan, dan gabungan penglihatan dan algoritma berasaskan NLP amat berjaya untuk tugas seperti pengecaman dan pengesanan teks. Tambahan pula, pendekatan ini menyediakan saluran paip pengesanan hujung ke hujung, membebaskannya daripada langkah prapemprosesan yang panjang.
Secara amnya, kaedah pengecaman aksara optik (OCR) termasuk kaedah berasaskan penglihatan untuk mengekstrak kawasan teks dan meramal koordinat kotak sempadannya. Data kotak sempadan dan ciri imej kemudiannya dihantar ke algoritma pemprosesan bahasa, yang menggunakan RNN, LSTM dan Transformer untuk menyahkod maklumat berasaskan ciri ke dalam data teks.
Pengecaman aksara optik (OCR) berdasarkan pembelajaran mendalam mempunyai dua peringkat - peringkat cadangan wilayah dan peringkat pemprosesan bahasa.
①Fasa Cadangan Wilayah
Fasa pertama melibatkan pengesanan kawasan teks daripada imej. Ini dicapai dengan menggunakan model konvolusi yang mengesan serpihan teks dan melampirkannya dalam kotak sempadan.
Tugas rangkaian di sini adalah serupa dengan rangkaian yang mengekstrak kotak calon dalam algoritma pengesanan sasaran seperti Fast-RCNN, menanda dan mengekstrak kawasan yang berkemungkinan menarik. Kawasan ini digunakan sebagai peta perhatian dan disediakan kepada algoritma pemprosesan bahasa bersama-sama dengan ciri yang diekstrak daripada imej.
②Fasa Pemprosesan Bahasa
Rangkaian berasaskan NLP berfungsi untuk mengekstrak maklumat yang ditangkap dalam kawasan ini dan membina ayat yang bermakna berdasarkan ciri yang disediakan oleh lapisan CNN.
Algoritma yang boleh mengecam aksara secara langsung tanpa melalui langkah ini (berdasarkan CNN semata-mata) telah berjaya diterokai dalam kerja baru-baru ini dan amat berguna untuk mengesan teks yang mempunyai maklumat temporal terhad untuk disampaikan, seperti plat lesen kenderaan.
1 Data denoising
Denoising dengan betul boleh dilakukan dalam pelbagai cara, antaranya Gaussian blur Selamat datang. Bunyi putih tambahan juga boleh dikeluarkan dengan bantuan rangkaian pengekod auto tambahan.
2. Meningkatkan kontras imej
Kontras imej memainkan peranan penting dalam membantu rangkaian saraf membezakan kawasan teks daripada kawasan bukan teks. Meningkatkan perbezaan kontras antara teks dan latar belakang membantu model OCR berprestasi lebih baik.
1. Pengecaman dokumen ialah kes penggunaan OCR yang penting dan biasa, mengesan teks dan mengecamnya.
2. Automasi kemasukan data: Gunakan OCR untuk menangkap data secara berkesan daripada dokumen dan borang, mengautomasikan kemasukan data dan mengurangkan anomali data akibat masalah menaip.
3. Penciptaan Arkib dan Perpustakaan Digital: OCR membantu mencipta perpustakaan digital dengan mengenal pasti kategori yang dimiliki oleh buku atau dokumen. Kategori ini boleh digunakan untuk mencari buku dalam kategori tertentu, membantu pembaca menyemak imbas senarai dengan lancar. Sehubungan itu, OCR membantu dalam mendigitalkan dokumen lama, menjadikan pemeliharaan amat mudah dan selamat.
4. Terjemahan teks: Terjemahan teks ialah bahagian penting dalam OCR, terutamanya pengecaman teks adegan. Modul terjemahan yang ditindih pada output sistem OCR boleh membantu memahami dokumen dalam bahasa yang berbeza.
5. Pengecaman skor muzik: Sistem pengesanan teks boleh dilatih untuk mengesan skor muzik daripada skor muzik, membolehkan mesin memainkan muzik terus daripada maklumat teks. Ini juga boleh digunakan untuk latihan mendengar.
6. Kempen pemasaran: Sistem OCR telah berjaya digunakan dalam kempen pemasaran untuk barangan pengguna yang bergerak pantas dengan melampirkan bahagian teks boleh imbasan pada produk mereka. Apabila diimbas melalui kamera mudah alih atau peranti tangkapan, bahagian teks ini boleh ditukar kepada kod teks sebagai ganti kod promosi.
Atas ialah kandungan terperinci Teknologi pengecaman aksara optik: prinsip dan aplikasi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!