Rumah > Artikel > Peranti teknologi > Teknologi pengecaman tulisan tangan dan klasifikasi algoritmanya
Kemajuan teknologi pembelajaran mesin pasti akan menggalakkan pembangunan teknologi pengecaman tulisan tangan. Artikel ini akan memfokuskan pada teknologi pengecaman tulisan tangan dan algoritma yang berfungsi dengan baik pada masa ini.
Rangkaian Kapsul ialah salah satu seni bina terkini dan paling maju dalam rangkaian saraf dan dianggap penambahbaikan berbanding teknik pembelajaran mesin sedia ada.
Lapisan gabungan dalam blok konvolusi digunakan untuk mengurangkan dimensi data dan mencapai invarian ruang untuk mengenal pasti dan mengelaskan objek dalam imej. Walau bagaimanapun, kelemahan pengumpulan ialah sejumlah besar maklumat spatial tentang putaran objek, kedudukan, skala dan sifat kedudukan lain hilang dalam proses. Oleh itu, walaupun ketepatan klasifikasi imej adalah tinggi, prestasi mengesan lokasi tepat objek dalam imej adalah lemah.
Kapsul ialah modul neuron yang digunakan untuk menyimpan maklumat tentang kedudukan, putaran, skala dan maklumat lain objek dalam ruang vektor berdimensi tinggi. Setiap dimensi mewakili ciri khas objek.
Inti yang menjana peta ciri dan mengekstrak ciri visual berfungsi dengan penghalaan dinamik dengan menggabungkan pendapat individu berbilang kumpulan yang dipanggil kapsul. Ini menghasilkan varians yang sama antara kernel dan meningkatkan prestasi berbanding CNN.
Inti yang menjana peta ciri dan mengekstrak ciri visual berfungsi dengan penghalaan dinamik dengan menggabungkan pendapat individu daripada berbilang kumpulan (dipanggil kapsul). Ini menghasilkan kesetaraan antara kernel dan prestasi yang lebih baik berbanding CNN.
RNN/LSTM (Long Short-Term Memory) memproses data berjujukan terhad kepada pemprosesan data satu dimensi, seperti teks, dan ia tidak boleh dilanjutkan terus ke imej.
RNN berbilang dimensi boleh menggantikan satu sambungan berulang dalam RNN standard dengan seberapa banyak unit berulang kerana terdapat dimensi dalam data.
Semasa hantaran ke hadapan, pada setiap titik dalam jujukan data, lapisan tersembunyi rangkaian menerima input luaran dan pengaktifannya sendiri, yang dilakukan satu langkah ke belakang dari satu dimensi.
Masalah utama dalam sistem pengecaman adalah untuk menukar imej dua dimensi kepada jujukan label satu dimensi. Ini dilakukan dengan menghantar data input kepada hierarki lapisan MDRNN. Memilih ketinggian blok secara beransur-ansur meruntuhkan imej 2D ke urutan 1D, yang kemudiannya boleh dilabelkan oleh lapisan output.
Rangkaian saraf berulang berbilang dimensi direka bentuk untuk menjadikan model bahasa teguh kepada setiap gabungan dimensi input, seperti putaran imej dan ricih, kekaburan pukulan dan herotan setempat bagi gaya tulisan tangan yang berbeza, dan membolehkannya membina berbilang dimensi Modular secara fleksibel konteks.
Ini ialah algoritma yang mengendalikan tugas seperti pengecaman pertuturan, pengecaman tulisan tangan, dll., memetakan keseluruhan data input ke kelas/teks output.
Kaedah pengecaman tradisional melibatkan pemetaan imej kepada teks yang sepadan, namun kami tidak tahu bagaimana tompok imej diselaraskan dengan aksara. CTC boleh dipintas tanpa mengetahui bagaimana bahagian tertentu audio pertuturan atau imej tulisan tangan sejajar dengan aksara tertentu.
Input kepada algoritma ialah perwakilan vektor bagi imej teks tulisan tangan. Tiada penjajaran langsung antara perwakilan piksel imej dan jujukan aksara. CTC bertujuan untuk mencari pemetaan ini dengan menjumlahkan kebarangkalian semua penjajaran yang mungkin antara mereka.
Model yang dilatih menggunakan CTC biasanya menggunakan rangkaian saraf berulang untuk menganggarkan kebarangkalian pada setiap langkah masa kerana rangkaian saraf berulang mengambil kira konteks dalam input. Ia mengeluarkan skor aksara untuk setiap elemen jujukan, diwakili oleh matriks.
Untuk penyahkodan kita boleh menggunakan:
Penyahkodan Laluan Terbaik: Melibatkan ayat ramalan dengan menggabungkan aksara yang paling berkemungkinan bagi setiap cap masa untuk membentuk perkataan yang lengkap, menghasilkan laluan terbaik. Dalam lelaran latihan seterusnya, aksara berulang dan ruang dialih keluar untuk penyahkodan teks yang lebih baik.
Dekoder Carian Rasuk: Mencadangkan berbilang laluan output dengan kebarangkalian tertinggi. Laluan dengan kebarangkalian yang lebih kecil dibuang untuk memastikan saiz rasuk tetap. Hasil yang diperoleh melalui kaedah ini lebih tepat dan sering digabungkan dengan model bahasa untuk memberikan hasil yang bermakna.
Model pengubah menggunakan strategi berbeza, menggunakan perhatian diri untuk mengingati keseluruhan urutan. Kaedah tulisan tangan bukan kitaran boleh dilaksanakan menggunakan model transformer.
Model Transformer menggabungkan lapisan perhatian diri berbilang kepala pada lapisan visual dan lapisan teks untuk mempelajari kebergantungan berkaitan model bahasa bagi jujukan aksara yang akan dinyahkodkan. Pengetahuan bahasa tertanam dalam model itu sendiri, jadi tidak perlu sebarang langkah pemprosesan tambahan menggunakan model bahasa Ia juga sesuai untuk meramalkan output yang bukan sebahagian daripada perbendaharaan kata.
Seni bina ini mempunyai dua bahagian:
Terjemah teks, yang mengeluarkan aksara yang dinyahkod dengan memberi perhatian kepada ciri visual dan berkaitan bahasa antara satu sama lain.
Pengekod ciri visual, direka untuk mengekstrak maklumat yang berkaitan daripada imej teks tulisan tangan dengan memfokuskan pada pelbagai kedudukan watak dan maklumat kontekstualnya.
Melatih sistem pengecaman tulisan tangan sentiasa bermasalah dengan kekurangan data latihan Untuk menyelesaikan masalah ini, kaedah ini menggunakan vektor ciri yang telah dilatih sebagai titik permulaan. Model terkini menggunakan mekanisme perhatian bersama-sama dengan RNN untuk menumpukan pada ciri berguna bagi setiap cap masa.
Seni bina model lengkap boleh dibahagikan kepada empat peringkat: menormalkan imej teks input, pengekodan imej input yang dinormalkan ke dalam peta ciri visual 2D, penyahkodan menggunakan LSTM dua arah untuk pemodelan berjujukan, penyahkod Vektor output maklumat kontekstual ditukar ke dalam perkataan.
Ini ialah kaedah untuk pengecaman tulisan tangan hujung ke hujung menggunakan mekanisme perhatian. Ia mengimbas seluruh halaman sekaligus. Oleh itu, ia tidak bergantung pada pembahagian keseluruhan perkataan kepada aksara atau baris terlebih dahulu. Kaedah ini menggunakan seni bina LSTM (MDLSTM) multidimensi sebagai pengekstrak ciri yang serupa dengan di atas. Satu-satunya perbezaan ialah lapisan terakhir, di mana peta ciri yang diekstrak dilipat secara menegak dan fungsi pengaktifan softmax digunakan untuk mengenal pasti teks yang sepadan.
Model perhatian yang digunakan di sini ialah gabungan hibrid perhatian berasaskan kandungan dan perhatian berasaskan lokasi. Modul LSTM penyahkod mengambil keadaan sebelumnya dan peta perhatian serta ciri pengekod untuk menjana aksara keluaran akhir dan vektor keadaan untuk ramalan seterusnya.
Ini ialah model urutan-ke-jujukan untuk pengecaman teks tulisan tangan berdasarkan mekanisme perhatian. Seni bina terdiri daripada tiga bahagian utama:
Rangkaian saraf berulang adalah paling sesuai untuk ciri temporal teks. Apabila dipasangkan dengan seni bina berulang sedemikian, mekanisme perhatian memainkan peranan penting dalam memfokuskan pada ciri yang betul pada setiap langkah masa.
Penjanaan tulisan tangan sintetik boleh menjana teks tulisan tangan yang realistik, yang boleh digunakan untuk meningkatkan set data sedia ada.
Model pembelajaran mendalam memerlukan sejumlah besar data untuk dilatih, dan mendapatkan korpus besar imej tulisan tangan beranotasi dalam bahasa berbeza adalah tugas yang membosankan. Kita boleh menyelesaikan masalah ini dengan menggunakan rangkaian musuh generatif untuk menjana data latihan.
ScrabbleGAN ialah kaedah separa seliaan untuk mensintesis imej teks tulisan tangan. Ia bergantung pada model generatif yang boleh menjana imej perkataan dengan panjang sewenang-wenang menggunakan rangkaian konvolusi sepenuhnya.
Atas ialah kandungan terperinci Teknologi pengecaman tulisan tangan dan klasifikasi algoritmanya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!