Rumah >Peranti teknologi >AI >Kualiti imej yang membimbangkan mengganggu pengecaman visual, DAMO Academy mencadangkan rangka kerja yang lebih mantap
Artikel ini memperkenalkan kertas kerja "Memperbaiki Latihan dan Inferens Model Pengecaman Wajah melalui Penskalaan Suhu Rawak" yang diterima oleh AAI 2023, persidangan antarabangsa teratas tentang pembelajaran mesin. Makalah ini secara inovatif menganalisis hubungan intrinsik antara parameter pelarasan suhu dan ketidakpastian klasifikasi dalam fungsi kehilangan klasifikasi dari perspektif kebarangkalian, mendedahkan bahawa faktor pelarasan suhu fungsi kehilangan pengelasan ialah pekali skala pembolehubah ketidakpastian yang mematuhi taburan Gumbel. Oleh itu, rangka kerja latihan baharu yang dipanggil RTS dicadangkan untuk memodelkan kebolehpercayaan pengekstrakan ciri. Berdasarkan rangka kerja latihan RTS, model pengecaman yang lebih dipercayai dilatih, menjadikan proses latihan lebih stabil dan menyediakan skor pengukuran ketidakpastian sampel semasa penggunaan untuk menolak sampel yang tidak pasti tinggi dan membantu membina sistem pengenalan penglihatan yang lebih mantap. Eksperimen yang meluas menunjukkan bahawa RTS boleh melatih secara stabil dan mengeluarkan langkah-langkah ketidakpastian untuk membina sistem pengecaman visual yang mantap.
Masalah ketidakpastian: Sistem pengecaman visual biasanya menghadapi pelbagai gangguan dalam adegan sebenar. Contohnya: oklusi (hiasan atau latar depan kompleks), kabur pengimejan (kabur fokus atau kabur gerakan), pencahayaan melampau (pendedahan berlebihan atau kurang pendedahan, dsb.). Gangguan ini boleh diringkaskan sebagai kesan hingar Di samping itu, terdapat gambar yang tidak dikesan, biasanya muka kucing atau muka anjing ini dipanggil data pengedaran luar (OOD). Untuk pengecaman visual, hingar dan data OOD yang dinyatakan di atas merupakan sumber ketidakpastian Sampel yang terjejas akan menimbulkan ketidakpastian pada ciri yang diekstrak berdasarkan model kedalaman, menyebabkan gangguan kepada sistem pengecaman visual. Sebagai contoh, jika imej asas dicemari oleh sampel dengan gangguan yang tidak pasti, "lobang hitam ciri" akan terbentuk, yang akan membawa bahaya tersembunyi kepada sistem pengecaman visual. Oleh itu, terdapat keperluan untuk memodelkan kebolehpercayaan perwakilan.
Penyelesaian berbilang model tradisional
Tradisional The kaedah mengawal kebolehpercayaan dalam pautan pengecaman visual dilakukan melalui model kualiti bebas. Kaedah pemodelan kualiti imej biasa adalah seperti berikut:
1. Kumpul data anotasi untuk menganotasi faktor tertentu yang mempengaruhi kualiti, seperti kejelasan, kehadiran atau ketiadaan oklusi dan postur.
2 Petakan skor kualiti dari 1 hingga 10 mengikut label faktor yang mempengaruhi di sebelah kiri rajah di bawah.
3 Selepas memperoleh anotasi skor kualiti daripada dua langkah pertama, lakukan latihan regresi tertib untuk meramalkan skor kualiti semasa fasa penggunaan, seperti yang ditunjukkan dalam contoh di sebelah kanan. rajah di bawah.
Penyelesaian model kualiti bebas memerlukan pengenalan model baharu dalam pautan pengecaman visual, dan latihan bergantung pada maklumat anotasi.
DUL
Kaedah pemodelan ketidakpastian ialah "Pembelajaran Ketidakpastian Data dalam Pengecaman Wajah". sebagai jumlah min dan varians bagi taburan Gaussian, dan ciri yang mengandungi ketidakpastian dihantar ke pengelas berikutnya untuk latihan. Oleh itu, skor ketidakpastian berkaitan kualiti imej boleh diperoleh semasa peringkat penggunaan.
DUL menggunakan kaedah penjumlahan untuk menerangkan ketidakpastian Skala anggaran hingar juga sama seperti a jenis data tertentu adalah berkait rapat. Sekiranya pengedaran data agak ketat, maka skala hingar yang dianggarkan oleh DUL juga agak kecil. Kerja dalam bidang OOD menunjukkan bahawa ketumpatan pengedaran data bukanlah metrik yang baik untuk pengenalpastian OOD.
GODIN
Kerja dalam bidang OOD "Odin umum: Mengesan imej luar pengedaran tanpa belajar daripada data luar pengedaran" menggunakan bentuk pengedaran kebarangkalian bersama untuk memproses data OOD, menggunakan dua cabang bebas h( x) dan g(x) menganggarkan nilai kebarangkalian pengelasan dan nilai pelarasan suhu.
Memandangkan nilai suhu dimodelkan sebagai nilai kebarangkalian, julat adalah terhad antara 0-1 dan suhu tidak dimodelkan dengan lebih baik .
Sebagai tindak balas kepada masalah di atas dan kerja berkaitan, kertas kerja ini bermula dari perspektif kebarangkalian dan mengkaji hubungan antara faktor pelarasan suhu dan ketidakpastian dalam pengelasan fungsi kehilangan Selepas analisis, rangka kerja latihan RTS dicadangkan.
Analisis faktor pengawalseliaan suhu berdasarkan perspektif kebarangkalian
Mula-mula analisa hubungan antara faktor pelarasan suhu dan ketidakpastian. Anggap bahawa ketidakpastian ialah pembolehubah rawak yang mematuhi taburan Gumbel standard, maka fungsi ketumpatan kebarangkalian boleh ditulis sebagai
,Fungsi taburan kumulatif ialah , dan nilai kebarangkalian dikelaskan ke dalam kelas k ialah:
Masukkan ke dalam formula di atas untuk mendapatkan:
boleh dilihat bahawa nilai kebarangkalian diklasifikasikan ke dalam kelas K adalah skor yang sesuai dengan fungsi softmax. ketidakpastian, iaitu, ia mematuhi taburan Gumbel standard:
Ia boleh dilihat bahawa nilai kebarangkalian kelas k pada masa ini adalah konsisten dengan fungsi softmax dengan nilai pelarasan suhu t Score.
Suhu pemodelan
Untuk mengurangkan kesan anggaran ketidakpastian ke atas pengelasan, suhu t perlu hampir 1, jadi kami model suhu t sebagai jumlah pembolehubah taburan gamma bebas: di mana , supaya t mematuhi
, beta = frac {alpha - 1} {v})$ pengagihan. Pengaruh v dan pada taburan adalah seperti yang ditunjukkan di bawah.
Kekangan pada pemodelan suhu dilaksanakan menggunakan istilah biasa berikut semasa latihan
Algoritma keseluruhan disusun sebagai:
Sila rujuk kertas untuk analisis yang lebih terperinci dan bukti teori.
Dalam fasa latihan, data latihan hanya mengandungi data latihan muka. Data OOD bagi muka kucing dan muka anjing yang dikesan secara palsu digunakan untuk mengesahkan kesan pengecaman data OOD semasa ujian dan ujian menggambarkan proses dinamik ketidakpastian sampel OOD pada peringkat yang berbeza dalam proses latihan.
Fasa latihan
Kami melukis data pengedaran dalam (muka) dan di luar pengedaran skor ketidakpastian data (wajah kucing dan wajah anjing tersilap dikesan sebagai muka) pada nombor zaman yang berbeza Daripada rajah di bawah, anda dapat melihat bahawa skor ketidakpastian semua sampel pada peringkat awal diedarkan berhampiran nilai yang lebih besar, dan kemudian As. latihan diteruskan, ketidakpastian sampel OOD meningkat secara beransur-ansur, dan ketidakpastian data muka secara beransur-ansur berkurangan, dan semakin baik kualiti muka, semakin rendah ketidakpastian. Data ID dan data OOD boleh dibezakan dengan menetapkan ambang, dan kualiti imej dicerminkan oleh skor ketidakpastian.
Untuk menggambarkan keteguhan kepada data latihan yang bising semasa fasa latihan. Artikel ini menggunakan perkadaran bunyi yang berbeza pada set latihan Kesan pengecaman model berdasarkan perkadaran berbeza bagi data latihan hingar adalah seperti berikut. Dapat dilihat bahawa RTS juga boleh mencapai hasil pengecaman yang lebih baik untuk latihan berdasarkan data hingar.
Fasa Penggunaan
Gambar di bawah Ia menunjukkan bahawa skor ketidakpastian yang diperolehi oleh rangka kerja RTS dan kualiti muka semasa fasa penggunaan adalah sangat berkorelasi
Pada masa yang sama, lengkung padanan ralat selepas mengalih keluar sampel berkualiti rendah diplot pada penanda aras. Berdasarkan skor ketidakpastian yang diperoleh, sampel dengan ketidakpastian yang lebih tinggi dalam penanda aras dikeluarkan mengikut urutan ketidakpastian dari tinggi ke rendah, dan kemudian keluk padanan ralat sampel yang tinggal dilukis. Seperti yang dapat dilihat daripada rajah di bawah, apabila lebih banyak sampel dengan ketidakpastian yang lebih tinggi ditapis, terdapat lebih sedikit padanan palsu, dan apabila bilangan sampel ketidakpastian yang sama dialih keluar, RTS mempunyai lebih sedikit padanan palsu.
Untuk mengesahkan kesan pengenalpastian skor ketidakpastian pada sampel OOD, set data dalam pengedaran telah dibina semasa ujian (muka) dan set data luar pengedaran (muka kucing dan muka anjing tersilap dikesan sebagai muka). Sampel data adalah seperti berikut.
Kami menerangkan kesan RTS dari dua aspek. Mula-mula, lukis carta pengedaran ketidakpastian Seperti yang anda lihat daripada rajah di bawah, kaedah RTS mempunyai keupayaan diskriminasi yang kuat untuk data OOD.
Pada masa yang sama, lengkung ROC pada set ujian OOD turut dilukis, dan nilai AUC bagi Kuasa ROC telah dikira, seperti yang anda lihat Skor ketidakpastian RTS boleh mengenal pasti data OOD dengan lebih baik.
Keupayaan pengecaman sejagat
Menguji keupayaan pengecaman umum pada penanda aras, RTS meningkatkan keupayaan pengecaman data OOD tanpa menjejaskan keupayaan pengecaman muka. Menggunakan algoritma RTS boleh mencapai hasil yang seimbang dalam pengenalan dan pengenalan data OOD.
Ini artikel Model ini adalah sumber terbuka pada modelscope. Di samping itu, saya ingin memperkenalkan kepada anda model percuma sumber terbuka pada domain CV Semua orang dialu-alukan untuk mengalami dan memuat turun (anda boleh mengalaminya pada kebanyakan telefon mudah alih):
. 1. https://modelscope.cn/ models/damo/cv_resnet50_face-detection_retinaface/summary
2.https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvprface/22pary
3.https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary
4.https://modelscope .cn/models/damo/cv_manual_face-detection_ulfd /summary
5.https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary
6.https:/ /modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary7.https://modelscope.cn/models/damo/ cv_ir50_face-recognition_arcface/summary
8 https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary
9. https://modelscope.cn/models/ damo/cv_manual_face-liveness_flrgb/summary
10.https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary
11.https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary
12.https:/ /modelscope.cn/models/damo/cv_resnet34_face -attribute-recognition_fairface/summary
Atas ialah kandungan terperinci Kualiti imej yang membimbangkan mengganggu pengecaman visual, DAMO Academy mencadangkan rangka kerja yang lebih mantap. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!