Rumah >Peranti teknologi >AI >Anotasi kotak sempadan berlebihan berbilang grid untuk pengesanan objek yang tepat

Anotasi kotak sempadan berlebihan berbilang grid untuk pengesanan objek yang tepat

WBOY
WBOYasal
2024-06-01 21:46:08711semak imbas

1. Pengenalan

Pengesan objek utama semasa ialah rangkaian dua peringkat atau satu peringkat berdasarkan rangkaian pengelas tulang belakang yang digunakan semula dari deep CNN. YOLOv3 ialah salah satu pengesan satu peringkat tercanggih yang menerima imej input dan membahagikannya kepada matriks grid bersaiz sama. Sel grid dengan pusat sasaran bertanggungjawab untuk mengesan sasaran tertentu.

Apa yang kami kongsikan hari ini adalah untuk mencadangkan kaedah matematik baharu, yang memperuntukkan berbilang grid kepada setiap sasaran untuk mencapai ramalan kotak sempadan ketat yang tepat. Para penyelidik juga mencadangkan peningkatan data salin-tampal luar talian yang berkesan untuk pengesanan sasaran. Kaedah yang baru dicadangkan dengan ketara mengatasi beberapa pengesan objek terkini dan menjanjikan prestasi yang lebih baik. 2. Latar Belakang

Rangkaian pengesanan objek direka untuk mencari objek pada imej dan melabelkannya dengan tepat menggunakan kotak sempadan padanan tepat. Baru-baru ini, terdapat dua cara berbeza untuk mencapai matlamat ini. Kaedah pertama adalah dari segi prestasi Kaedah yang paling penting ialah pengesanan objek dua peringkat Wakil terbaik ialah rangkaian saraf konvolusi serantau (RCNN) dan terbitannya [R-CNN yang lebih pantas: Ke arah pengesanan objek masa nyata dengan cadangan wilayah] rangkaian], [R-CNN pantas]. Sebaliknya, kumpulan kedua pelaksanaan pengesanan objek terkenal dengan kelajuan pengesanan yang sangat baik dan ringan, dan dipanggil rangkaian satu peringkat Contoh yang mewakili ialah [Anda hanya melihat sekali: Pengesanan objek masa nyata bersatu], [SSD:. Pengesan kotak berbilang pukulan tunggal], [Kehilangan fokus untuk pengesanan objek padat]. Rangkaian dua peringkat bergantung pada rangkaian cadangan wilayah terpendam yang menjana kawasan calon imej yang mungkin mengandungi objek yang diminati. Kawasan calon yang dijana oleh rangkaian ini boleh mengandungi kawasan objek yang diminati Dalam pengesanan objek satu peringkat, pengesanan dikendalikan serentak dengan pengelasan dan penyetempatan dalam laluan ke hadapan yang lengkap. Oleh itu, rangkaian satu peringkat biasanya lebih ringan, lebih pantas dan lebih mudah untuk dilaksanakan.

Anotasi kotak sempadan berlebihan berbilang grid untuk pengesanan objek yang tepatPenyelidikan hari ini masih mematuhi kaedah YOLO, terutamanya YOLOv3, dan mencadangkan penggodaman mudah yang boleh menggunakan berbilang elemen unit rangkaian pada masa yang sama untuk meramal koordinat sasaran, kategori dan keyakinan sasaran. Rasional di sebalik elemen unit berbilang rangkaian bagi setiap objek adalah untuk meningkatkan kebarangkalian meramalkan kotak sempadan yang sesuai dengan memaksa berbilang elemen unit berfungsi pada objek yang sama. . koordinat.

(b+) Ramalan kotak sempadan yang kurang rawak dan tidak pasti, yang bermaksud ketepatan tinggi dan ingat semula kerana unit rangkaian berdekatan dilatih untuk meramalkan kategori dan koordinat objek yang sama

Anotasi kotak sempadan berlebihan berbilang grid untuk pengesanan objek yang tepat

(c) Mengurangkan ketidakseimbangan antara sel grid dengan; objek menarik dan sel grid tanpa objek menarik.

Tambahan pula, memandangkan peruntukan berbilang grid ialah penggunaan matematik parameter sedia ada dan tidak memerlukan lapisan pengumpulan titik kunci tambahan dan pasca pemprosesan untuk menggabungkan semula titik kunci kepada sasaran yang sepadan, seperti CenterNet dan CornerNet, boleh dikatakan ia ialah cara yang lebih semula jadi untuk mencapai apa yang cuba dicapai oleh pengesan objek tanpa sauh atau berasaskan titik kunci. Sebagai tambahan kepada anotasi berlebihan berbilang grid, para penyelidik juga memperkenalkan teknologi peningkatan data berasaskan salin-tampal luar talian baharu untuk pengesanan objek yang tepat.

3. TUGASAN MULTI-GRID

Gambar di atas mengandungi tiga sasaran iaitu anjing, basikal dan kereta. Untuk kepentingan ringkas, kami akan menerangkan tugasan berbilang grid kami pada satu objek. Imej di atas menunjukkan kotak pembatas tiga objek, dengan lebih terperinci mengenai kotak pembatas anjing itu. Imej di bawah menunjukkan kawasan zum keluar bagi imej di atas, memfokus pada bahagian tengah kotak sempadan anjing. Koordinat kiri atas sel grid yang mengandungi pusat kotak sempadan anjing dilabelkan dengan nombor 0, manakala lapan sel grid lain yang mengelilingi grid yang mengandungi pusat mempunyai label dari 1 hingga 8.

Setakat ini saya telah menerangkan fakta asas tentang bagaimana jaringan yang mengandungi pusat kotak sempadan objek menganotasi objek. Kebergantungan pada hanya satu sel grid bagi setiap objek untuk melakukan kerja yang sukar untuk meramalkan kategori dan kotak pembatas ketat yang tepat menimbulkan banyak isu, seperti:

(a) Jurang yang besar antara grid positif dan negatif Ketidakseimbangan, iaitu, dengan dan tanpa koordinat grid pusat objek

(b) Penumpuan kotak sempadan perlahan kepada GT

(c) Kekurangan pandangan berbilang perspektif (sudut) objek yang akan diramalkan.

Jadi soalan semula jadi untuk ditanya di sini ialah, "Jelas sekali, kebanyakan objek mengandungi kawasan lebih daripada satu sel grid, jadi adakah terdapat cara matematik mudah untuk memperuntukkan lebih banyak sel grid ini untuk cuba meramalkan kategori dan koordinat objek bersama sel grid tengah?" Beberapa kelebihan ini adalah (a) ketidakseimbangan yang dikurangkan, (b) latihan yang lebih pantas untuk menumpu kepada kotak pembatas kerana kini beberapa sel grid menyasarkan objek yang sama secara serentak, (c) peningkatan ramalan kotak pembatas ketat Peluang (d) menyediakan grid- pengesan berasaskan seperti YOLOv3 dengan pandangan berbilang paparan dan bukannya pandangan satu titik objek. Peruntukan multigrid yang baru dicadangkan cuba menjawab soalan di atas. . s untuk menjadikannya lebih ringan dan lebih pantas. Blok lilitan mempunyai Conv2D+Batch Normalization+LeakyRelu. Blok yang dikeluarkan bukan dari tulang belakang klasifikasi, iaitu Darknet53. Sebaliknya, alih keluar mereka daripada tiga rangkaian output pengesanan berbilang skala atau kepala, dua daripada setiap rangkaian output. Walaupun rangkaian dalam secara amnya berprestasi baik, rangkaian yang terlalu dalam juga cenderung terlalu pantas atau memperlahankan rangkaian dengan ketara. B. Fungsi Kehilangan sintesis imej latihan berfungsi seperti berikut : Pertama, menggunakan skrip carian imej ringkas untuk memuat turun beribu-ribu imej tanpa objek latar belakang daripada Imej Google menggunakan kata kunci seperti mercu tanda, hujan, hutan, dll., iaitu imej tanpa objek yang menarik minat kami. Kami kemudian secara berulang memilih objek p dan kotak sempadannya daripada imej q rawak keseluruhan set data latihan. Kami kemudian menjana semua kemungkinan kombinasi kotak sempadan p yang dipilih menggunakan indeksnya sebagai ID. Daripada set gabungan, kami memilih subset kotak sempadan yang memenuhi dua syarat berikut:

Anotasi kotak sempadan berlebihan berbilang grid untuk pengesanan objek yang tepat

jika disusun dalam beberapa susunan rawak bersebelahan, ia mesti dimuatkan dalam kawasan imej latar belakang sasaran yang diberikan

dan sepatutnya menggunakan ruang imej latar belakang secara keseluruhan atau sekurang-kurangnya sebahagian besar tanpa objek bertindih Perbandingan prestasi pada dataset coco

Seperti yang dapat dilihat dari rajah, baris pertama menunjukkan enam. imej input, manakala baris kedua menunjukkan rangkaian sebelum penindasan bukan maksimum (NMS) Baris terakhir menunjukkan ramalan kotak sempadan terakhir MultiGridDet untuk imej input selepas NMS.

Atas ialah kandungan terperinci Anotasi kotak sempadan berlebihan berbilang grid untuk pengesanan objek yang tepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn