Rumah > Artikel > Peranti teknologi > Model penyebaran pengesanan sasaran pertama, lebih baik daripada Faster R-CNN dan DETR, mengesan terus daripada bingkai rawak
Model Penyebaran, sebagai SOTA baharu dalam model generasi dalam, telah mengatasi SOTA asal dalam tugas penjanaan imej: seperti GAN, dan mempunyai prestasi cemerlang dalam banyak bidang aplikasi, seperti penglihatan komputer, NLP, graf molekul pemodelan, pemodelan siri masa, dsb.
Baru-baru ini, pasukan Luo Ping dari Universiti Hong Kong dan penyelidik dari Tencent AI Lab bersama-sama mencadangkan rangka kerja baharu DiffusionDet, yang menggunakan model resapan untuk pengesanan sasaran. Setakat yang kita tahu, tiada penyelidikan yang berjaya menggunakan model resapan untuk pengesanan sasaran Boleh dikatakan ini adalah kerja pertama menggunakan model resapan untuk pengesanan sasaran.
Bagaimanakah prestasi DiffusionDet? Dinilai pada set data MS-COCO, menggunakan ResNet-50 sebagai tulang belakang, di bawah satu langkah pensampelan, DiffusionDet mencapai 45.5 AP, jauh lebih baik daripada Faster R-CNN (40.2 AP), DETR (42.0 AP) dan setanding dengan Jarang R-CNN (45.0 AP) adalah setara. Dengan menambah bilangan langkah pensampelan, prestasi DiffusionDet dipertingkatkan lagi kepada 46.2 AP. Di samping itu, DiffusionDet juga menunjukkan prestasi yang baik pada dataset LVIS, mencapai 42.1 AP menggunakan swing-base sebagai tulang belakang.
Kajian ini mendapati bahawa dalam pengesanan sasaran tradisional Terdapat kelemahan kerana mereka bergantung pada set pertanyaan yang boleh dipelajari yang tetap. Kemudian penyelidik tertanya-tanya: Adakah terdapat cara mudah untuk melakukan pengesanan objek yang tidak memerlukan pertanyaan yang boleh dipelajari?
Untuk menjawab soalan ini, artikel ini mencadangkan DiffusionDet, rangka kerja yang boleh mengesan sasaran terus daripada set kotak rawak Ia merumuskan pengesanan sasaran sebagai proses dari kotak hingar ke kotak sasaran. Pendekatan hingar ke kotak ini tidak memerlukan sasaran heuristik terdahulu atau pertanyaan yang boleh dipelajari, yang memudahkan lagi calon sasaran dan memajukan saluran pengesanan.
Seperti yang ditunjukkan dalam Rajah 1 di bawah, kajian ini percaya bahawa paradigma hingar-ke-kotak adalah serupa dengan proses hingar-ke-imej dalam model resapan denoising, iaitu kelas berasaskan kemungkinan Model menggunakan model denoising yang dipelajari untuk mengeluarkan secara beransur-ansur hingar dalam imej untuk menghasilkan imej.
DiffusionDet menyelesaikan tugas pengesanan sasaran melalui model resapan, iaitu pengesanan dianggap sebagai kedudukan (koordinat tengah) dan saiz (lebar dan ketinggian) kotak sempadan dalam imej Tugas penjanaan ruang. Dalam fasa latihan, hingar Gaussian dikawal oleh jadual varians (jadual) ditambah pada kotak kebenaran tanah untuk mendapatkan kotak hingar. Kotak bising ini kemudiannya digunakan untuk memangkas kawasan menarik (RoI) daripada peta ciri output pengekod tulang belakang (seperti ResNet, Swin Transformer). Akhir sekali, ciri RoI ini dihantar ke penyahkod pengesanan, yang dilatih untuk meramalkan kotak kebenaran tanah tanpa bunyi. Dalam fasa inferens, DiffusionDet menjana kotak pembanding dengan menyongsangkan proses resapan yang dipelajari, yang melaraskan pengagihan sebelum hingar kepada pengagihan yang dipelajari pada kotak pembanding.
Memandangkan model resapan secara berulang menjana sampel data, model f_θ perlu dijalankan berbilang kali semasa fasa inferens. Walau bagaimanapun, menggunakan f_θ secara langsung pada imej asal pada setiap langkah lelaran adalah sukar dari segi pengiraan. Oleh itu, penyelidik mencadangkan untuk membahagikan keseluruhan model kepada dua bahagian, iaitu pengekod imej dan penyahkod pengesanan dijalankan sekali sahaja untuk mengekstrak perwakilan ciri mendalam daripada imej input asal Perhalusi ramalan kotak secara progresif dalam z_t.
Pengekod imej mengambil imej mentah sebagai input dan mengekstrak ciri peringkat tingginya untuk penyahkod pengesanan. Penyelidik menggunakan rangkaian neural konvolusi seperti ResNet dan model berasaskan Transformer seperti Swin untuk melaksanakan DiffusionDet. Sementara itu, rangkaian piramid ciri digunakan untuk menjana peta ciri berskala untuk rangkaian tulang belakang ResNet dan Swin.
Penyahkod pengesanan meminjam daripada Sparse R-CNN, mengambil satu set kotak cadangan sebagai input, memangkas ciri RoI daripada peta ciri yang dijana oleh pengekod imej dan menghantarnya ke kepala pengesanan untuk mendapatkan regresi kotak dan hasil klasifikasi. Tambahan pula, penyahkod pengesanan terdiri daripada 6 peringkat bertingkat.
Latihan
Semasa proses latihan, penyelidik mula-mula membina resapan dari kotak kebenaran tanah kepada bunyi proses kotak, dan kemudian latih model untuk membalikkan proses ini. Algoritma 1 di bawah menyediakan pseudokod proses latihan DiffusionDet.
Pengisian kotak nilai sebenar. Untuk penanda aras pengesanan objek moden, bilangan kejadian menarik selalunya berbeza dari imej ke imej. Oleh itu, kami mula-mula mengisi beberapa kotak tambahan ke kotak kebenaran tanah asal supaya semua kotak dijumlahkan kepada nombor tetap N_train. Mereka meneroka beberapa strategi pengisian, seperti mengulang kotak kebenaran tanah sedia ada, menggabungkan kotak rawak, atau kotak bersaiz imej.
bingkai rosak. Penyelidik menambah bunyi Gaussian pada kotak kebenaran tanah yang diisi. Skala hingar dikawal oleh α_t dalam formula berikut (1), yang menggunakan penjadualan kosinus menurun secara monoton pada langkah masa t yang berbeza.
Kehilangan latihan. Penyahkod pengesanan mengambil N_train kotak rosak sebagai input dan meramalkan N_train ramalan klasifikasi kelas dan koordinat kotak. Gunakan juga set ramalan kerugian pada set ramalan N_train.
Inferens
Proses inferens DiffusionDet ialah proses pensampelan denosing daripada hingar ke bingkai sasaran. Bermula dari kotak sampel daripada taburan Gaussian, model secara beransur-ansur memperhalusi ramalannya seperti ditunjukkan dalam Algoritma 2 di bawah.
Langkah pensampelan. Pada setiap langkah pensampelan, kotak rawak atau kotak anggaran daripada langkah pensampelan sebelumnya dihantar ke penyahkod pengesanan untuk meramalkan pengelasan kelas dan koordinat kotak. Selepas memperoleh kotak langkah semasa, DDIM digunakan untuk menganggarkan kotak langkah seterusnya. Kemas kini kotak
. Untuk menjadikan inferens lebih konsisten dengan latihan, kami mencadangkan strategi mengemas kini kotak untuk memulihkan kotak yang tidak dijangka dengan menggantikannya dengan kotak rawak. Khususnya, mereka mula-mula menapis kotak yang tidak dijangka dengan markah di bawah ambang tertentu, dan kemudian menggabungkan kotak yang tinggal dengan kotak rawak baharu yang disampel daripada taburan Gaussian.
Sekali untuk semua. Terima kasih kepada reka bentuk kotak rawak, penyelidik boleh menilai DiffusionDet menggunakan sebarang bilangan kotak rawak dan langkah pensampelan. Sebagai perbandingan, kaedah sebelumnya bergantung pada bilangan kotak pemprosesan yang sama semasa latihan dan penilaian, dan penyahkod pengesanan digunakan sekali sahaja dalam hantaran hadapan.
Dalam bahagian eksperimen, penyelidik mula-mula menunjukkan sifat Sekali untuk semua DiffusionDet, dan kemudian membandingkan DiffusionDet dengan keputusan sebelumnya dalam MS-COCO dan data LVIS Satu koleksi pengesan matang untuk perbandingan.
Ciri utama DiffusionDet adalah untuk melatih semua kejadian inferens sekali. Setelah model dilatih, ia boleh digunakan untuk menukar bilangan kotak dan langkah sampel dalam inferens, seperti yang ditunjukkan dalam Rajah 4 di bawah. DiffusionDet boleh mencapai ketepatan yang lebih tinggi dengan menggunakan lebih banyak kotak atau/dan lebih banyak langkah pemurnian, tetapi pada kos kependaman yang lebih tinggi. Oleh itu, kami menggunakan DiffusionDet tunggal untuk berbilang senario dan mencapai pertukaran ketepatan kelajuan yang diingini tanpa melatih semula rangkaian.
Para penyelidik membandingkan DiffusionDet dengan pengesan sebelumnya pada set data MS-COCO dan LVIS, seperti ditunjukkan dalam Jadual 1 di bawah. Mereka mula-mula membandingkan prestasi pengesanan objek DiffusionDet dengan pengesan sebelumnya pada MS-COCO. Keputusan menunjukkan bahawa DiffusionDet tanpa langkah penghalusan mencapai 45.5 AP menggunakan rangkaian tulang belakang ResNet-50, mengatasi kaedah matang sebelumnya seperti Faster R-CNN, RetinaNet, DETR dan Sparse R-CNN dengan margin yang besar. Dan DiffusionDet menunjukkan peningkatan yang stabil apabila saiz rangkaian tulang belakang diperbesarkan.
Jadual 2 di bawah menunjukkan keputusan pada set data LVIS yang lebih mencabar Ia boleh dilihat bahawa DiffusionDet menggunakan lebih banyak perincian keuntungan.
Sila rujuk kertas asal untuk mendapatkan butiran eksperimen lanjut.
Atas ialah kandungan terperinci Model penyebaran pengesanan sasaran pertama, lebih baik daripada Faster R-CNN dan DETR, mengesan terus daripada bingkai rawak. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!