Rumah >Peranti teknologi >AI >DECO: Pengesan Berasaskan Pertanyaan konvolusi tulen mengatasi DETR!
Tajuk: DECO: Pengesanan Objek Hujung-ke-Hujung Berasaskan Pertanyaan dengan ConvNets
Kertas: https://arxiv.org/pdf/2312.13735.pdf
Kod sumber: https://github.com / xinghaochen/DECO
Teks asal: https://zhuanlan.zhihu.com/p/686011746@王云河
Selepas pengenalan Pengesanan Transformer (DETR), terdapat pengesanan sasaran , dan banyak kajian seterusnya memfokuskan kepada ketepatan Penambahbaikan telah dibuat berbanding DETR asal dari segi kelajuan dan kelajuan. Walau bagaimanapun, perbincangan diteruskan sama ada Transformers boleh menguasai sepenuhnya bidang visual. Beberapa kajian seperti ConvNeXt dan RepLKNet menunjukkan bahawa struktur CNN masih mempunyai potensi besar dalam bidang penglihatan.
Apa yang kami terokai dalam kerja ini ialah cara menggunakan seni bina konvolusi tulen untuk mendapatkan pengesan rangka kerja seperti DETR dengan prestasi tinggi. Sebagai penghormatan kepada DETR, kami memanggil pendekatan kami DECO
(Detection ConvNets). Menggunakan tetapan struktur yang serupa dengan DETR dan menggunakan Tulang Belakang yang berbeza, DECO mencapai 38.6% dan 40.8% AP pada COCO dan 35 FPS dan 28 FPS pada V100, mencapai prestasi yang lebih baik daripada DETR. Dipasangkan dengan modul seperti ciri berbilang skala yang serupa dengan RT-DETR, DECO mencapai kelajuan 47.8% AP dan 34 FPS Prestasi keseluruhan mempunyai kelebihan yang baik berbanding dengan banyak kaedah peningkatan DETR.
Ciri utama DETR ialah menggunakan struktur Transformer Encoder-Decoder untuk berinteraksi dengan imej input menggunakan satu set Pertanyaan untuk berinteraksi dengan ciri imej, dan boleh terus mengeluarkan yang ditentukan bilangan bingkai pengesanan Ini menghapuskan pergantungan pada operasi pasca pemprosesan seperti NMS. Keseluruhan seni bina DECO yang kami cadangkan adalah serupa dengan DETR Ia juga termasuk Backbone untuk pengekstrakan ciri imej, struktur Pengekod-Penyahkod untuk berinteraksi dengan Pertanyaan, dan akhirnya menghasilkan bilangan hasil pengesanan tertentu. Satu-satunya perbezaan ialah Pengekod dan Penyahkod DECO adalah struktur konvolusi semata-mata, jadi DECO ialah pengesan hujung-ke-hujung Berdasarkan Pertanyaan yang terdiri daripada lilitan tulen.
Penggantian struktur Pengekod DETR agak mudah Kami memilih untuk menggunakan 4 Blok ConvNeXt untuk membentuk struktur Pengekod. Secara khusus, setiap lapisan Pengekod dilaksanakan dengan menyusun lilitan kedalaman 7x7, lapisan LayerNorm, lilitan 1x1, fungsi pengaktifan GELU dan satu lagi lilitan 1x1. Di samping itu, dalam DETR, kerana seni bina Transformer mempunyai invarian permutasi pada input, pengekodan kedudukan perlu ditambah pada input setiap lapisan pengekod, tetapi untuk Pengekod yang terdiri daripada konvolusi, tidak perlu menambah sebarang pengekodan kedudukan
Sebagai perbandingan, penggantian Dekoder adalah jauh lebih rumit. Fungsi utama Dekoder adalah untuk berinteraksi sepenuhnya dengan ciri imej dan Pertanyaan, supaya Pertanyaan dapat melihat sepenuhnya maklumat ciri imej dan dengan itu meramalkan koordinat dan kategori sasaran dalam imej. Penyahkod terutamanya merangkumi dua input: output ciri Pengekod dan satu set vektor pertanyaan yang boleh dipelajari (Pertanyaan). Kami membahagikan struktur utama Penyahkod kepada dua modul: Modul Interaksi Kendiri (SIM) dan Modul Interaksi Silang (CIM).
Di sini, modul SIM menyepadukan terutamanya output Pertanyaan dan lapisan Penyahkod atas Bahagian struktur ini boleh terdiri daripada beberapa lapisan konvolusi, menggunakan lilitan mendalam 9x9 dan lilitan 1x1 dalam dimensi ruang dan dimensi saluran. Lakukan pertukaran maklumat untuk mendapatkan sepenuhnya maklumat sasaran yang diperlukan dan hantar ke modul CIM seterusnya untuk pengekstrakan ciri pengesanan sasaran selanjutnya. Pertanyaan ialah satu set vektor yang dimulakan secara rawak Nombor ini menentukan bilangan bingkai pengesanan yang akhirnya dikeluarkan oleh pengesan nilai khususnya boleh dilaraskan mengikut keperluan sebenar. Untuk DECO, kerana semua struktur terdiri daripada konvolusi, kami menukar Pertanyaan kepada dua dimensi Contohnya, 100 Pertanyaan boleh menjadi 10x10 dimensi.
Fungsi utama modul CIM adalah untuk berinteraksi sepenuhnya antara ciri imej dan Pertanyaan, supaya Pertanyaan dapat melihat sepenuhnya maklumat ciri imej dan dengan itu meramalkan koordinat dan kategori sasaran dalam imej. Untuk struktur Transformer, adalah mudah untuk mencapai matlamat ini dengan menggunakan mekanisme perhatian silang, tetapi untuk struktur lilitan, cara berinteraksi sepenuhnya dengan kedua-dua ciri adalah kesukaran terbesar.
Untuk menggabungkan ciri global keluaran SIM dan keluaran pengekod dengan saiz yang berbeza, kami mesti menjajarkan kedua-duanya secara spatial dan kemudian menggabungkannya Pertama, kami melakukan pensampelan jiran terdekat pada keluaran SIM:
supaya selepas peningkatan. Ciri-ciri mempunyai saiz yang sama seperti ciri global yang dikeluarkan oleh Pengekod, dan kemudian ciri-ciri yang telah dicontohi digabungkan dengan ciri-ciri global yang dikeluarkan oleh pengekod, dan kemudian memasuki lilitan mendalam untuk interaksi ciri dan kemudian menambah input baki:
Akhirnya ciri yang berinteraksi ditukar untuk maklumat saluran melalui FNN, dan kemudian dikumpulkan ke nombor sasaran untuk mendapatkan pembenaman output penyahkod:
Akhir sekali, kami menghantar pembenaman output yang diperoleh ke kepala pengesanan untuk pengelasan seterusnya dan regresi.
Seperti DETR asal, DECO yang diperolehi oleh rangka kerja di atas mempunyai kelemahan biasa, iaitu kekurangan ciri berbilang skala, yang memberi impak yang besar pada pengesanan sasaran ketepatan tinggi. DETR boleh ubah bentuk menyepadukan ciri skala berbeza dengan menggunakan modul perhatian boleh ubah bentuk berbilang skala, tetapi kaedah ini digandingkan dengan kuat dengan pengendali Perhatian, jadi ia tidak boleh digunakan terus pada DECO kami. Untuk membolehkan DECO mengendalikan ciri berbilang skala, kami menggunakan modul gabungan ciri berskala silang yang dicadangkan oleh RT-DETR selepas keluaran ciri oleh Penyahkod. Malah, satu siri kaedah penambahbaikan telah diperolehi selepas kelahiran DETR Kami percaya bahawa banyak strategi juga boleh digunakan untuk DECO, dan kami berharap orang yang berminat dapat membincangkannya bersama.
Kami menjalankan eksperimen pada COCO dan membandingkan DECO dan DETR sambil mengekalkan seni bina utama tidak berubah, seperti memastikan bilangan Pertanyaan konsisten, mengekalkan bilangan lapisan Penyahkod tidak berubah, dsb., dan hanya menukar Transformer dalam DETR The struktur digantikan oleh struktur konvolusi kami seperti yang diterangkan di atas. Dapat dilihat bahawa DECO telah mencapai ketepatan yang lebih baik dan pertukaran yang lebih cepat daripada DETR.
Kami juga membandingkan DECO dengan ciri berbilang skala dan lebih banyak kaedah pengesanan sasaran, termasuk banyak varian DETR Seperti yang anda boleh lihat daripada rajah di bawah, DECO telah mencapai keputusan yang sangat baik, mencapai prestasi yang lebih baik daripada banyak pengesan sebelumnya .
Struktur DECO dalam artikel telah menjalani banyak eksperimen dan visualisasi ablasi, termasuk strategi gabungan khusus (penambahan, pendaraban titik, Concat) yang dipilih dalam Penyahkod dan cara menetapkan dimensi Pertanyaan untuk mencapai hasil yang optimum. dan lain-lain, terdapat juga beberapa penemuan menarik Untuk hasil dan perbincangan yang lebih terperinci, sila rujuk artikel asal.
Kertas ini bertujuan untuk mengkaji sama ada adalah mungkin untuk membina rangka kerja pengesanan objek hujung ke hujung berasaskan pertanyaan tanpa menggunakan seni bina Transformer yang kompleks. Rangka kerja pengesanan baharu yang dipanggil Detection ConvNet (DECO) dicadangkan, termasuk rangkaian tulang belakang dan struktur penyahkod-pengekod konvolusi. Dengan mereka bentuk pengekod DECO dengan teliti dan memperkenalkan mekanisme baru, penyahkod DECO dapat mencapai interaksi antara pertanyaan sasaran dan ciri imej melalui lapisan konvolusi. Perbandingan dibuat dengan pengesan sebelumnya pada penanda aras COCO, dan walaupun mudah, DECO mencapai prestasi kompetitif dari segi ketepatan pengesanan dan kelajuan larian. Khususnya, menggunakan tulang belakang ResNet-50 dan ConvNeXt-Tiny, DECO mencapai 38.6% dan 40.8% AP pada set pengesahan COCO masing-masing pada 35 dan 28 FPS, mengatasi prestasi model DET. Diharapkan DECO memberikan perspektif baharu dalam mereka bentuk rangka kerja pengesanan objek.
Atas ialah kandungan terperinci DECO: Pengesan Berasaskan Pertanyaan konvolusi tulen mengatasi DETR!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!