DECO: Pengesan Berasaskan Pertanyaan konvolusi tulen mengatasi DETR!-AI-php.cn

Rumah

Peranti teknologi

DECO: Pengesan Berasaskan Pertanyaan konvolusi tulen mengatasi DETR!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 19, 2024 pm 04:22 PM

bingkaihujung ke hujungsusunanoverflow

DECO: 纯卷积Query-Based检测器超越DETR！

Tajuk: DECO: Pengesanan Objek Hujung-ke-Hujung Berasaskan Pertanyaan dengan ConvNets

Kertas: https://arxiv.org/pdf/2312.13735.pdf

Kod sumber: https://github.com / xinghaochen/DECO

Teks asal: https://zhuanlan.zhihu.com/p/686011746@王云河

Pengenalan

Selepas pengenalan Pengesanan Transformer (DETR), terdapat pengesanan sasaran , dan banyak kajian seterusnya memfokuskan kepada ketepatan Penambahbaikan telah dibuat berbanding DETR asal dari segi kelajuan dan kelajuan. Walau bagaimanapun, perbincangan diteruskan sama ada Transformers boleh menguasai sepenuhnya bidang visual. Beberapa kajian seperti ConvNeXt dan RepLKNet menunjukkan bahawa struktur CNN masih mempunyai potensi besar dalam bidang penglihatan.

DECO: 纯卷积Query-Based检测器超越DETR！

Apa yang kami terokai dalam kerja ini ialah cara menggunakan seni bina konvolusi tulen untuk mendapatkan pengesan rangka kerja seperti DETR dengan prestasi tinggi. Sebagai penghormatan kepada DETR, kami memanggil pendekatan kami DECO (Detection ConvNets). Menggunakan tetapan struktur yang serupa dengan DETR dan menggunakan Tulang Belakang yang berbeza, DECO mencapai 38.6% dan 40.8% AP pada COCO dan 35 FPS dan 28 FPS pada V100, mencapai prestasi yang lebih baik daripada DETR. Dipasangkan dengan modul seperti ciri berbilang skala yang serupa dengan RT-DETR, DECO mencapai kelajuan 47.8% AP dan 34 FPS Prestasi keseluruhan mempunyai kelebihan yang baik berbanding dengan banyak kaedah peningkatan DETR.

Kaedah

Seni Bina Rangkaian

DECO: 纯卷积Query-Based检测器超越DETR！

Ciri utama DETR ialah menggunakan struktur Transformer Encoder-Decoder untuk berinteraksi dengan imej input menggunakan satu set Pertanyaan untuk berinteraksi dengan ciri imej, dan boleh terus mengeluarkan yang ditentukan bilangan bingkai pengesanan Ini menghapuskan pergantungan pada operasi pasca pemprosesan seperti NMS. Keseluruhan seni bina DECO yang kami cadangkan adalah serupa dengan DETR Ia juga termasuk Backbone untuk pengekstrakan ciri imej, struktur Pengekod-Penyahkod untuk berinteraksi dengan Pertanyaan, dan akhirnya menghasilkan bilangan hasil pengesanan tertentu. Satu-satunya perbezaan ialah Pengekod dan Penyahkod DECO adalah struktur konvolusi semata-mata, jadi DECO ialah pengesan hujung-ke-hujung Berdasarkan Pertanyaan yang terdiri daripada lilitan tulen.

Pengekod

Penggantian struktur Pengekod DETR agak mudah Kami memilih untuk menggunakan 4 Blok ConvNeXt untuk membentuk struktur Pengekod. Secara khusus, setiap lapisan Pengekod dilaksanakan dengan menyusun lilitan kedalaman 7x7, lapisan LayerNorm, lilitan 1x1, fungsi pengaktifan GELU dan satu lagi lilitan 1x1. Di samping itu, dalam DETR, kerana seni bina Transformer mempunyai invarian permutasi pada input, pengekodan kedudukan perlu ditambah pada input setiap lapisan pengekod, tetapi untuk Pengekod yang terdiri daripada konvolusi, tidak perlu menambah sebarang pengekodan kedudukan

Dekoder

Sebagai perbandingan, penggantian Dekoder adalah jauh lebih rumit. Fungsi utama Dekoder adalah untuk berinteraksi sepenuhnya dengan ciri imej dan Pertanyaan, supaya Pertanyaan dapat melihat sepenuhnya maklumat ciri imej dan dengan itu meramalkan koordinat dan kategori sasaran dalam imej. Penyahkod terutamanya merangkumi dua input: output ciri Pengekod dan satu set vektor pertanyaan yang boleh dipelajari (Pertanyaan). Kami membahagikan struktur utama Penyahkod kepada dua modul: Modul Interaksi Kendiri (SIM) dan Modul Interaksi Silang (CIM).

DECO: 纯卷积Query-Based检测器超越DETR！

Di sini, modul SIM menyepadukan terutamanya output Pertanyaan dan lapisan Penyahkod atas Bahagian struktur ini boleh terdiri daripada beberapa lapisan konvolusi, menggunakan lilitan mendalam 9x9 dan lilitan 1x1 dalam dimensi ruang dan dimensi saluran. Lakukan pertukaran maklumat untuk mendapatkan sepenuhnya maklumat sasaran yang diperlukan dan hantar ke modul CIM seterusnya untuk pengekstrakan ciri pengesanan sasaran selanjutnya. Pertanyaan ialah satu set vektor yang dimulakan secara rawak Nombor ini menentukan bilangan bingkai pengesanan yang akhirnya dikeluarkan oleh pengesan nilai khususnya boleh dilaraskan mengikut keperluan sebenar. Untuk DECO, kerana semua struktur terdiri daripada konvolusi, kami menukar Pertanyaan kepada dua dimensi Contohnya, 100 Pertanyaan boleh menjadi 10x10 dimensi.

Fungsi utama modul CIM adalah untuk berinteraksi sepenuhnya antara ciri imej dan Pertanyaan, supaya Pertanyaan dapat melihat sepenuhnya maklumat ciri imej dan dengan itu meramalkan koordinat dan kategori sasaran dalam imej. Untuk struktur Transformer, adalah mudah untuk mencapai matlamat ini dengan menggunakan mekanisme perhatian silang, tetapi untuk struktur lilitan, cara berinteraksi sepenuhnya dengan kedua-dua ciri adalah kesukaran terbesar.

Untuk menggabungkan ciri global keluaran SIM dan keluaran pengekod dengan saiz yang berbeza, kami mesti menjajarkan kedua-duanya secara spatial dan kemudian menggabungkannya Pertama, kami melakukan pensampelan jiran terdekat pada keluaran SIM:

DECO: 纯卷积Query-Based检测器超越DETR！

supaya selepas peningkatan. Ciri-ciri mempunyai saiz yang sama seperti ciri global yang dikeluarkan oleh Pengekod, dan kemudian ciri-ciri yang telah dicontohi digabungkan dengan ciri-ciri global yang dikeluarkan oleh pengekod, dan kemudian memasuki lilitan mendalam untuk interaksi ciri dan kemudian menambah input baki:

DECO: 纯卷积Query-Based检测器超越DETR！

Akhirnya ciri yang berinteraksi ditukar untuk maklumat saluran melalui FNN, dan kemudian dikumpulkan ke nombor sasaran untuk mendapatkan pembenaman output penyahkod:

DECO: 纯卷积Query-Based检测器超越DETR！

Akhir sekali, kami menghantar pembenaman output yang diperoleh ke kepala pengesanan untuk pengelasan seterusnya dan regresi.

Ciri berbilang skala

Seperti DETR asal, DECO yang diperolehi oleh rangka kerja di atas mempunyai kelemahan biasa, iaitu kekurangan ciri berbilang skala, yang memberi impak yang besar pada pengesanan sasaran ketepatan tinggi. DETR boleh ubah bentuk menyepadukan ciri skala berbeza dengan menggunakan modul perhatian boleh ubah bentuk berbilang skala, tetapi kaedah ini digandingkan dengan kuat dengan pengendali Perhatian, jadi ia tidak boleh digunakan terus pada DECO kami. Untuk membolehkan DECO mengendalikan ciri berbilang skala, kami menggunakan modul gabungan ciri berskala silang yang dicadangkan oleh RT-DETR selepas keluaran ciri oleh Penyahkod. Malah, satu siri kaedah penambahbaikan telah diperolehi selepas kelahiran DETR Kami percaya bahawa banyak strategi juga boleh digunakan untuk DECO, dan kami berharap orang yang berminat dapat membincangkannya bersama.

Eksperimen

Kami menjalankan eksperimen pada COCO dan membandingkan DECO dan DETR sambil mengekalkan seni bina utama tidak berubah, seperti memastikan bilangan Pertanyaan konsisten, mengekalkan bilangan lapisan Penyahkod tidak berubah, dsb., dan hanya menukar Transformer dalam DETR The struktur digantikan oleh struktur konvolusi kami seperti yang diterangkan di atas. Dapat dilihat bahawa DECO telah mencapai ketepatan yang lebih baik dan pertukaran yang lebih cepat daripada DETR.

DECO: 纯卷积Query-Based检测器超越DETR！

Kami juga membandingkan DECO dengan ciri berbilang skala dan lebih banyak kaedah pengesanan sasaran, termasuk banyak varian DETR Seperti yang anda boleh lihat daripada rajah di bawah, DECO telah mencapai keputusan yang sangat baik, mencapai prestasi yang lebih baik daripada banyak pengesan sebelumnya .

DECO: 纯卷积Query-Based检测器超越DETR！

Struktur DECO dalam artikel telah menjalani banyak eksperimen dan visualisasi ablasi, termasuk strategi gabungan khusus (penambahan, pendaraban titik, Concat) yang dipilih dalam Penyahkod dan cara menetapkan dimensi Pertanyaan untuk mencapai hasil yang optimum. dan lain-lain, terdapat juga beberapa penemuan menarik Untuk hasil dan perbincangan yang lebih terperinci, sila rujuk artikel asal.

Ringkasan

Kertas ini bertujuan untuk mengkaji sama ada adalah mungkin untuk membina rangka kerja pengesanan objek hujung ke hujung berasaskan pertanyaan tanpa menggunakan seni bina Transformer yang kompleks. Rangka kerja pengesanan baharu yang dipanggil Detection ConvNet (DECO) dicadangkan, termasuk rangkaian tulang belakang dan struktur penyahkod-pengekod konvolusi. Dengan mereka bentuk pengekod DECO dengan teliti dan memperkenalkan mekanisme baru, penyahkod DECO dapat mencapai interaksi antara pertanyaan sasaran dan ciri imej melalui lapisan konvolusi. Perbandingan dibuat dengan pengesan sebelumnya pada penanda aras COCO, dan walaupun mudah, DECO mencapai prestasi kompetitif dari segi ketepatan pengesanan dan kelajuan larian. Khususnya, menggunakan tulang belakang ResNet-50 dan ConvNeXt-Tiny, DECO mencapai 38.6% dan 40.8% AP pada set pengesahan COCO masing-masing pada 35 dan 28 FPS, mengatasi prestasi model DET. Diharapkan DECO memberikan perspektif baharu dalam mereka bentuk rangka kerja pengesanan objek.

Atas ialah kandungan terperinci DECO: Pengesan Berasaskan Pertanyaan konvolusi tulen mengatasi DETR!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Jurang kemahiran AI memperlahankan rantaian bekalanApr 26, 2025 am 11:13 AM

Istilah "tenaga kerja siap sedia" sering digunakan, tetapi apakah maksudnya dalam industri rantaian bekalan? Menurut Abe Eshkenazi, Ketua Pegawai Eksekutif Persatuan Pengurusan Rantaian Bekalan (ASCM), ia menandakan profesional yang mampu mengkritik

Bagaimana satu syarikat secara senyap -senyap bekerja untuk mengubah AI selama -lamanyaApr 26, 2025 am 11:12 AM

Revolusi AI yang terdesentralisasi secara senyap -senyap mendapat momentum. Jumaat ini di Austin, Texas, Sidang Kemuncak Endgame Bittensor menandakan momen penting, beralih ke desentralisasi AI (DEAI) dari teori kepada aplikasi praktikal. Tidak seperti iklan mewah

NVIDIA Melepaskan Microservices Nemo Untuk Menyebarkan Pembangunan Agen AIApr 26, 2025 am 11:11 AM

Perusahaan AI menghadapi cabaran integrasi data Penggunaan perusahaan AI menghadapi cabaran utama: sistem bangunan yang dapat mengekalkan ketepatan dan kepraktisan dengan terus belajar data perniagaan. Microservices NEMO menyelesaikan masalah ini dengan mewujudkan apa yang NVIDIA menggambarkan sebagai "Flywheel Data", yang membolehkan sistem AI tetap relevan melalui pendedahan berterusan kepada maklumat perusahaan dan interaksi pengguna. Toolkit yang baru dilancarkan ini mengandungi lima microservices utama: Nemo Customizer mengendalikan penalaan model bahasa yang besar dengan latihan yang lebih tinggi. NEMO Evaluator menyediakan penilaian ringkas model AI untuk tanda aras tersuai. Nemo Guardrails Melaksanakan Kawalan Keselamatan untuk mengekalkan pematuhan dan kesesuaian

AI melukis gambar baru untuk masa depan seni dan reka bentukApr 26, 2025 am 11:10 AM

AI: Masa Depan Seni dan Reka Bentuk Kecerdasan Buatan (AI) mengubah bidang seni dan reka bentuk dengan cara yang belum pernah terjadi sebelumnya, dan impaknya tidak lagi terhad kepada amatur, tetapi lebih mempengaruhi profesional. Skim karya seni dan reka bentuk yang dihasilkan oleh AI dengan cepat menggantikan imej dan pereka bahan tradisional dalam banyak aktiviti reka bentuk transaksional seperti pengiklanan, generasi imej media sosial dan reka bentuk web. Walau bagaimanapun, artis dan pereka profesional juga mendapati nilai praktikal AI. Mereka menggunakan AI sebagai alat tambahan untuk meneroka kemungkinan estetik baru, menggabungkan gaya yang berbeza, dan membuat kesan visual baru. AI membantu artis dan pereka mengautomasikan tugas berulang, mencadangkan elemen reka bentuk yang berbeza dan memberikan input kreatif. AI menyokong pemindahan gaya, iaitu menggunakan gaya gambar

Bagaimana Zoom merevolusikan kerja dengan Agentic AI: Dari mesyuarat ke tonggakApr 26, 2025 am 11:09 AM

Zoom, yang pada mulanya dikenali untuk platform persidangan video, memimpin revolusi tempat kerja dengan penggunaan inovatif AIS AI. Perbualan baru -baru ini dengan CTO Zoom, XD Huang, mendedahkan penglihatan yang bercita -cita tinggi syarikat itu. Menentukan Agentic AI Huang d

Ancaman eksistensi ke universitiApr 26, 2025 am 11:08 AM

Adakah AI akan merevolusikan pendidikan? Soalan ini mendorong refleksi serius di kalangan pendidik dan pihak berkepentingan. Penyepaduan AI ke dalam pendidikan memberikan peluang dan cabaran. Sebagai Matthew Lynch dari Nota Edvocate Tech, Universit

Prototaip: saintis Amerika mencari pekerjaan di luar negaraApr 26, 2025 am 11:07 AM

Pembangunan penyelidikan dan teknologi saintifik di Amerika Syarikat mungkin menghadapi cabaran, mungkin disebabkan oleh pemotongan anggaran. Menurut Alam, bilangan saintis Amerika yang memohon pekerjaan di luar negara meningkat sebanyak 32% dari Januari hingga Mac 2025 berbanding dengan tempoh yang sama pada tahun 2024. Pungutan sebelumnya menunjukkan bahawa 75% penyelidik yang ditinjau sedang mempertimbangkan untuk mencari pekerjaan di Eropah dan Kanada. Beratus-ratus geran NIH dan NSF telah ditamatkan dalam beberapa bulan yang lalu, dengan geran baru NIH turun kira-kira $ 2.3 bilion tahun ini, setitik hampir satu pertiga. Cadangan belanjawan yang bocor menunjukkan bahawa pentadbiran Trump sedang mempertimbangkan untuk memotong belanjawan secara mendadak untuk institusi saintifik, dengan kemungkinan pengurangan sehingga 50%. Kegawatan dalam bidang penyelidikan asas juga telah menjejaskan salah satu kelebihan utama Amerika Syarikat: menarik bakat luar negara. 35

Semua Mengenai Keluarga GPT 4.1 Terbuka AI - Analytics VidhyaApr 26, 2025 am 10:19 AM

OpenAI melancarkan siri GPT-4.1 yang kuat: keluarga tiga model bahasa lanjutan yang direka untuk aplikasi dunia nyata. Lompat penting ini menawarkan masa tindak balas yang lebih cepat, pemahaman yang lebih baik, dan kos yang dikurangkan secara drastik berbanding t

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

4 minggu yang laluByDDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang laluByDDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

4 minggu yang laluByDDD

<🎜>: Rails Dead - Cara Melengkapkan Setiap Cabaran

1 bulan yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

Dreamweaver Mac版

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.