


Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan
kertas arXiv "Graph-DETR3D: Memikirkan Semula Kawasan Bertindih untuk Pengesanan Objek 3D Berbilang Paparan", 22 Jun, hasil kerja Universiti Sains dan Teknologi China, Institut Teknologi Harbin dan SenseTime.
Mengesan objek 3-D daripada berbilang paparan imej ialah tugas asas namun mencabar dalam pemahaman pemandangan visual. Oleh kerana kosnya yang rendah dan kecekapan tinggi, pengesanan objek 3-D berbilang paparan menunjukkan prospek aplikasi yang luas. Walau bagaimanapun, disebabkan kekurangan maklumat mendalam, adalah amat sukar untuk mengesan objek dengan tepat melalui perspektif dalam ruang 3-D. Baru-baru ini, DETR3D memperkenalkan paradigma pertanyaan 3D-2D baharu untuk mengagregatkan imej berbilang paparan untuk pengesanan objek 3D dan mencapai prestasi terkini.
Melalui eksperimen berpandu intensif, kertas kerja ini mengukur sasaran yang terletak di kawasan berbeza dan mendapati bahawa "kejadian terpenggal" (iaitu, kawasan sempadan setiap imej) adalah halangan utama yang menghalang prestasi DETR3D. Walaupun menggabungkan berbilang ciri daripada dua paparan bersebelahan dalam kawasan bertindih, DETR3D masih mengalami pengagregatan ciri yang tidak mencukupi dan oleh itu terlepas peluang untuk meningkatkan prestasi pengesanan sepenuhnya.
Untuk menyelesaikan masalah ini, Graph-DETR3D dicadangkan untuk mengagregatkan maklumat imej berbilang paparan secara automatik melalui pembelajaran struktur graf (GSL). Peta 3D dinamik dibina antara setiap pertanyaan sasaran dan peta ciri 2-D untuk meningkatkan perwakilan sasaran, terutamanya di kawasan sempadan. Selain itu, Graph-DETR3D mendapat manfaat daripada strategi latihan pelbagai skala invarian kedalaman baharu, yang mengekalkan konsistensi kedalaman visual dengan menskalakan saiz imej dan kedalaman sasaran secara serentak.
Perbezaan Graph-DETR3D terletak pada dua perkara, seperti yang ditunjukkan dalam rajah: (1) modul pengagregatan ciri graf dinamik; (2) strategi latihan pelbagai skala invarian dalam. Ia mengikut struktur asas DETR3D dan terdiri daripada tiga komponen: pengekod imej, penyahkod pengubah dan kepala ramalan sasaran. Memandangkan set imej I = {I1, I2,…,IK} (dirakam oleh N kamera peri-lihat), Graph-DETR3D bertujuan untuk meramalkan lokasi dan kategori kotak sempadan yang menarik. Mula-mula, gunakan pengekod imej (termasuk ResNet dan FPN) untuk menukar imej ini menjadi satu set ciri peringkat peta ciri yang agak L F. Kemudian, graf 3-D dinamik dibina untuk mengagregatkan maklumat 2-D secara meluas melalui modul pengagregatan ciri graf dinamik (DGFA) untuk mengoptimumkan perwakilan pertanyaan sasaran. Akhir sekali, pertanyaan sasaran yang dipertingkatkan digunakan untuk mengeluarkan ramalan akhir.
Rajah menunjukkan proses pengagregatan ciri graf dinamik (DFGA): mula-mula bina graf 3-D yang boleh dipelajari untuk setiap pertanyaan sasaran, dan kemudian bina graf 3-D yang boleh dipelajari daripada satah imej 2-D Ciri-ciri Persampelan. Akhir sekali, perwakilan pertanyaan sasaran dipertingkatkan melalui sambungan graf. Skim penyebaran mesej yang saling berkaitan ini menyokong penghalusan berulang pembinaan struktur graf dan peningkatan ciri.
Latihan berbilang skala ialah strategi penambahan data yang biasa digunakan dalam tugas pengesanan objek 2D dan 3D, yang terbukti berkesan dan rendah dalam kos inferens. Walau bagaimanapun, ia jarang muncul dalam kaedah pemeriksaan 3-D berasaskan penglihatan. Mengambil kira saiz imej input yang berbeza boleh meningkatkan keteguhan model, sambil melaraskan saiz imej dan mengubah suai parameter dalaman kamera untuk melaksanakan strategi latihan berbilang skala biasa.
Fenomena menarik ialah prestasi akhir menurun dengan mendadak. Dengan menganalisis data input dengan teliti, kami mendapati bahawa hanya menskala semula imej membawa kepada masalah kekaburan perspektif: apabila sasaran diubah saiz kepada skala yang lebih besar/lebih kecil, sifat mutlaknya (iaitu saiz sasaran, jarak ke ego titik) jangan Berubah.
Sebagai contoh konkrit, rajah menunjukkan masalah samar-samar ini: walaupun kedudukan 3D mutlak kawasan yang dipilih dalam (a) dan (b) adalah sama, bilangan piksel imej adalah berbeza. Rangkaian ramalan kedalaman cenderung untuk menganggarkan kedalaman berdasarkan kawasan yang diduduki oleh imej. Oleh itu, corak latihan dalam rajah ini mungkin mengelirukan model ramalan kedalaman dan merosot lagi prestasi akhir.
Kira semula kedalaman dari perspektif piksel untuk tujuan ini. Pseudokod algoritma adalah seperti berikut:
Berikut ialah operasi penyahkodan:
Saiz piksel yang dikira semula ialah:
Anggap faktor skala r = rx = ry, kemudian mudahkan untuk mendapatkan:
Keputusan percubaan adalah seperti berikut:
Nota: DI = Kedalaman-Invarian
Atas ialah kandungan terperinci Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Memanfaatkan kekuatan visualisasi data dengan carta Microsoft Power BI Dalam dunia yang didorong oleh data hari ini, dengan berkesan menyampaikan maklumat yang rumit kepada penonton bukan teknikal adalah penting. Visualisasi data jambatan jurang ini, mengubah data mentah i

Sistem Pakar: menyelam yang mendalam ke dalam kuasa membuat keputusan AI Bayangkan mempunyai akses kepada nasihat pakar mengenai apa -apa, dari diagnosis perubatan kepada perancangan kewangan. Itulah kuasa sistem pakar dalam kecerdasan buatan. Sistem ini meniru pro

Pertama sekali, jelas bahawa ini berlaku dengan cepat. Pelbagai syarikat bercakap mengenai perkadaran kod mereka yang kini ditulis oleh AI, dan ini semakin meningkat pada klip pesat. Terdapat banyak anjakan pekerjaan

Industri filem, bersama semua sektor kreatif, dari pemasaran digital ke media sosial, berdiri di persimpangan teknologi. Sebagai kecerdasan buatan mula membentuk semula setiap aspek bercerita visual dan mengubah landskap hiburan

Kursus Online AI/ML percuma ISRO: Gerbang ke Inovasi Teknologi Geospatial Pertubuhan Penyelidikan Angkasa India (ISRO), melalui Institut Pengesan Jauh India (IIRS), menawarkan peluang yang hebat untuk pelajar dan profesional

Algoritma Carian Tempatan: Panduan Komprehensif Merancang acara berskala besar memerlukan pengagihan beban kerja yang cekap. Apabila pendekatan tradisional gagal, algoritma carian tempatan menawarkan penyelesaian yang kuat. Artikel ini meneroka pendakian bukit dan simul

Pelepasan ini termasuk tiga model yang berbeza, GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano, menandakan langkah ke arah pengoptimuman khusus tugas dalam landskap model bahasa yang besar. Model-model ini tidak segera menggantikan antara muka yang dihadapi pengguna seperti

Gergasi Chip Nvidia berkata pada hari Isnin ia akan memulakan pembuatan superkomputer AI - mesin yang boleh memproses sejumlah besar data dan menjalankan algoritma kompleks - sepenuhnya dalam A.S. untuk kali pertama. Pengumuman itu datang selepas Presiden Trump Si


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

VSCode Windows 64-bit Muat Turun
Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

DVWA
Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

SublimeText3 Linux versi baharu
SublimeText3 Linux versi terkini

Dreamweaver CS6
Alat pembangunan web visual

MantisBT
Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.