


Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan
kertas arXiv "Graph-DETR3D: Memikirkan Semula Kawasan Bertindih untuk Pengesanan Objek 3D Berbilang Paparan", 22 Jun, hasil kerja Universiti Sains dan Teknologi China, Institut Teknologi Harbin dan SenseTime.
Mengesan objek 3-D daripada berbilang paparan imej ialah tugas asas namun mencabar dalam pemahaman pemandangan visual. Oleh kerana kosnya yang rendah dan kecekapan tinggi, pengesanan objek 3-D berbilang paparan menunjukkan prospek aplikasi yang luas. Walau bagaimanapun, disebabkan kekurangan maklumat mendalam, adalah amat sukar untuk mengesan objek dengan tepat melalui perspektif dalam ruang 3-D. Baru-baru ini, DETR3D memperkenalkan paradigma pertanyaan 3D-2D baharu untuk mengagregatkan imej berbilang paparan untuk pengesanan objek 3D dan mencapai prestasi terkini.
Melalui eksperimen berpandu intensif, kertas kerja ini mengukur sasaran yang terletak di kawasan berbeza dan mendapati bahawa "kejadian terpenggal" (iaitu, kawasan sempadan setiap imej) adalah halangan utama yang menghalang prestasi DETR3D. Walaupun menggabungkan berbilang ciri daripada dua paparan bersebelahan dalam kawasan bertindih, DETR3D masih mengalami pengagregatan ciri yang tidak mencukupi dan oleh itu terlepas peluang untuk meningkatkan prestasi pengesanan sepenuhnya.
Untuk menyelesaikan masalah ini, Graph-DETR3D dicadangkan untuk mengagregatkan maklumat imej berbilang paparan secara automatik melalui pembelajaran struktur graf (GSL). Peta 3D dinamik dibina antara setiap pertanyaan sasaran dan peta ciri 2-D untuk meningkatkan perwakilan sasaran, terutamanya di kawasan sempadan. Selain itu, Graph-DETR3D mendapat manfaat daripada strategi latihan pelbagai skala invarian kedalaman baharu, yang mengekalkan konsistensi kedalaman visual dengan menskalakan saiz imej dan kedalaman sasaran secara serentak.
Perbezaan Graph-DETR3D terletak pada dua perkara, seperti yang ditunjukkan dalam rajah: (1) modul pengagregatan ciri graf dinamik; (2) strategi latihan pelbagai skala invarian dalam. Ia mengikut struktur asas DETR3D dan terdiri daripada tiga komponen: pengekod imej, penyahkod pengubah dan kepala ramalan sasaran. Memandangkan set imej I = {I1, I2,…,IK} (dirakam oleh N kamera peri-lihat), Graph-DETR3D bertujuan untuk meramalkan lokasi dan kategori kotak sempadan yang menarik. Mula-mula, gunakan pengekod imej (termasuk ResNet dan FPN) untuk menukar imej ini menjadi satu set ciri peringkat peta ciri yang agak L F. Kemudian, graf 3-D dinamik dibina untuk mengagregatkan maklumat 2-D secara meluas melalui modul pengagregatan ciri graf dinamik (DGFA) untuk mengoptimumkan perwakilan pertanyaan sasaran. Akhir sekali, pertanyaan sasaran yang dipertingkatkan digunakan untuk mengeluarkan ramalan akhir.
Rajah menunjukkan proses pengagregatan ciri graf dinamik (DFGA): mula-mula bina graf 3-D yang boleh dipelajari untuk setiap pertanyaan sasaran, dan kemudian bina graf 3-D yang boleh dipelajari daripada satah imej 2-D Ciri-ciri Persampelan. Akhir sekali, perwakilan pertanyaan sasaran dipertingkatkan melalui sambungan graf. Skim penyebaran mesej yang saling berkaitan ini menyokong penghalusan berulang pembinaan struktur graf dan peningkatan ciri.
Latihan berbilang skala ialah strategi penambahan data yang biasa digunakan dalam tugas pengesanan objek 2D dan 3D, yang terbukti berkesan dan rendah dalam kos inferens. Walau bagaimanapun, ia jarang muncul dalam kaedah pemeriksaan 3-D berasaskan penglihatan. Mengambil kira saiz imej input yang berbeza boleh meningkatkan keteguhan model, sambil melaraskan saiz imej dan mengubah suai parameter dalaman kamera untuk melaksanakan strategi latihan berbilang skala biasa.
Fenomena menarik ialah prestasi akhir menurun dengan mendadak. Dengan menganalisis data input dengan teliti, kami mendapati bahawa hanya menskala semula imej membawa kepada masalah kekaburan perspektif: apabila sasaran diubah saiz kepada skala yang lebih besar/lebih kecil, sifat mutlaknya (iaitu saiz sasaran, jarak ke ego titik) jangan Berubah.
Sebagai contoh konkrit, rajah menunjukkan masalah samar-samar ini: walaupun kedudukan 3D mutlak kawasan yang dipilih dalam (a) dan (b) adalah sama, bilangan piksel imej adalah berbeza. Rangkaian ramalan kedalaman cenderung untuk menganggarkan kedalaman berdasarkan kawasan yang diduduki oleh imej. Oleh itu, corak latihan dalam rajah ini mungkin mengelirukan model ramalan kedalaman dan merosot lagi prestasi akhir.
Kira semula kedalaman dari perspektif piksel untuk tujuan ini. Pseudokod algoritma adalah seperti berikut:
Berikut ialah operasi penyahkodan:
Saiz piksel yang dikira semula ialah:
Anggap faktor skala r = rx = ry, kemudian mudahkan untuk mendapatkan:
Keputusan percubaan adalah seperti berikut:
Nota: DI = Kedalaman-Invarian
Atas ialah kandungan terperinci Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Pengenalan Dalam kejuruteraan segera, "Grafik Pemikiran" merujuk kepada pendekatan baru yang menggunakan teori graf untuk struktur dan membimbing proses penalaran AI. Tidak seperti kaedah tradisional, yang sering melibatkan linear

Pengenalan Tahniah! Anda menjalankan perniagaan yang berjaya. Melalui laman web anda, kempen media sosial, webinar, persidangan, sumber percuma, dan sumber lain, anda mengumpul 5000 ID e -mel setiap hari. Langkah jelas seterusnya adalah

Pengenalan Dalam persekitaran pembangunan perisian pantas hari ini, memastikan prestasi aplikasi yang optimum adalah penting. Memantau metrik masa nyata seperti masa tindak balas, kadar ralat, dan penggunaan sumber dapat membantu utama

"Berapa banyak pengguna yang anda ada?" Dia ditakdirkan. "Saya fikir kali terakhir yang kami katakan ialah 500 juta aktif mingguan, dan ia berkembang dengan pesat," jawab Altman. "Anda memberitahu saya bahawa ia seperti dua kali ganda dalam beberapa minggu sahaja," kata Anderson. "Saya mengatakan bahawa priv

Pengenalan Mistral telah mengeluarkan model multimodal yang pertama, iaitu Pixtral-12B-2409. Model ini dibina atas parameter 12 bilion Mistral, NEMO 12B. Apa yang membezakan model ini? Ia kini boleh mengambil kedua -dua gambar dan Tex

Bayangkan mempunyai pembantu berkuasa AI yang bukan sahaja memberi respons kepada pertanyaan anda tetapi juga mengumpulkan maklumat, melaksanakan tugas, dan juga mengendalikan pelbagai jenis teks, imej, dan kod. Bunyi futuristik? Dalam ini a

Pengenalan Industri kewangan adalah asas kepada mana -mana pembangunan negara, kerana ia memacu pertumbuhan ekonomi dengan memudahkan urus niaga yang cekap dan ketersediaan kredit. The ease with which transactions occur and credit

Pengenalan Data dijana pada kadar yang belum pernah terjadi sebelumnya dari sumber seperti media sosial, urus niaga kewangan, dan platform e-dagang. Mengendalikan aliran maklumat yang berterusan ini adalah satu cabaran, tetapi ia menawarkan


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

SublimeText3 Linux versi baharu
SublimeText3 Linux versi terkini

Dreamweaver Mac版
Alat pembangunan web visual

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

mPDF
mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

VSCode Windows 64-bit Muat Turun
Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft