cari
RumahPeranti teknologiAIGraf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

kertas arXiv "Graph-DETR3D: Memikirkan Semula Kawasan Bertindih untuk Pengesanan Objek 3D Berbilang Paparan", 22 Jun, hasil kerja Universiti Sains dan Teknologi China, Institut Teknologi Harbin dan SenseTime.

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Mengesan objek 3-D daripada berbilang paparan imej ialah tugas asas namun mencabar dalam pemahaman pemandangan visual. Oleh kerana kosnya yang rendah dan kecekapan tinggi, pengesanan objek 3-D berbilang paparan menunjukkan prospek aplikasi yang luas. Walau bagaimanapun, disebabkan kekurangan maklumat mendalam, adalah amat sukar untuk mengesan objek dengan tepat melalui perspektif dalam ruang 3-D. Baru-baru ini, DETR3D memperkenalkan paradigma pertanyaan 3D-2D baharu untuk mengagregatkan imej berbilang paparan untuk pengesanan objek 3D dan mencapai prestasi terkini.

Melalui eksperimen berpandu intensif, kertas kerja ini mengukur sasaran yang terletak di kawasan berbeza dan mendapati bahawa "kejadian terpenggal" (iaitu, kawasan sempadan setiap imej) adalah halangan utama yang menghalang prestasi DETR3D. Walaupun menggabungkan berbilang ciri daripada dua paparan bersebelahan dalam kawasan bertindih, DETR3D masih mengalami pengagregatan ciri yang tidak mencukupi dan oleh itu terlepas peluang untuk meningkatkan prestasi pengesanan sepenuhnya.

Untuk menyelesaikan masalah ini, Graph-DETR3D dicadangkan untuk mengagregatkan maklumat imej berbilang paparan secara automatik melalui pembelajaran struktur graf (GSL). Peta 3D dinamik dibina antara setiap pertanyaan sasaran dan peta ciri 2-D untuk meningkatkan perwakilan sasaran, terutamanya di kawasan sempadan. Selain itu, Graph-DETR3D mendapat manfaat daripada strategi latihan pelbagai skala invarian kedalaman baharu, yang mengekalkan konsistensi kedalaman visual dengan menskalakan saiz imej dan kedalaman sasaran secara serentak.

Perbezaan Graph-DETR3D terletak pada dua perkara, seperti yang ditunjukkan dalam rajah: (1) modul pengagregatan ciri graf dinamik; (2) strategi latihan pelbagai skala invarian dalam. Ia mengikut struktur asas DETR3D dan terdiri daripada tiga komponen: pengekod imej, penyahkod pengubah dan kepala ramalan sasaran. Memandangkan set imej I = {I1, I2,…,IK} (dirakam oleh N kamera peri-lihat), Graph-DETR3D bertujuan untuk meramalkan lokasi dan kategori kotak sempadan yang menarik. Mula-mula, gunakan pengekod imej (termasuk ResNet dan FPN) untuk menukar imej ini menjadi satu set ciri peringkat peta ciri yang agak L F. Kemudian, graf 3-D dinamik dibina untuk mengagregatkan maklumat 2-D secara meluas melalui modul pengagregatan ciri graf dinamik (DGFA) untuk mengoptimumkan perwakilan pertanyaan sasaran. Akhir sekali, pertanyaan sasaran yang dipertingkatkan digunakan untuk mengeluarkan ramalan akhir.

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Rajah menunjukkan proses pengagregatan ciri graf dinamik (DFGA): mula-mula bina graf 3-D yang boleh dipelajari untuk setiap pertanyaan sasaran, dan kemudian bina graf 3-D yang boleh dipelajari daripada satah imej 2-D Ciri-ciri Persampelan. Akhir sekali, perwakilan pertanyaan sasaran dipertingkatkan melalui sambungan graf. Skim penyebaran mesej yang saling berkaitan ini menyokong penghalusan berulang pembinaan struktur graf dan peningkatan ciri.

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Latihan berbilang skala ialah strategi penambahan data yang biasa digunakan dalam tugas pengesanan objek 2D dan 3D, yang terbukti berkesan dan rendah dalam kos inferens. Walau bagaimanapun, ia jarang muncul dalam kaedah pemeriksaan 3-D berasaskan penglihatan. Mengambil kira saiz imej input yang berbeza boleh meningkatkan keteguhan model, sambil melaraskan saiz imej dan mengubah suai parameter dalaman kamera untuk melaksanakan strategi latihan berbilang skala biasa.

Fenomena menarik ialah prestasi akhir menurun dengan mendadak. Dengan menganalisis data input dengan teliti, kami mendapati bahawa hanya menskala semula imej membawa kepada masalah kekaburan perspektif: apabila sasaran diubah saiz kepada skala yang lebih besar/lebih kecil, sifat mutlaknya (iaitu saiz sasaran, jarak ke ego titik) jangan Berubah.

Sebagai contoh konkrit, rajah menunjukkan masalah samar-samar ini: walaupun kedudukan 3D mutlak kawasan yang dipilih dalam (a) dan (b) adalah sama, bilangan piksel imej adalah berbeza. Rangkaian ramalan kedalaman cenderung untuk menganggarkan kedalaman berdasarkan kawasan yang diduduki oleh imej. Oleh itu, corak latihan dalam rajah ini mungkin mengelirukan model ramalan kedalaman dan merosot lagi prestasi akhir.

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Kira semula kedalaman dari perspektif piksel untuk tujuan ini. Pseudokod algoritma adalah seperti berikut:

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Berikut ialah operasi penyahkodan:

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Saiz piksel yang dikira semula ialah:

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Anggap faktor skala r = rx = ry, kemudian mudahkan untuk mendapatkan:

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Keputusan percubaan adalah seperti berikut:

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Nota: DI = Kedalaman-Invarian

Atas ialah kandungan terperinci Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Alat panggilan di LLMSAlat panggilan di LLMSApr 14, 2025 am 11:28 AM

Model bahasa yang besar (LLMS) telah melonjak populariti, dengan ciri-ciri alat yang secara dramatik memperluaskan keupayaan mereka di luar penjanaan teks mudah. Sekarang, LLMS dapat mengendalikan tugas automasi yang kompleks seperti penciptaan UI dinamik dan autonomi a

Bagaimana permainan ADHD, alat kesihatan & chatbots AI mengubah kesihatan globalBagaimana permainan ADHD, alat kesihatan & chatbots AI mengubah kesihatan globalApr 14, 2025 am 11:27 AM

Bolehkah permainan video meringankan kebimbangan, membina fokus, atau menyokong kanak -kanak dengan ADHD? Memandangkan cabaran penjagaan kesihatan melonjak di seluruh dunia - terutamanya di kalangan belia - inovator beralih kepada alat yang tidak mungkin: permainan video. Sekarang salah satu hiburan terbesar di dunia Indus

Input PBB pada AI: Pemenang, Losers, dan PeluangInput PBB pada AI: Pemenang, Losers, dan PeluangApr 14, 2025 am 11:25 AM

"Sejarah telah menunjukkan bahawa walaupun kemajuan teknologi memacu pertumbuhan ekonomi, ia tidak sendiri memastikan pengagihan pendapatan yang saksama atau menggalakkan pembangunan manusia yang inklusif," tulis Rebeca Grynspan, Setiausaha Agung Unctad, dalam Mukadimah.

Kemahiran rundingan pembelajaran melalui AI generatifKemahiran rundingan pembelajaran melalui AI generatifApr 14, 2025 am 11:23 AM

Easy-peasy, gunakan AI Generatif sebagai tutor rundingan dan rakan kongsi sparring anda. Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menjelaskan

Ted mendedahkan dari Openai, Google, Meta Heads to Court, selfie dengan diri sayaTed mendedahkan dari Openai, Google, Meta Heads to Court, selfie dengan diri sayaApr 14, 2025 am 11:22 AM

Persidangan TED2025, yang diadakan di Vancouver, membungkus edisi ke -36 semalam, 11 April. Ia menampilkan 80 penceramah dari lebih daripada 60 negara, termasuk Sam Altman, Eric Schmidt, dan Palmer Luckey. Tema Ted, "Kemanusiaan Reimagined," telah disesuaikan dibuat

Joseph Stiglitz memberi amaran tentang ketidaksamaan yang menjulang di tengah -tengah kuasa monopoli AIJoseph Stiglitz memberi amaran tentang ketidaksamaan yang menjulang di tengah -tengah kuasa monopoli AIApr 14, 2025 am 11:21 AM

Joseph Stiglitz adalah ahli ekonomi yang terkenal dan penerima Hadiah Nobel dalam Ekonomi pada tahun 2001. Stiglitz berpendapat bahawa AI dapat memburukkan lagi ketidaksamaan dan kuasa yang disatukan di tangan beberapa syarikat dominan, akhirnya menjejaskan ekonomi

Apakah pangkalan data graf?Apakah pangkalan data graf?Apr 14, 2025 am 11:19 AM

Pangkalan Data Graf: Merevolusi Pengurusan Data Melalui Hubungan Apabila data berkembang dan ciri -cirinya berkembang di pelbagai bidang, pangkalan data grafik muncul sebagai penyelesaian transformatif untuk menguruskan data yang saling berkaitan. Tidak seperti tradisional

LLM Routing: Strategi, Teknik, dan Pelaksanaan PythonLLM Routing: Strategi, Teknik, dan Pelaksanaan PythonApr 14, 2025 am 11:14 AM

Routing Model Besar (LLM): Mengoptimumkan Prestasi melalui Pengedaran Tugas Pintar Landskap LLM yang pesat berkembang membentangkan pelbagai model, masing -masing dengan kekuatan dan kelemahan yang unik. Beberapa cemerlang di Gen Kandungan Kreatif

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

Dreamweaver Mac版

Dreamweaver Mac版

Alat pembangunan web visual

MinGW - GNU Minimalis untuk Windows

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.