cari
RumahPeranti teknologiAIGraf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

kertas arXiv "Graph-DETR3D: Memikirkan Semula Kawasan Bertindih untuk Pengesanan Objek 3D Berbilang Paparan", 22 Jun, hasil kerja Universiti Sains dan Teknologi China, Institut Teknologi Harbin dan SenseTime.

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Mengesan objek 3-D daripada berbilang paparan imej ialah tugas asas namun mencabar dalam pemahaman pemandangan visual. Oleh kerana kosnya yang rendah dan kecekapan tinggi, pengesanan objek 3-D berbilang paparan menunjukkan prospek aplikasi yang luas. Walau bagaimanapun, disebabkan kekurangan maklumat mendalam, adalah amat sukar untuk mengesan objek dengan tepat melalui perspektif dalam ruang 3-D. Baru-baru ini, DETR3D memperkenalkan paradigma pertanyaan 3D-2D baharu untuk mengagregatkan imej berbilang paparan untuk pengesanan objek 3D dan mencapai prestasi terkini.

Melalui eksperimen berpandu intensif, kertas kerja ini mengukur sasaran yang terletak di kawasan berbeza dan mendapati bahawa "kejadian terpenggal" (iaitu, kawasan sempadan setiap imej) adalah halangan utama yang menghalang prestasi DETR3D. Walaupun menggabungkan berbilang ciri daripada dua paparan bersebelahan dalam kawasan bertindih, DETR3D masih mengalami pengagregatan ciri yang tidak mencukupi dan oleh itu terlepas peluang untuk meningkatkan prestasi pengesanan sepenuhnya.

Untuk menyelesaikan masalah ini, Graph-DETR3D dicadangkan untuk mengagregatkan maklumat imej berbilang paparan secara automatik melalui pembelajaran struktur graf (GSL). Peta 3D dinamik dibina antara setiap pertanyaan sasaran dan peta ciri 2-D untuk meningkatkan perwakilan sasaran, terutamanya di kawasan sempadan. Selain itu, Graph-DETR3D mendapat manfaat daripada strategi latihan pelbagai skala invarian kedalaman baharu, yang mengekalkan konsistensi kedalaman visual dengan menskalakan saiz imej dan kedalaman sasaran secara serentak.

Perbezaan Graph-DETR3D terletak pada dua perkara, seperti yang ditunjukkan dalam rajah: (1) modul pengagregatan ciri graf dinamik; (2) strategi latihan pelbagai skala invarian dalam. Ia mengikut struktur asas DETR3D dan terdiri daripada tiga komponen: pengekod imej, penyahkod pengubah dan kepala ramalan sasaran. Memandangkan set imej I = {I1, I2,…,IK} (dirakam oleh N kamera peri-lihat), Graph-DETR3D bertujuan untuk meramalkan lokasi dan kategori kotak sempadan yang menarik. Mula-mula, gunakan pengekod imej (termasuk ResNet dan FPN) untuk menukar imej ini menjadi satu set ciri peringkat peta ciri yang agak L F. Kemudian, graf 3-D dinamik dibina untuk mengagregatkan maklumat 2-D secara meluas melalui modul pengagregatan ciri graf dinamik (DGFA) untuk mengoptimumkan perwakilan pertanyaan sasaran. Akhir sekali, pertanyaan sasaran yang dipertingkatkan digunakan untuk mengeluarkan ramalan akhir.

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Rajah menunjukkan proses pengagregatan ciri graf dinamik (DFGA): mula-mula bina graf 3-D yang boleh dipelajari untuk setiap pertanyaan sasaran, dan kemudian bina graf 3-D yang boleh dipelajari daripada satah imej 2-D Ciri-ciri Persampelan. Akhir sekali, perwakilan pertanyaan sasaran dipertingkatkan melalui sambungan graf. Skim penyebaran mesej yang saling berkaitan ini menyokong penghalusan berulang pembinaan struktur graf dan peningkatan ciri.

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Latihan berbilang skala ialah strategi penambahan data yang biasa digunakan dalam tugas pengesanan objek 2D dan 3D, yang terbukti berkesan dan rendah dalam kos inferens. Walau bagaimanapun, ia jarang muncul dalam kaedah pemeriksaan 3-D berasaskan penglihatan. Mengambil kira saiz imej input yang berbeza boleh meningkatkan keteguhan model, sambil melaraskan saiz imej dan mengubah suai parameter dalaman kamera untuk melaksanakan strategi latihan berbilang skala biasa.

Fenomena menarik ialah prestasi akhir menurun dengan mendadak. Dengan menganalisis data input dengan teliti, kami mendapati bahawa hanya menskala semula imej membawa kepada masalah kekaburan perspektif: apabila sasaran diubah saiz kepada skala yang lebih besar/lebih kecil, sifat mutlaknya (iaitu saiz sasaran, jarak ke ego titik) jangan Berubah.

Sebagai contoh konkrit, rajah menunjukkan masalah samar-samar ini: walaupun kedudukan 3D mutlak kawasan yang dipilih dalam (a) dan (b) adalah sama, bilangan piksel imej adalah berbeza. Rangkaian ramalan kedalaman cenderung untuk menganggarkan kedalaman berdasarkan kawasan yang diduduki oleh imej. Oleh itu, corak latihan dalam rajah ini mungkin mengelirukan model ramalan kedalaman dan merosot lagi prestasi akhir.

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Kira semula kedalaman dari perspektif piksel untuk tujuan ini. Pseudokod algoritma adalah seperti berikut:

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Berikut ialah operasi penyahkodan:

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Saiz piksel yang dikira semula ialah:

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Anggap faktor skala r = rx = ry, kemudian mudahkan untuk mendapatkan:

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Keputusan percubaan adalah seperti berikut:

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Nota: DI = Kedalaman-Invarian

Atas ialah kandungan terperinci Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Apakah graf pemikiran dalam kejuruteraan segeraApakah graf pemikiran dalam kejuruteraan segeraApr 13, 2025 am 11:53 AM

Pengenalan Dalam kejuruteraan segera, "Grafik Pemikiran" merujuk kepada pendekatan baru yang menggunakan teori graf untuk struktur dan membimbing proses penalaran AI. Tidak seperti kaedah tradisional, yang sering melibatkan linear

Mengoptimumkan pemasaran e -mel organisasi anda dengan agen genaiMengoptimumkan pemasaran e -mel organisasi anda dengan agen genaiApr 13, 2025 am 11:44 AM

Pengenalan Tahniah! Anda menjalankan perniagaan yang berjaya. Melalui laman web anda, kempen media sosial, webinar, persidangan, sumber percuma, dan sumber lain, anda mengumpul 5000 ID e -mel setiap hari. Langkah jelas seterusnya adalah

Pemantauan Prestasi Aplikasi Masa Nyata dengan Apache PinotPemantauan Prestasi Aplikasi Masa Nyata dengan Apache PinotApr 13, 2025 am 11:40 AM

Pengenalan Dalam persekitaran pembangunan perisian pantas hari ini, memastikan prestasi aplikasi yang optimum adalah penting. Memantau metrik masa nyata seperti masa tindak balas, kadar ralat, dan penggunaan sumber dapat membantu utama

Chatgpt mencecah 1 bilion pengguna? 'Dua kali ganda dalam beberapa minggu' kata Ketua Pegawai Eksekutif OpenaiChatgpt mencecah 1 bilion pengguna? 'Dua kali ganda dalam beberapa minggu' kata Ketua Pegawai Eksekutif OpenaiApr 13, 2025 am 11:23 AM

"Berapa banyak pengguna yang anda ada?" Dia ditakdirkan. "Saya fikir kali terakhir yang kami katakan ialah 500 juta aktif mingguan, dan ia berkembang dengan pesat," jawab Altman. "Anda memberitahu saya bahawa ia seperti dua kali ganda dalam beberapa minggu sahaja," kata Anderson. "Saya mengatakan bahawa priv

Pixtral -12b: Model Multimodal Pertama Mistral Ai 'Pixtral -12b: Model Multimodal Pertama Mistral Ai 'Apr 13, 2025 am 11:20 AM

Pengenalan Mistral telah mengeluarkan model multimodal yang pertama, iaitu Pixtral-12B-2409. Model ini dibina atas parameter 12 bilion Mistral, NEMO 12B. Apa yang membezakan model ini? Ia kini boleh mengambil kedua -dua gambar dan Tex

Rangka Kerja Agentik untuk Aplikasi AI Generatif - Analytics VidhyaRangka Kerja Agentik untuk Aplikasi AI Generatif - Analytics VidhyaApr 13, 2025 am 11:13 AM

Bayangkan mempunyai pembantu berkuasa AI yang bukan sahaja memberi respons kepada pertanyaan anda tetapi juga mengumpulkan maklumat, melaksanakan tugas, dan juga mengendalikan pelbagai jenis teks, imej, dan kod. Bunyi futuristik? Dalam ini a

Aplikasi AI Generatif di Sektor KewanganAplikasi AI Generatif di Sektor KewanganApr 13, 2025 am 11:12 AM

Pengenalan Industri kewangan adalah asas kepada mana -mana pembangunan negara, kerana ia memacu pertumbuhan ekonomi dengan memudahkan urus niaga yang cekap dan ketersediaan kredit. The ease with which transactions occur and credit

Panduan untuk pembelajaran dalam talian dan algoritma pasif-agresifPanduan untuk pembelajaran dalam talian dan algoritma pasif-agresifApr 13, 2025 am 11:09 AM

Pengenalan Data dijana pada kadar yang belum pernah terjadi sebelumnya dari sumber seperti media sosial, urus niaga kewangan, dan platform e-dagang. Mengendalikan aliran maklumat yang berterusan ini adalah satu cabaran, tetapi ia menawarkan

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

SublimeText3 Linux versi baharu

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

Dreamweaver Mac版

Dreamweaver Mac版

Alat pembangunan web visual

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

mPDF

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft