cari
RumahPeranti teknologiAIGraf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

kertas arXiv "Graph-DETR3D: Memikirkan Semula Kawasan Bertindih untuk Pengesanan Objek 3D Berbilang Paparan", 22 Jun, hasil kerja Universiti Sains dan Teknologi China, Institut Teknologi Harbin dan SenseTime.

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Mengesan objek 3-D daripada berbilang paparan imej ialah tugas asas namun mencabar dalam pemahaman pemandangan visual. Oleh kerana kosnya yang rendah dan kecekapan tinggi, pengesanan objek 3-D berbilang paparan menunjukkan prospek aplikasi yang luas. Walau bagaimanapun, disebabkan kekurangan maklumat mendalam, adalah amat sukar untuk mengesan objek dengan tepat melalui perspektif dalam ruang 3-D. Baru-baru ini, DETR3D memperkenalkan paradigma pertanyaan 3D-2D baharu untuk mengagregatkan imej berbilang paparan untuk pengesanan objek 3D dan mencapai prestasi terkini.

Melalui eksperimen berpandu intensif, kertas kerja ini mengukur sasaran yang terletak di kawasan berbeza dan mendapati bahawa "kejadian terpenggal" (iaitu, kawasan sempadan setiap imej) adalah halangan utama yang menghalang prestasi DETR3D. Walaupun menggabungkan berbilang ciri daripada dua paparan bersebelahan dalam kawasan bertindih, DETR3D masih mengalami pengagregatan ciri yang tidak mencukupi dan oleh itu terlepas peluang untuk meningkatkan prestasi pengesanan sepenuhnya.

Untuk menyelesaikan masalah ini, Graph-DETR3D dicadangkan untuk mengagregatkan maklumat imej berbilang paparan secara automatik melalui pembelajaran struktur graf (GSL). Peta 3D dinamik dibina antara setiap pertanyaan sasaran dan peta ciri 2-D untuk meningkatkan perwakilan sasaran, terutamanya di kawasan sempadan. Selain itu, Graph-DETR3D mendapat manfaat daripada strategi latihan pelbagai skala invarian kedalaman baharu, yang mengekalkan konsistensi kedalaman visual dengan menskalakan saiz imej dan kedalaman sasaran secara serentak.

Perbezaan Graph-DETR3D terletak pada dua perkara, seperti yang ditunjukkan dalam rajah: (1) modul pengagregatan ciri graf dinamik; (2) strategi latihan pelbagai skala invarian dalam. Ia mengikut struktur asas DETR3D dan terdiri daripada tiga komponen: pengekod imej, penyahkod pengubah dan kepala ramalan sasaran. Memandangkan set imej I = {I1, I2,…,IK} (dirakam oleh N kamera peri-lihat), Graph-DETR3D bertujuan untuk meramalkan lokasi dan kategori kotak sempadan yang menarik. Mula-mula, gunakan pengekod imej (termasuk ResNet dan FPN) untuk menukar imej ini menjadi satu set ciri peringkat peta ciri yang agak L F. Kemudian, graf 3-D dinamik dibina untuk mengagregatkan maklumat 2-D secara meluas melalui modul pengagregatan ciri graf dinamik (DGFA) untuk mengoptimumkan perwakilan pertanyaan sasaran. Akhir sekali, pertanyaan sasaran yang dipertingkatkan digunakan untuk mengeluarkan ramalan akhir.

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Rajah menunjukkan proses pengagregatan ciri graf dinamik (DFGA): mula-mula bina graf 3-D yang boleh dipelajari untuk setiap pertanyaan sasaran, dan kemudian bina graf 3-D yang boleh dipelajari daripada satah imej 2-D Ciri-ciri Persampelan. Akhir sekali, perwakilan pertanyaan sasaran dipertingkatkan melalui sambungan graf. Skim penyebaran mesej yang saling berkaitan ini menyokong penghalusan berulang pembinaan struktur graf dan peningkatan ciri.

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Latihan berbilang skala ialah strategi penambahan data yang biasa digunakan dalam tugas pengesanan objek 2D dan 3D, yang terbukti berkesan dan rendah dalam kos inferens. Walau bagaimanapun, ia jarang muncul dalam kaedah pemeriksaan 3-D berasaskan penglihatan. Mengambil kira saiz imej input yang berbeza boleh meningkatkan keteguhan model, sambil melaraskan saiz imej dan mengubah suai parameter dalaman kamera untuk melaksanakan strategi latihan berbilang skala biasa.

Fenomena menarik ialah prestasi akhir menurun dengan mendadak. Dengan menganalisis data input dengan teliti, kami mendapati bahawa hanya menskala semula imej membawa kepada masalah kekaburan perspektif: apabila sasaran diubah saiz kepada skala yang lebih besar/lebih kecil, sifat mutlaknya (iaitu saiz sasaran, jarak ke ego titik) jangan Berubah.

Sebagai contoh konkrit, rajah menunjukkan masalah samar-samar ini: walaupun kedudukan 3D mutlak kawasan yang dipilih dalam (a) dan (b) adalah sama, bilangan piksel imej adalah berbeza. Rangkaian ramalan kedalaman cenderung untuk menganggarkan kedalaman berdasarkan kawasan yang diduduki oleh imej. Oleh itu, corak latihan dalam rajah ini mungkin mengelirukan model ramalan kedalaman dan merosot lagi prestasi akhir.

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Kira semula kedalaman dari perspektif piksel untuk tujuan ini. Pseudokod algoritma adalah seperti berikut:

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Berikut ialah operasi penyahkodan:

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Saiz piksel yang dikira semula ialah:

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Anggap faktor skala r = rx = ry, kemudian mudahkan untuk mendapatkan:

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Keputusan percubaan adalah seperti berikut:

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan

Nota: DI = Kedalaman-Invarian

Atas ialah kandungan terperinci Graf-DETR3D: Memikirkan semula kawasan bertindih dalam pengesanan objek 3D berbilang paparan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Anda mesti membina tempat kerja ai di belakang tudung kejahilanAnda mesti membina tempat kerja ai di belakang tudung kejahilanApr 29, 2025 am 11:15 AM

Dalam buku seminal John Rawls pada tahun 1971 The Theory of Justice, beliau mencadangkan percubaan pemikiran yang harus kita ambil sebagai inti reka bentuk AI hari ini dan menggunakan keputusan: tudung kejahilan. Falsafah ini menyediakan alat yang mudah untuk memahami ekuiti dan juga menyediakan pelan tindakan untuk pemimpin untuk menggunakan pemahaman ini untuk mereka bentuk dan melaksanakan AI dengan cara yang saksama. Bayangkan anda membuat peraturan untuk masyarakat baru. Tetapi ada premis: anda tidak tahu terlebih dahulu apa peranan yang akan anda mainkan dalam masyarakat ini. Anda mungkin menjadi kaya atau miskin, sihat atau kurang upaya, milik majoriti atau minoriti marginal. Beroperasi di bawah "VEIL OF KETIGA" ini menghalang pembuat peraturan daripada membuat keputusan yang memberi manfaat kepada diri mereka sendiri. Sebaliknya, orang akan lebih bermotivasi untuk merumuskan orang ramai

Keputusan, Keputusan ... Langkah seterusnya untuk Praktikal Gunaan AIKeputusan, Keputusan ... Langkah seterusnya untuk Praktikal Gunaan AIApr 29, 2025 am 11:14 AM

Banyak syarikat yang mengkhususkan diri dalam Automasi Proses Robot (RPA), menawarkan bot untuk mengautomasikan tugas berulang -UIPATH, Automasi di mana sahaja, Prism Blue, dan lain -lain. Sementara itu, proses perlombongan, orkestrasi, dan pemprosesan dokumen pintar Special

Ejen akan datang - lebih banyak mengenai apa yang akan kita lakukan di sebelah rakan kongsi AIEjen akan datang - lebih banyak mengenai apa yang akan kita lakukan di sebelah rakan kongsi AIApr 29, 2025 am 11:13 AM

Masa depan AI bergerak melampaui ramalan kata mudah dan simulasi perbualan; Ejen AI muncul, mampu tindakan bebas dan penyelesaian tugas. Peralihan ini sudah jelas dalam alat seperti Claude Anthropic. Ejen AI: Penyelidikan a

Mengapa empati lebih penting daripada mengawal pemimpin dalam masa depan yang didorong oleh AIMengapa empati lebih penting daripada mengawal pemimpin dalam masa depan yang didorong oleh AIApr 29, 2025 am 11:12 AM

Kemajuan teknologi yang pesat memerlukan perspektif yang berpandangan ke hadapan pada masa depan kerja. Apa yang berlaku apabila AI melampaui peningkatan produktiviti semata -mata dan mula membentuk struktur masyarakat kita? Buku yang akan datang Topher McDougal, Gaia Wakes:

AI untuk Klasifikasi Produk: Bolehkah Mesin Undang -undang Cukai Master?AI untuk Klasifikasi Produk: Bolehkah Mesin Undang -undang Cukai Master?Apr 29, 2025 am 11:11 AM

Klasifikasi produk, sering melibatkan kod kompleks seperti "HS 8471.30" dari sistem seperti sistem harmoni (HS), adalah penting untuk perdagangan antarabangsa dan jualan domestik. Kod ini memastikan permohonan cukai yang betul, memberi kesan kepada setiap inv

Bolehkah Pusat Data menuntut mencetuskan pemulihan teknologi iklim?Bolehkah Pusat Data menuntut mencetuskan pemulihan teknologi iklim?Apr 29, 2025 am 11:10 AM

Masa Depan Penggunaan Tenaga di Pusat Data dan Pelaburan Teknologi Iklim Artikel ini menerangkan lonjakan penggunaan tenaga di pusat data yang didorong oleh AI dan kesannya terhadap perubahan iklim, dan menganalisis penyelesaian inovatif dan cadangan dasar untuk menangani cabaran ini. Cabaran Permintaan Tenaga: Pusat data besar-besaran dan ultra-besar menggunakan kuasa besar, setanding dengan jumlah beratus-ratus ribu keluarga Amerika Utara yang biasa, dan pusat-pusat skala ultra-besar AI yang muncul menggunakan puluhan kali lebih banyak kuasa daripada ini. Dalam lapan bulan pertama 2024, Microsoft, Meta, Google dan Amazon telah melabur kira -kira AS $ 125 bilion dalam pembinaan dan operasi pusat data AI (JP Morgan, 2024) (Jadual 1). Permintaan tenaga yang semakin meningkat adalah satu cabaran dan peluang. Menurut Canary Media, elektrik yang menjulang

Ai dan Hollywood's Next Golden AgeAi dan Hollywood's Next Golden AgeApr 29, 2025 am 11:09 AM

AI Generatif merevolusi pengeluaran filem dan televisyen. Model Ray 2 Luma, serta Runway's Gen-4, Openai's Sora, Veo Google dan model-model baru yang lain, meningkatkan kualiti video yang dihasilkan pada kelajuan yang belum pernah terjadi sebelumnya. Model-model ini dengan mudah boleh mewujudkan kesan khas yang kompleks dan adegan yang realistik, walaupun klip video pendek dan kesan gerakan yang diperolehi oleh kamera telah dicapai. Walaupun manipulasi dan konsistensi alat -alat ini masih perlu diperbaiki, kelajuan kemajuan adalah menakjubkan. Video generatif menjadi medium bebas. Sesetengah model baik pada pengeluaran animasi, sementara yang lain baik pada imej aksi langsung. Perlu diingat bahawa Firefly Adobe dan Moonvalley's Ma

Adakah Chatgpt perlahan-lahan menjadi Yes-Man terbesar AI?Adakah Chatgpt perlahan-lahan menjadi Yes-Man terbesar AI?Apr 29, 2025 am 11:08 AM

Pengalaman Pengguna CHATGPT Menolak: Adakah Degradasi Model atau Harapan Pengguna? Baru -baru ini, sebilangan besar pengguna berbayar ChatGPT telah mengadu tentang kemerosotan prestasi mereka, yang telah menarik perhatian yang meluas. Pengguna melaporkan tindak balas yang lebih perlahan terhadap model, jawapan yang lebih pendek, kekurangan bantuan, dan lebih banyak halusinasi. Sesetengah pengguna menyatakan rasa tidak puas hati di media sosial, menunjukkan bahawa ChatGPT telah menjadi "terlalu menyanjung" dan cenderung untuk mengesahkan pandangan pengguna dan bukannya memberikan maklum balas kritikal. Ini bukan sahaja memberi kesan kepada pengalaman pengguna, tetapi juga membawa kerugian sebenar kepada pelanggan korporat, seperti mengurangkan produktiviti dan pembaziran sumber pengkomputeran. Bukti kemerosotan prestasi Ramai pengguna telah melaporkan kemerosotan yang ketara dalam prestasi CHATGPT, terutamanya dalam model yang lebih lama seperti GPT-4 (yang tidak lama lagi akan dihentikan dari perkhidmatan pada akhir bulan ini). ini

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

MinGW - GNU Minimalis untuk Windows

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

SublimeText3 versi Inggeris

SublimeText3 versi Inggeris

Disyorkan: Versi Win, menyokong gesaan kod!

SublimeText3 Linux versi baharu

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Muat turun versi mac editor Atom

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular