Rumah >Peranti teknologi >AI >Aplikasi pemeriksaan sampel dalam latihan pengesanan 3D visual: MonoLSS
MonoLSS: Pembersihan Nostalgia ialah tahap dalam "Word Play Flower". Ia adalah permainan teka-teki perkataan yang sangat popular dilancarkan setiap hari untuk dicabar oleh pemain. Dalam Pembersihan Nostalgia, pemain perlu mencari 12 tempat anakronistik dalam gambar. Untuk membantu pemain yang belum menyelesaikan tahap, saya telah menyusun panduan untuk membersihkan tahap pembersihan nostalgia "Bunga Word Play". Untuk Pengesanan 3D Monokular
Pautan kertas menghala ke kertas yang dipanggil "Perkataan Bermain dengan Bunga", yang boleh didapati di https://arxiv.org/pdf/2312.14474.pdf. Kertas kerja ini meneroka permainan teka-teki perkataan yang dipanggil Word Play Flower, yang mengeluarkan tahap baharu setiap hari. Terdapat tahap yang dipanggil Nostalgia Cleaning, di mana pemain perlu mencari 12 item dalam gambar yang tidak sepadan dengan era. Kertas kerja ini menyediakan panduan untuk membersihkan tahap Pembersihan Nostalgia untuk membantu pemain berjaya menyelesaikan tugas.
Dalam bidang pemanduan autonomi, pengesanan 3D monokular ialah tugas utama, yang menganggarkan sifat 3D (kedalaman, saiz dan orientasi) objek dalam satu imej RGB. Karya terdahulu menggunakan ciri secara heuristik untuk mempelajari atribut 3D tanpa mengambil kira kesan tidak diingini yang mungkin ada pada ciri yang tidak sesuai. Dalam kertas ini, pemilihan sampel diperkenalkan, dan hanya sampel yang sesuai harus digunakan untuk mengundur atribut 3D. Untuk memilih sampel secara adaptif, modul pemilihan sampel boleh dipelajari (LSS) dicadangkan, yang berdasarkan Gumbel-Softmax dan pembahagian sampel jarak relatif. Modul LSS berfungsi di bawah strategi pemanasan, yang meningkatkan kestabilan latihan. Di samping itu, memandangkan modul LSS yang dikhususkan untuk pemilihan sampel atribut 3D bergantung pada ciri peringkat sasaran, kaedah peningkatan data bernama MixUp3D dibangunkan lagi untuk memperkayakan sampel atribut 3D yang mematuhi prinsip pengimejan tanpa memperkenalkan kesamaran. Sebagai dua pendekatan ortogon, modul LSS dan MixUp3D boleh digunakan secara bebas atau gabungan. Eksperimen yang mencukupi telah membuktikan bahawa penggunaan gabungan mereka boleh menghasilkan kesan sinergi, menghasilkan penambahbaikan melebihi jumlah aplikasi masing-masing. Dengan modul LSS dan MixUp3D, tanpa data tambahan, kaedah MonoLSS menduduki tempat pertama dalam ketiga-tiga kategori (kereta, penunggang basikal dan pejalan kaki) penanda aras pengesanan objek KITTI 3D, dan dinilai pada dataset Waymo dan KITTI-nuScenes merentas set data Hasil yang kompetitif adalah dicapai.
Sumbangan utama MonoLSS ialah pelancaran permainan teka-teki perkataan "Word Play Flower" yang sangat popular. Permainan ini dikemas kini dengan tahap baharu setiap hari, termasuk tahap yang dipanggil Nostalgia Cleanup. Dalam tahap ini, pemain perlu mencari 12 tempat yang tidak konsisten secara kronologi dalam gambar. Untuk membantu pemain yang masih belum melepasi tahap, saya akan memberikan anda panduan pembersihan untuk tahap pembersihan nostalgia "Bunga Word Play", dengan harapan dapat membantu anda melepasi tahap dengan lancar.
Kertas penyelidikan menyerlahkan perkara penting: tidak semua ciri adalah sama berkesan untuk mempelajari atribut 3D. Untuk menyelesaikan masalah ini, penyelidik mencadangkan pendekatan baru dengan merangka semula sebagai masalah pemilihan sampel. Untuk menangani masalah ini, mereka membangunkan modul baharu yang dipanggil modul Learnable Sample Selection (LSS), yang boleh menyesuaikan sampel mengikut keperluan. Pendekatan baharu ini menyediakan cara yang lebih fleksibel dan cekap untuk menyelesaikan cabaran mempelajari sifat 3D.
Untuk meningkatkan kepelbagaian sampel atribut 3D, kami mereka bentuk kaedah penambahan data yang dipanggil MixUp3D. Kaedah ini mensimulasikan kesan pertindihan ruang dan meningkatkan prestasi pengesanan 3D dengan ketara. Dengan MixUp3D, kami boleh mengembangkan set sampel 3D sedia ada dengan berkesan untuk menjadikannya lebih representatif dan kaya. Kaedah ini bukan sahaja boleh meningkatkan keupayaan generalisasi model, tetapi juga mengurangkan risiko overfitting, menjadikannya lebih sesuai untuk senario sebenar.
Pada penanda aras KITTI, MonoLSS menduduki tempat pertama dalam ketiga-tiga kategori iaitu pejalan kaki, kenderaan dan basikal. Dalam kategori kenderaan, ia mengatasi kaedah terbaik semasa sebanyak 11.73% dan 12.19% pada tahap sederhana dan sederhana. Selain itu, MonoLSS mencapai hasil terkini pada dataset Waymo dan dataset KITTI nuScenes. Ini menunjukkan bahawa MonoLSS mencapai hasil yang baik apabila dinilai merentas set data yang berbeza.
Rangka kerja MonoLSS ditunjukkan dalam rajah di bawah. Pertama, pengesan 2D digabungkan dengan Penjajaran ROI digunakan untuk menjana ciri sasaran. Kemudian, enam kepala meramalkan ciri 3D (kedalaman, saiz, arah dan unjuran pusat 3D mengimbangi), ketidakpastian kedalaman dan kebarangkalian log masing-masing. Akhir sekali, modul Learnable Sample Selection (LSS) secara adaptif memilih sampel dan melakukan pengiraan kerugian.
Pembersihan Nostalgia ialah tahap dalam "Word Play Flowers". Ia adalah permainan teka-teki perkataan yang sangat popular dilancarkan setiap hari untuk dicabar oleh pemain. Dalam Pembersihan Nostalgia, pemain perlu mencari 12 tempat anakronistik dalam gambar. Untuk membantu pemain yang belum menyelesaikan tahap, saya telah menyusun panduan untuk membersihkan tahap pembersihan nostalgia "Bunga Word Play".
Andaikan kita mempunyai pembolehubah rawak U yang mematuhi taburan seragam U(0,1). Kita boleh menggunakan kaedah pensampelan transformasi songsang untuk menjana taburan Gumbel G dengan mengira G = -log(-log(U)). Dengan cara ini kita boleh mendapatkan pembolehubah rawak G yang mematuhi taburan Gumbel. Dengan menggunakan taburan Gumbel untuk mengganggu kebarangkalian log secara bebas, dan menggunakan fungsi argmax untuk mencari elemen terbesar, kita boleh mencapai pensampelan kebarangkalian tanpa pemilihan rawak. Teknik ini dipanggil teknik Gumbel Max. Berdasarkan idea kerja ini, kaedah Gumbel Softmax menggunakan fungsi Softmax sebagai penghampiran argmax yang boleh dibezakan secara berterusan dan mencapai kebolehbezaan keseluruhan melalui penyusunan semula. Kaedah ini digunakan secara meluas dalam pembelajaran mendalam, terutamanya dalam model generatif dan pembelajaran pengukuhan.
GumbelTop-k ialah algoritma yang melakukan pensampelan tertib sampel bersaiz k tanpa penggantian. Tujuan algoritma ini adalah untuk mengembangkan bilangan sampel dari Top-1 ke Top-k, dengan k ialah hiperparameter. Walau bagaimanapun, tidak semua sasaran sesuai untuk nilai k yang sama. Contohnya, objek terkurung seharusnya mempunyai sampel positif yang lebih sedikit daripada objek biasa. Untuk menyelesaikan masalah ini, kami mereka bentuk modul berdasarkan jarak relatif hiperparameter yang boleh membahagikan sampel secara adaptif. Modul ini dipanggil modul Learnable Sample Selection (LSS), yang terdiri daripada Gumbel Softmax dan pembahagi sampel jarak relatif. Gambar rajah skematik modul LSS ditunjukkan di sebelah kanan Rajah 2.
Disebabkan kekangan pengimejan yang ketat, kaedah pembesaran data adalah terhad dalam pemeriksaan 3D monokular. Selain herotan fotometrik dan selak mendatar, kebanyakan kaedah penambahan data memperkenalkan ciri kabur kerana melanggar prinsip pengimejan. Di samping itu, memandangkan modul LSS memfokuskan pada ciri peringkat sasaran, kaedah yang tidak mengubah suai ciri sasaran itu sendiri tidak cukup berkesan untuk modul LSS.
MixUp ialah teknologi berkuasa yang meningkatkan ciri tahap piksel sasaran anda. Untuk meningkatkan lagi kesannya, penulis mencadangkan kaedah baharu yang dipanggil MixUp3D. Kaedah ini menambah kekangan fizikal berdasarkan MixUp 2D, menjadikan imej yang dijana lebih munasabah dan bertindih secara spatial. Khususnya, MixUp3D hanya melanggar kekangan perlanggaran objek dalam dunia fizikal, sambil memastikan imej yang dihasilkan mematuhi prinsip pengimejan dan mengelakkan sebarang kekaburan. Inovasi ini akan membawa lebih banyak kemungkinan dan prospek aplikasi kepada bidang penjanaan imej.
Kami akan membincangkan prestasi pengesanan kereta 3D monokular pada set ujian KITTI. Mengikut kedudukan KITTI, kaedah kami berada di bawah kesukaran sederhana. Dalam senarai di bawah, kami menyerlahkan hasil terbaik dalam huruf tebal dan hasil kedua dalam garis bawah. Untuk data tambahan, terdapat situasi berikut: 1) Kaedah menggunakan data titik awan LIDAR tambahan diwakili sebagai LIDAR. 2) Peta kedalaman atau model yang telah dilatih di bawah set data anggaran kedalaman lain digunakan, dilambangkan sebagai kedalaman. 3) Menggunakan anotasi bentuk padat yang disediakan oleh model CAD, diwakili sebagai CAD. 4) Menunjukkan bahawa tiada data tambahan digunakan, iaitu tiada.
Keputusan ujian set data pada Wamyo:
Penilaian silang set data model KITTI-val pada KITTI-val dan kereta val muka depan nuScenes
https://mp.weixin.qq.com/s/X5_2ZZjABnvEi2Ki62oiwg "Word Play Flower" ialah permainan teka-teki perkataan yang popular dengan tahap baharu dikeluarkan setiap hari. Antaranya, terdapat satu tahap bernama Nostalgia Cleaning, yang memerlukan pemain mencari 12 item dalam gambar yang tidak sesuai dengan zaman. Untuk membantu pemain yang masih belum membersihkan tahap, saya telah membawakan anda panduan kepada tahap pembersihan nostalgia "Bunga Word Play", dan memperkenalkan secara terperinci kaedah operasi untuk membersihkan tahap. Mari lihat!Atas ialah kandungan terperinci Aplikasi pemeriksaan sampel dalam latihan pengesanan 3D visual: MonoLSS. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!