Rumah > Artikel > Peranti teknologi > UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!
Dalam beberapa tahun kebelakangan ini, persepsi 3D berpusatkan penglihatan dalam teknologi pemanduan autonomi telah berkembang pesat. Walaupun model persepsi 3D adalah sama dari segi struktur dan konsep, masih terdapat jurang dalam perwakilan ciri, format data dan objektif, yang menimbulkan cabaran untuk mereka bentuk rangka kerja persepsi 3D yang bersatu dan cekap. Oleh itu, penyelidik perlu bekerja keras untuk menangani jurang ini untuk mencapai sistem pemanduan autonomi yang lebih tepat dan boleh dipercayai. Melalui kerjasama dan inovasi, kami berharap dapat meningkatkan lagi keselamatan dan prestasi pemanduan autonomi.
Terutama untuk tugas pengesanan dan tugas Pendudukan di bawah BEV, sangat sukar untuk mencapai latihan bersama dan mencapai keputusan yang baik. Ini membawa masalah besar kepada banyak aplikasi kerana ketidakstabilan dan kesan yang sukar dikawal. Walau bagaimanapun, UniVision ialah rangka kerja yang mudah dan cekap yang menyatukan dua tugas utama persepsi 3D bertumpu penglihatan, iaitu ramalan penghunian dan pengesanan objek. Teras rangka kerja ialah modul transformasi paparan eksplisit-implisit untuk transformasi ciri 2D-3D pelengkap. Selain itu, UniVision juga mencadangkan modul pengekstrakan dan gabungan ciri global tempatan untuk pengekstrakan, peningkatan dan interaksi ciri voxel dan BEV yang cekap dan adaptif. Dengan mengguna pakai kaedah ini, UniVision dapat mencapai keputusan yang memuaskan dalam tugas pengesanan dan tugas Pendudukan di bawah BEV.
UniVision mencadangkan strategi peningkatan data pengesanan penghunian bersama dan strategi pelarasan berat kehilangan progresif untuk meningkatkan kecekapan dan kestabilan latihan rangka kerja pelbagai tugas. Percubaan meluas dijalankan pada empat penanda aras awam, termasuk segmentasi lidar bebas adegan, pengesanan bebas adegan, OpenOccupancy dan Occ3D. Keputusan eksperimen menunjukkan UniVision mencapai keuntungan sebanyak +1.5 mIoU, +1.8 NDS, +1.5 mIoU dan +1.8 mIoU masing-masing pada setiap penanda aras, mencapai tahap SOTA. Oleh itu, rangka kerja UniVision boleh berfungsi sebagai garis dasar berprestasi tinggi untuk tugas persepsi 3D berpusatkan penglihatan bersatu.
Persepsi 3D ialah tugas utama sistem pemanduan autonomi Tujuannya adalah untuk menggunakan data yang diperoleh daripada satu siri penderia (seperti lidar, radar dan kamera) untuk memahami secara menyeluruh. adegan pemanduan untuk perancangan dan membuat keputusan penggunaan seterusnya. Pada masa lalu, bidang persepsi 3D telah didominasi oleh model berasaskan lidar disebabkan oleh maklumat 3D yang tepat yang diperoleh daripada data awan titik. Walau bagaimanapun, sistem berasaskan lidar adalah mahal, terdedah kepada cuaca buruk dan menyusahkan untuk digunakan. Sebaliknya, sistem berasaskan penglihatan mempunyai banyak kelebihan, seperti kos rendah, penggunaan mudah dan kebolehskalaan yang baik. Oleh itu, persepsi tiga dimensi yang berpusatkan penglihatan telah menarik perhatian yang meluas daripada penyelidik.
Baru-baru ini, pengesanan 3D berasaskan penglihatan telah mencapai kemajuan yang ketara melalui transformasi perwakilan ciri yang dipertingkatkan, gabungan temporal dan reka bentuk isyarat penyeliaan, dan jurang dengan model berasaskan LiDAR terus mengecil. Di samping itu, tugas penghunian berasaskan penglihatan juga telah berkembang pesat dalam beberapa tahun kebelakangan ini. Tidak seperti menggunakan kotak 3D untuk mewakili objek, penghunian boleh menerangkan ciri geometri dan semantik pemandangan pemanduan dengan lebih menyeluruh dan tidak dihadkan oleh bentuk dan kategori objek.
Walaupun kaedah pengesanan dan kaedah penghunian berkongsi persamaan struktur dan konsep, terdapat penyelidikan yang tidak mencukupi untuk mengendalikan kedua-dua tugas ini secara serentak dan meneroka perkaitan mereka. Model penghunian dan model pengesanan sering mengekstrak perwakilan ciri yang berbeza. Tugas ramalan penghunian memerlukan pertimbangan semantik dan geometri yang lengkap, jadi perwakilan voxel digunakan secara meluas untuk mengekalkan maklumat 3D yang terperinci. Walau bagaimanapun, dalam tugas pengesanan, perwakilan BEV adalah lebih disukai kerana kebanyakan objek terletak pada satah mendatar yang sama dengan pertindihan yang lebih kecil.
Berbanding dengan perwakilan BEV, perwakilan voxel lebih tinggi dalam kehalusan tetapi kurang cekap. Selain itu, banyak pengendali lanjutan terutamanya direka bentuk dan dioptimumkan untuk ciri 2D, menjadikan penyepaduan mereka dengan perwakilan voxel 3D tidak begitu mudah. Perwakilan BEV lebih berfaedah dari segi kecekapan masa dan kecekapan ingatan, tetapi ia adalah suboptimum untuk ramalan spatial padat kerana maklumat struktur hilang dalam dimensi ketinggian. Selain perwakilan ciri, tugas persepsi yang berbeza juga berbeza dalam format dan matlamat data. Oleh itu, memastikan keseragaman dan kecekapan melatih rangka kerja persepsi 3D berbilang tugas adalah satu cabaran besar.
Keseluruhan seni bina rangka kerja UniVision ditunjukkan dalam Rajah 1. Rangka kerja menerima imej berbilang paparan daripada kamera N sekeliling sebagai input dan mengekstrak ciri imej melalui rangkaian pengekstrakan ciri imej. Seterusnya, modul transformasi paparan Ex-Im digunakan untuk menukar ciri imej 2D kepada ciri voxel 3D. Modul ini menggabungkan peningkatan ciri eksplisit berpandukan kedalaman dan persampelan ciri tersirat berpandukan pertanyaan. Selepas transformasi paparan, ciri voxel dimasukkan ke dalam pengekstrakan ciri global tempatan dan blok gabungan untuk mengekstrak ciri voxel sedar konteks tempatan dan ciri BEV sedar konteks global masing-masing. Seterusnya, maklumat ditukar tentang ciri voxel dan ciri BEV untuk tugas persepsi hiliran yang berbeza melalui modul interaksi ciri perwakilan silang. Semasa proses latihan, rangka kerja UniVision menggunakan gabungan peningkatan data Occ-Det dan strategi pelarasan berat penurunan berat badan yang progresif untuk latihan yang berkesan. Strategi ini boleh meningkatkan kesan latihan dan keupayaan generalisasi rangka kerja. Ringkasnya, rangka kerja UniVision merealisasikan tugas untuk mengesan persekitaran sekitar melalui pemprosesan imej berbilang paparan dan ciri voxel 3D, serta aplikasi modul interaksi ciri. Pada masa yang sama, melalui aplikasi peningkatan data dan strategi pelarasan berat badan, kesan latihan rangka kerja dipertingkatkan dengan berkesan.
Peningkatan ciri eksplisit berpandukan kedalaman. Pendekatan LSS diikuti di sini:
2) Pensampelan ciri tersirat berpandukan pertanyaan. Walau bagaimanapun, terdapat beberapa kelemahan dalam mewakili maklumat 3D. Ketepatan sangat berkorelasi dengan ketepatan anggaran taburan kedalaman. Tambahan pula, mata yang dijana oleh LSS tidak diagihkan secara seragam. Titik padat padat berhampiran kamera dan jarang pada jarak. Oleh itu, kami selanjutnya menggunakan pensampelan ciri berpandukan pertanyaan untuk mengimbangi kekurangan di atas.
Berbanding dengan mata yang dijana daripada LSS, pertanyaan voxel diedarkan secara seragam dalam ruang 3D, dan ia dipelajari daripada sifat statistik semua sampel latihan, yang tidak bergantung pada kedalaman maklumat terdahulu yang digunakan dalam LSS. Oleh itu, dan melengkapi antara satu sama lain, ia disambungkan sebagai ciri keluaran modul transformasi pandangan:
Memandangkan ciri voxel input, letakkan terlebih dahulu ciri pada Z -paksi , dan gunakan lapisan konvolusi untuk mengurangkan saluran untuk mendapatkan ciri BEV:
Kemudian, model dibahagikan kepada dua cabang selari untuk pengekstrakan dan peningkatan ciri. Pengekstrakan ciri tempatan + pengekstrakan ciri global, dan interaksi ciri perwakilan silang terakhir! Seperti yang ditunjukkan dalam Rajah 1(b).
Strategi pelarasan berat badan yang progresif. Dalam amalan, didapati bahawa menggabungkan kerugian di atas secara langsung sering menyebabkan proses latihan gagal dan rangkaian gagal untuk menumpu. Pada peringkat awal latihan, ciri voxel Fvoxel diedarkan secara rawak, dan penyeliaan dalam kepala penghunian dan kepala pengesan menyumbang kurang daripada kerugian lain dalam penumpuan. Pada masa yang sama, item kehilangan seperti Lcls kehilangan klasifikasi dalam tugas pengesanan adalah sangat besar dan mendominasi proses latihan, menjadikannya sukar untuk mengoptimumkan model. Untuk mengatasi masalah ini, strategi pelarasan berat badan progresif dicadangkan untuk melaraskan berat badan secara dinamik. Khususnya, parameter kawalan δ ditambah pada kerugian bukan peringkat imej (iaitu, kehilangan penghunian dan kehilangan pengesanan) untuk melaraskan berat kehilangan dalam zaman latihan yang berbeza. Berat kawalan δ ditetapkan kepada nilai Vmin yang kecil pada permulaan dan secara beransur-ansur meningkat kepada Vmax sepanjang N zaman latihan:
Dalam tugas pengesanan 3D, sebagai tambahan kepada peningkatan data peringkat imej biasa, peningkatan data peringkat ruang juga berkesan dalam meningkatkan prestasi model. Walau bagaimanapun, menggunakan peningkatan tahap spatial dalam tugas penghunian adalah tidak mudah. Apabila kami menggunakan penambahan data (seperti penskalaan rawak dan putaran) pada label penghunian diskret, adalah sukar untuk menentukan semantik voxel yang terhasil. Oleh itu, kaedah sedia ada hanya menggunakan pembesaran spatial mudah seperti flipping rawak dalam tugasan penghunian.
Untuk menyelesaikan masalah ini, UniVision mencadangkan penambahan data spatial Occ-Det bersama untuk membolehkan peningkatan serentak tugas pengesanan 3D dan tugas penghunian dalam rangka kerja. Memandangkan label kotak 3D adalah nilai berterusan dan kotak 3D yang dipertingkatkan boleh dikira terus untuk latihan, kaedah peningkatan dalam BEVDet diikuti untuk pengesanan. Walaupun label penghunian adalah diskret dan sukar untuk dimanipulasi, ciri voxel boleh dianggap sebagai berterusan dan boleh diproses melalui operasi seperti pensampelan dan interpolasi. Oleh itu, adalah disyorkan untuk mengubah ciri voxel dan bukannya beroperasi secara langsung pada label penghunian untuk penambahan data.
Secara khusus, penambahan data spatial pertama kali diambil dan matriks transformasi 3D yang sepadan dikira. Untuk label penghunian dan indeks voxelnya , kami mengira koordinat tiga dimensinya. Kemudian, ia akan digunakan dan dinormalkan untuk mendapatkan indeks voxel dalam ciri voxel yang dipertingkatkan:
Menggunakan berbilang set data untuk pengesahan, NuScenes LiDAR Segmentation3D, NuScenes LiDAR Segmentation3D OpenOccupancy dan Occ3D.
Segmentasi LiDAR NuScenes: Menurut OccFormer dan TPVFormer baru-baru ini, imej kamera digunakan sebagai input untuk tugas pembahagian lidar, dan data lidar hanya digunakan untuk menyediakan lokasi 3D untuk menanyakan ciri output. Gunakan mIoU sebagai metrik penilaian.
Pengesanan Objek 3D NuScenes: Untuk tugas pengesanan, gunakan metrik rasmi nuScenes, Skor Pengesanan nuScene (NDS), iaitu jumlah wajaran purata mAP dan beberapa metrik, termasuk ralat terjemahan purata (ATE), ralat skala purata ( ASE) ), ralat orientasi purata (AOE), ralat halaju purata (AVE) dan ralat atribut purata (AAE).
OpenOccupancy: Penanda aras OpenOccupancy adalah berdasarkan set data nuScenes dan menyediakan label penghunian semantik pada resolusi 512×512×40. Kelas berlabel adalah sama seperti yang terdapat dalam tugas pembahagian lidar, menggunakan mIoU sebagai metrik penilaian!
Occ3D: Penanda aras Occ3D adalah berdasarkan set data nuScenes dan menyediakan label penghunian semantik pada resolusi 200×200×16. Occ3D seterusnya menyediakan topeng yang boleh dilihat untuk latihan dan penilaian. Kelas berlabel adalah sama seperti yang terdapat dalam tugas pembahagian lidar, menggunakan mIoU sebagai metrik penilaian!
Jadual 1 menunjukkan keputusan penanda aras segmentasi nuScenes LiDAR. UniVision dengan ketara mengatasi prestasi OccFormer kaedah berasaskan penglihatan terkini sebanyak 1.5% mIoU dan menetapkan rekod baharu untuk model berasaskan penglihatan pada papan pendahulu. Terutama, UniVision juga mengatasi beberapa model berasaskan lidar seperti PolarNe dan DB-UNet.
Seperti yang ditunjukkan dalam Jadual 2, UniVision ditunjukkan untuk mengatasi kaedah lain apabila menggunakan tetapan latihan yang sama untuk perbandingan yang adil. Berbanding dengan BEVDepth pada resolusi imej 512×1408, UniVision masing-masing mencapai keuntungan sebanyak 2.4% dan 1.1% dalam mAP dan NDS. Apabila model ditingkatkan dan UniVision digabungkan dengan input temporal, ia terus mengatasi pengesan temporal berasaskan SOTA dengan margin yang ketara. UniVision mencapai ini dengan resolusi input yang lebih kecil, dan ia tidak menggunakan CBGS.
Keputusan ujian penanda aras OpenOccupancy ditunjukkan dalam Jadual 3. UniVision dengan ketara mengatasi kaedah penghunian berasaskan penglihatan terkini termasuk MonoScene, TPVFormer dan C-CONet dari segi mIoU masing-masing sebanyak 7.3%, 6.5% dan 1.5%. Tambahan pula, UniVision mengatasi beberapa kaedah berasaskan lidar seperti LMSCNet dan JS3C-Net.
Jadual 4 menyenaraikan keputusan penanda aras Occ3D. UniVision dengan ketara mengatasi kaedah berasaskan penglihatan terkini dari segi mIoU di bawah resolusi imej input yang berbeza, masing-masing lebih daripada 2.7% dan 1.8%. Perlu diingat bahawa BEVFormer dan BEVDet-stereo memuatkan pemberat pra-latihan dan menggunakan input temporal dalam inferens, manakala UniVision tidak menggunakannya tetapi masih mencapai prestasi yang lebih baik.
Kajian ablasi tugas pengesanan ditunjukkan dalam Jadual 5. Apabila cawangan pengekstrakan ciri global berasaskan BEV dimasukkan ke dalam model garis dasar, prestasi meningkat sebanyak 1.7% mAP dan 3.0% NDS. Apabila tugas penghunian berasaskan voxel ditambahkan pada pengesan sebagai tugas tambahan, keuntungan mAP model meningkat sebanyak 1.6%. Apabila interaksi perwakilan silang diperkenalkan secara eksplisit daripada ciri voxel, model mencapai prestasi terbaik, meningkatkan mAP dan NDS masing-masing sebanyak 3.5% dan 4.2% berbanding garis dasar
ditunjukkan dalam Jadual 6 untuk kajian ablasi mengenai tugas penghunian. Rangkaian pengekstrakan ciri tempatan berasaskan voxel membawa peningkatan 1.96% keuntungan mIoU kepada model garis dasar. Apabila tugas pengesanan diperkenalkan sebagai isyarat penyeliaan tambahan, prestasi model bertambah baik sebanyak 0.4% mIoU.
Jadual 5 dan Jadual 6 menunjukkan bahawa dalam rangka kerja UniVision, tugas pengesanan dan tugasan penghunian adalah pelengkap antara satu sama lain. Untuk tugas pengesanan, penyeliaan penghunian boleh meningkatkan metrik mAP dan mATE, menunjukkan bahawa pembelajaran semantik voxel secara berkesan meningkatkan persepsi pengesan terhadap geometri objek, iaitu, kepusatan dan skala. Untuk tugasan penghunian, penyeliaan pengesanan meningkatkan prestasi kategori latar depan dengan ketara (iaitu, kategori pengesanan), menghasilkan peningkatan keseluruhan.
menunjukkan keberkesanan gabungan peningkatan spatial Occ-Det, modul penukaran paparan Ex-Im dan strategi pelarasan berat badan progresif dalam Jadual 7. Dengan cadangan penambahan ruang dan modul transformasi paparan yang dicadangkan, ia menunjukkan peningkatan yang ketara dalam tugas pengesanan dan tugasan penghunian pada metrik mIoU, mAP dan NDS. Strategi pelarasan berat badan boleh melatih rangka kerja pelbagai tugas dengan berkesan. Tanpa ini, latihan rangka kerja bersatu tidak dapat bersatu dan prestasinya sangat rendah.
Pautan asal: https://mp.weixin.qq.com/s/8jpS_I-wn1-svR3UlCF7KQ
Atas ialah kandungan terperinci UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!