Rumah >Peranti teknologi >AI >Rangkaian persepsi untuk kedalaman, sikap dan anggaran jalan dalam senario pemanduan bersama
Kertas arXiv "JPerceiver: Rangkaian Persepsi Bersama untuk Kedalaman, Pose dan Anggaran Susun Atur dalam Pemandangan Pemanduan", yang dimuat naik pada 22 Julai, melaporkan hasil kerja Profesor Tao Dacheng dari Universiti Sydney, Australia, dan Institut Penyelidikan JD Beijing .
Anggaran kedalaman, visual odometri (VO) dan pandangan mata burung (BEV) anggaran susun atur pemandangan ialah tiga tugas utama untuk memacu persepsi pemandangan, yang merupakan kunci kepada gerakan secara autonomi pemanduan. Asas perancangan dan pelayaran. Walaupun saling melengkapi, mereka biasanya menumpukan pada tugasan yang berasingan dan jarang menangani ketiga-tiganya secara serentak.
Pendekatan mudah ialah melakukannya secara bebas secara berurutan atau selari, tetapi terdapat tiga kelemahan, iaitu 1) kedalaman dan keputusan VO dipengaruhi oleh masalah kekaburan skala yang wujud 2) susun atur BEV biasanya dilakukan menganggarkan jalan dan kenderaan secara bebas sambil mengabaikan perhubungan tindanan-dasar yang jelas 3) Walaupun peta kedalaman adalah petunjuk geometri yang berguna untuk membuat kesimpulan reka letak pemandangan, reka letak BEV sebenarnya diramalkan terus daripada imej pandangan hadapan tanpa menggunakan sebarang maklumat berkaitan kedalaman.
Kertas kerja ini mencadangkan rangka kerja persepsi bersama JPerceiver untuk menyelesaikan masalah ini dan pada masa yang sama menganggarkan kedalaman persepsi skala, reka letak VO dan BEV daripada jujukan video monokular. Gunakan transformasi geometri pandangan silang (CGT) untuk menyebarkan skala mutlak daripada susun atur jalan ke kedalaman dan VO mengikut kehilangan skala yang direka dengan teliti. Pada masa yang sama, modul cross-view and cross-modal transfer (CCT) direka bentuk untuk menggunakan petunjuk kedalaman untuk menaakul tentang susun atur jalan dan kenderaan melalui mekanisme perhatian.
JPerceiver dilatih dalam kaedah pembelajaran berbilang tugas hujung ke hujung, di mana kehilangan skala CGT dan modul CCT menggalakkan pemindahan pengetahuan antara tugas dan memudahkan pembelajaran ciri untuk setiap tugas. Kod dan model boleh dimuat turunhttps://github.com/sunnyHelen/JPerceiver.
Seperti yang ditunjukkan dalam rajah, JPerceiver terdiri daripada tiga rangkaian: kedalaman, sikap dan susun atur jalan, semuanya berdasarkan seni bina pengekod-penyahkod. Rangkaian kedalaman bertujuan untuk meramalkan peta kedalaman Dt bagi bingkai semasa Ia, di mana setiap nilai kedalaman mewakili jarak antara titik 3D dan kamera. Matlamat rangkaian pose adalah untuk meramalkan transformasi pose Tt→t+m antara bingkai semasa It dan bingkai bersebelahan It+m. Matlamat rangkaian susun atur jalan adalah untuk menganggarkan Lt susun atur BEV bagi rangka semasa, iaitu penghunian semantik jalan dan kenderaan dalam pesawat Cartesian pandangan atas. Tiga rangkaian tersebut dioptimumkan bersama semasa latihan.
CCT-CV dan CCT-CM modul cross-view dan modul cross-modal.
Dalam CCT, Ff dan Fd diekstrak oleh pengekod cabang persepsi yang sepadan, manakala Fb diperoleh melalui unjuran pandangan MLP untuk menukar Ff kepada BEV, dan kehilangan kitaran mengekang MLP yang sama untuk menukarnya semula kepada Ff′ .
Dalam CCT-CV, mekanisme perhatian silang digunakan untuk menemui korespondensi geometri antara paparan hadapan dan ciri BEV, dan kemudian membimbing pemurnian maklumat pandangan hadapan dan bersedia untuk inferens BEV. Untuk menggunakan sepenuhnya ciri imej paparan hadapan, Fb dan Ff diunjurkan kepada tampalan: Qbi dan Kbi, sebagai pertanyaan dan kunci masing-masing.
Selain menggunakan ciri pandangan hadapan, CCT-CM juga digunakan untuk mengenakan maklumat geometri 3-D daripada Fd. Memandangkan Fd diekstrak daripada imej paparan hadapan, adalah munasabah untuk menggunakan Ff sebagai jambatan untuk mengurangkan jurang rentas modal dan mempelajari kesesuaian antara Fd dan Fb. Fd memainkan peranan Nilai, dengan itu memperoleh maklumat geometri 3-D yang berharga berkaitan dengan maklumat BEV dan meningkatkan lagi ketepatan anggaran susun atur jalan.
Dalam proses meneroka rangka kerja pembelajaran bersama untuk meramalkan susun atur yang berbeza secara serentak, terdapat perbezaan besar dalam ciri dan pengedaran kategori semantik yang berbeza. Untuk ciri, susun atur jalan dalam senario pemanduan biasanya perlu disambungkan, manakala sasaran kenderaan yang berbeza mesti dibahagikan.
Mengenai pengedaran, lebih banyak adegan jalan lurus diperhatikan daripada adegan berpusing, yang munasabah dalam set data sebenar. Perbezaan dan ketidakseimbangan ini meningkatkan kesukaran pembelajaran susun atur BEV, terutamanya meramalkan kategori yang berbeza secara bersama, kerana kehilangan entropi silang (CE) mudah atau kehilangan L1 gagal dalam kes ini. Beberapa kehilangan segmentasi, termasuk kehilangan CE berasaskan pengedaran, kehilangan IoU berasaskan wilayah dan kehilangan sempadan, digabungkan menjadi kerugian hibrid untuk meramalkan susun atur setiap kategori.
Keputusan percubaan adalah seperti berikut:
Atas ialah kandungan terperinci Rangkaian persepsi untuk kedalaman, sikap dan anggaran jalan dalam senario pemanduan bersama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!