Rumah  >  Artikel  >  Peranti teknologi  >  ViP3D: Ramalan trajektori visual hujung ke hujung melalui pertanyaan ejen 3D

ViP3D: Ramalan trajektori visual hujung ke hujung melalui pertanyaan ejen 3D

WBOY
WBOYke hadapan
2023-04-08 20:51:081352semak imbas

kertas arXiv "ViP3D: Ramalan Trajektori Visual hujung ke hujung melalui Pertanyaan Agen 3D", dimuat naik pada 2, 22 Ogos, Universiti Tsinghua, Shanghai (Yao) Institut Penyelidikan Qizhi, CMU, Fudan, Li Auto dan MIT, dsb. kerja bersama.

ViP3D: Ramalan trajektori visual hujung ke hujung melalui pertanyaan ejen 3D

Saluran paip pemanduan autonomi sedia ada memisahkan modul persepsi daripada modul ramalan. Kedua-dua modul berkomunikasi melalui ciri yang dipilih secara manual seperti kotak ejen dan trajektori sebagai antara muka. Disebabkan oleh pemisahan ini, modul ramalan hanya menerima sebahagian maklumat daripada modul persepsi. Lebih buruk lagi, ralat daripada modul persepsi boleh merambat dan terkumpul, memberi kesan buruk kepada keputusan ramalan.

Kerja ini mencadangkan ViP3D, saluran paip ramalan trajektori visual yang menggunakan maklumat kaya video asal untuk meramalkan trajektori masa depan ejen dalam tempat kejadian. ViP3D menggunakan pertanyaan ejen yang jarang di seluruh saluran paip, menjadikannya boleh dibezakan sepenuhnya dan boleh ditafsir. Selain itu, indeks penilaian baharu untuk tugas ramalan trajektori visual hujung-ke-hujung dicadangkan, Ketepatan Ramalan Hujung-ke-hujung (EPA, Ketepatan Ramalan Hujung-ke-hujung) , yang mempertimbangkan persepsi secara menyeluruh dan ketepatan ramalan Pada masa yang sama, trajektori yang diramalkan dan trajektori kebenaran tanah dijaringkan.

Gambar menunjukkan perbandingan antara saluran paip berbilang langkah tradisional dan ViP3D: saluran paip tradisional melibatkan berbilang modul tidak boleh dibezakan, seperti pengesanan, penjejakan dan ramalan ViP3D mengambil video berbilang tontonan sebagai input, dalam cara hujung ke hujung Menjana trajektori yang diramalkan yang menggunakan maklumat visual secara berkesan, seperti isyarat membelok kenderaan.

ViP3D: Ramalan trajektori visual hujung ke hujung melalui pertanyaan ejen 3D

ViP3D bertujuan untuk menyelesaikan masalah ramalan trajektori video asal secara menyeluruh. Khususnya, diberikan video berbilang tontonan dan peta definisi tinggi, ViP3D meramalkan trajektori masa depan semua ejen dalam tempat kejadian.

Proses keseluruhan ViP3D ditunjukkan dalam rajah: Pertama, penjejak berasaskan pertanyaan memproses video berbilang tontonan daripada kamera sekeliling untuk mendapatkan pertanyaan ejen yang dijejaki dengan ciri visual. Ciri visual dalam pertanyaan ejen menangkap dinamik pergerakan dan ciri visual ejen, serta hubungan antara ejen. Selepas itu, peramal trajektori mengambil pertanyaan ejen penjejakan sebagai input, mengaitkannya dengan ciri peta HD, dan akhirnya mengeluarkan trajektori yang diramalkan.

ViP3D: Ramalan trajektori visual hujung ke hujung melalui pertanyaan ejen 3D

Penjejak berasaskan pertanyaan mengekstrak ciri visual daripada video mentah kamera sekeliling. Khususnya, untuk setiap bingkai, ciri imej diekstrak mengikut DETR3D. Untuk pengagregatan ciri domain masa, penjejak berasaskan pertanyaan direka bentuk mengikut MOTR ("Motr: Penjejakan berbilang objek hujung ke hujung dengan pengubah". arXiv 2105.03247, 2021), termasuk dua langkah utama : kemas kini ciri pertanyaan dan penyeliaan pertanyaan. Pertanyaan ejen akan dikemas kini dari semasa ke semasa untuk memodelkan dinamik pergerakan ejen.

Kebanyakan kaedah ramalan trajektori sedia ada boleh dibahagikan kepada tiga bahagian: pengekodan ejen, pengekodan peta dan penyahkodan trajektori. Selepas penjejakan berasaskan pertanyaan, pertanyaan ejen yang dijejaki diperoleh, yang boleh dianggap sebagai ciri ejen yang diperoleh melalui pengekodan ejen. Oleh itu, tugas yang tinggal ialah pengekodan peta dan penyahkodan trajektori.

Wakilkan ejen ramalan dan kebenaran sebagai set tidak tertib Sˆ dan S, di mana setiap ejen diwakili oleh koordinat ejen langkah masa semasa dan K kemungkinan trajektori masa hadapan. Bagi setiap jenis ejen c, hitung ketepatan ramalan antara Scˆ dan Sc. Takrifkan kos antara ejen ramalan dan ejen sebenar sebagai:

ViP3D: Ramalan trajektori visual hujung ke hujung melalui pertanyaan ejen 3D

Dengan cara ini, EPA antara Scˆ dan Sc ditakrifkan sebagai:

ViP3D: Ramalan trajektori visual hujung ke hujung melalui pertanyaan ejen 3D

Keputusan percubaan adalah seperti berikut:

ViP3D: Ramalan trajektori visual hujung ke hujung melalui pertanyaan ejen 3D

ViP3D: Ramalan trajektori visual hujung ke hujung melalui pertanyaan ejen 3D

ViP3D: Ramalan trajektori visual hujung ke hujung melalui pertanyaan ejen 3D

Nota: Ini pemaparan sasaran tidak buruk.

Atas ialah kandungan terperinci ViP3D: Ramalan trajektori visual hujung ke hujung melalui pertanyaan ejen 3D. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam