


Tajuk baharu: ADAPT: Penerokaan awal kebolehjelasan pemanduan autonomi hujung-ke-hujung
Artikel ini dicetak semula dengan kebenaran akaun awam Autonomous Driving Heart Sila hubungi sumber untuk mencetak semula. . kerana kebolehtafsiran yang rendah, latihan sukar untuk disatukan, dsb., sesetengah sarjana dalam bidang ini telah mula secara beransur-ansur mengalihkan perhatian mereka kepada kebolehtafsiran hujung ke hujung Hari ini saya akan berkongsi dengan anda karya terkini mengenai kebolehtafsiran hujung ke hujung. ADAPT. Kaedah ini adalah berdasarkan seni bina Transformer dan menggunakan pelbagai tugas Kaedah latihan bersama mengeluarkan penerangan tindakan kenderaan dan penaakulan untuk setiap keputusan hujung ke hujung. Beberapa pendapat penulis tentang ADAPT adalah seperti berikut:
Berikut adalah ramalan menggunakan ciri 2D video Berkemungkinan kesannya akan menjadi lebih baik selepas menukar ciri 2D kepada ciri bev mungkin lebih baik apabila digabungkan dengan LLM , contohnya, bahagian Penjanaan Teks digantikan dengan LLM.
Karya semasa menggunakan video sejarah sebagai input, dan tindakan yang diramalkan serta penerangannya juga mungkin lebih bermakna jika ada diubah untuk meramalkan tindakan masa depan dan sebab tindakan itu .Token
yang diperolehi dengan token imej adalah terlalu banyak, dan mungkin terdapat banyak maklumat yang tidak berguna. Mungkin anda boleh mencuba Token-Learner.- Apakah titik permulaan?
- Pemanduan autonomi hujung ke hujung mempunyai potensi besar dalam industri pengangkutan, dan penyelidikan dalam bidang ini sedang hangat. Contohnya, UniAD, kertas terbaik CVPR2023, melakukan pemanduan automatik hujung ke hujung. Walau bagaimanapun, kekurangan ketelusan dan kebolehjelasan proses membuat keputusan automatik akan menghalang pembangunannya Lagipun, keselamatan adalah keutamaan pertama untuk kenderaan sebenar di jalan raya. Terdapat beberapa percubaan awal untuk menggunakan peta perhatian atau volum kos untuk meningkatkan kebolehtafsiran model, tetapi kaedah ini sukar difahami. Jadi titik permulaan kerja ini adalah untuk mencari cara yang mudah difahami untuk menerangkan pembuatan keputusan. Gambar di bawah adalah perbandingan beberapa kaedah Jelas sekali ia lebih mudah difahami dalam perkataan.
Apakah kelebihan ADAPT?
Mampu mengeluarkan huraian tindakan kenderaan dan alasan untuk setiap keputusan hujung ke hujung
Kaedah ini berdasarkan struktur rangkaian transformer dan melakukan latihan bersama melalui kaedah pelbagai tugas
Untuk mengesahkan keberkesanan sistem dalam senario sebenar, sistem yang boleh digunakan telah diwujudkan untuk memasukkan video asal dan mengeluarkan penerangan dan alasan tindakan secara nyata masa. ;
- Paparan kesan
- Kesannya masih sangat baik, terutama adegan malam gelap ketiga, lampu isyarat diperhatikan.
Kemajuan semasa dalam bidang
Kapsyen Video
Matlamat utama penerangan video adalah untuk menerangkan objek dan hubungannya dengan video tertentu dalam bahasa semula jadi. Kerja-kerja penyelidikan awal menjana ayat dengan struktur sintaksis tertentu dengan mengisi elemen yang dikenal pasti dalam templat tetap, yang tidak fleksibel dan tidak mempunyai kekayaan.
Untuk menghasilkan ayat semula jadi dengan struktur sintaksis yang fleksibel, beberapa kaedah menggunakan teknik pembelajaran urutan. Secara khusus, kaedah ini menggunakan pengekod video untuk mengekstrak ciri dan penyahkod bahasa untuk mempelajari penjajaran teks visual. Untuk menjadikan huraian lebih kaya, kaedah ini juga menggunakan perwakilan peringkat objek untuk mendapatkan ciri interaksi sedar objek terperinci dalam videoWalaupun seni bina sedia ada telah mencapai hasil tertentu dalam arah kapsyen video umum, ia tidak boleh digunakan secara langsung pada perwakilan tindakan, kerana hanya memindahkan penerangan video kepada perwakilan tindakan pemanduan autonomi akan kehilangan beberapa maklumat penting, seperti kelajuan kenderaan, dsb., yang penting untuk tugas pemanduan autonomi. Cara menggunakan maklumat pelbagai mod ini dengan berkesan untuk menjana ayat masih diterokai. PaLM-E berfungsi dengan baik dalam ayat berbilang modal.
Pemandu autonomi hujung-ke-hujung
Pemacuan autonomi berasaskan pembelajaran ialah bidang penyelidikan yang aktif. UniAD kertas terbaik CVPR2023 baru-baru ini, termasuk FusionAD seterusnya, dan karya Wayve berdasarkan model Dunia MILE semuanya berfungsi ke arah ini. Format output termasuk titik trajektori, seperti UniAD, dan tindakan kenderaan secara langsung, seperti MILE.
Selain itu, beberapa kaedah memodelkan tingkah laku masa hadapan peserta trafik seperti kenderaan, penunggang basikal atau pejalan kaki untuk meramalkan titik laluan kenderaan, manakala kaedah lain meramalkan isyarat kawalan kenderaan secara langsung berdasarkan input sensor, serupa dengan subtugas ramalan isyarat kawalan dalam ini kerja
Kebolehtafsiran pemanduan autonomi
Dalam bidang pemanduan autonomi, kebanyakan kaedah kebolehtafsiran adalah berdasarkan penglihatan, dan ada yang berdasarkan kerja LiDAR. Sesetengah kaedah menggunakan peta perhatian untuk menapis kawasan imej yang tidak penting, menjadikan gelagat kenderaan autonomi kelihatan munasabah dan boleh dijelaskan. Walau bagaimanapun, peta perhatian mungkin mengandungi beberapa kawasan yang kurang penting. Terdapat juga kaedah yang menggunakan peta lidar dan berketepatan tinggi sebagai input, meramalkan kotak sempadan peserta trafik lain, dan menggunakan ontologi untuk menerangkan proses penaakulan membuat keputusan. Selain itu, terdapat cara untuk membina peta dalam talian melalui pembahagian untuk mengurangkan pergantungan pada peta HD. Walaupun kaedah berasaskan penglihatan atau lidar boleh memberikan hasil yang baik, kekurangan penjelasan lisan menjadikan keseluruhan sistem kelihatan rumit dan sukar untuk difahami. Satu kajian meneroka kemungkinan tafsiran teks untuk kenderaan autonomi buat kali pertama, dengan mengekstrak ciri video di luar talian untuk meramal isyarat kawalan dan melaksanakan tugas penerangan video
Berbilang tugas dalam pemanduan autonomi pembelajaran
Rangka kerja hujung ke hujung ini menggunakan pembelajaran berbilang tugas untuk bersama-sama melatih model menggunakan dua tugas penjanaan teks dan isyarat kawalan ramalan. Pembelajaran pelbagai tugas digunakan secara meluas dalam pemanduan autonomi. Oleh kerana penggunaan data yang lebih baik dan ciri yang dikongsi, latihan bersama tugas yang berbeza meningkatkan prestasi setiap tugasan Oleh itu, dalam kerja ini, latihan bersama dua tugas ramalan isyarat kawalan dan penjanaan teks digunakan.
kaedah ADAPT
Berikut ialah gambar rajah struktur rangkaian:
#🎜#🎜##🎜#🎜##🎜 #🎜 🎜#Keseluruhan struktur dibahagikan kepada dua tugas:
Driving Caption Generation (DCG): video input, output dua ayat, ayat pertama menerangkan aksi kereta, ayat kedua Huraikan alasan untuk mengambil tindakan ini, seperti "Kereta itu memecut, kerana lampu isyarat bertukar hijau." isyarat kawalan, seperti kelajuan , arah, pecutan.
- Antaranya, dua tugas DCG dan CSP berkongsi Pengekod Video, tetapi menggunakan kepala ramalan yang berbeza untuk menghasilkan output akhir yang berbeza.
- Untuk tugas DCG, pengekod pengubah bahasa penglihatan digunakan untuk menjana dua ayat bahasa semula jadi.
Pengekod Video
#🎜#🎜##🎜 di sini Video Swin Transformer digunakan untuk menukar bingkai video input kepada token ciri video. Input桢gambar, bentuknya
, saiz ciri yang keluar ialah#🎜🎜 inilah #🎜 🎜#
ialah dimensi saluran 🎜#Ciri di atas ditandakan untuk mendapatkan token video. 🎜🎜# , dan kemudian dilaraskan oleh MLP Dimensi diselaraskan dengan pembenaman token teks, dan kemudian token teks dan token video disalurkan kepada pengekod pengubah bahasa penglihatan bersama-sama untuk menjana penerangan dan penaakulan tindakan. Kepala Ramalan Isyarat Kawalan
dan input
video sepadan dengan isyarat kawalan #🎜 🎜🎜#, Output kepala CSP ialah, di mana setiap isyarat kawalan tidak semestinya satu dimensi, tetapi boleh berbilang dimensi, seperti termasuk kelajuan, pecutan, arah, dll. pada masa yang sama. Pendekatan di sini adalah untuk menandakan ciri video dan menjana satu siri isyarat keluaran melalui pengubah gerakan Fungsi kehilangan adalah MSE,
Sepatutnya. ambil perhatian bahawa , bingkai pertama tidak disertakan di sini kerana bingkai pertama memberikan terlalu sedikit maklumat dinamikLatihan Bersama
Dalam bingkai ini, kerana daripada pengekod video yang dikongsi, sebenarnya diandaikan bahawa kedua-dua tugas CSP dan DCG adalah sejajar pada tahap perwakilan video. Titik permulaan ialah perihalan tindakan dan isyarat kawalan ialah ungkapan berbeza bagi tindakan kenderaan berbutir halus, dan penjelasan penaakulan tindakan tertumpu terutamanya pada persekitaran pemanduan yang mempengaruhi tindakan kenderaan. Menggunakan latihan bersama untuk latihan
Perlu diingat bahawa walaupun ia adalah tempat latihan bersama, semasa inferens , tetapi boleh dilaksanakan secara bebas Tugasan CSP mudah difahami Hanya masukkan video secara terus mengikut carta alir dan keluarkan isyarat kawalan Untuk tugasan DCG, teruskan input video dan huraian dan penaakulan masa berdasarkan kaedah autoregresif Penjanaan perkataan bermula dari [CLS] dan berakhir dengan [SEP] atau mencapai ambang panjang.
Reka bentuk eksperimen dan perbandingan
Dataset
Set data yang digunakan ialah BDD-X ini mengandungi 7000 video berpasangan dan isyarat kawalan. Setiap video berdurasi kira-kira 40 saat, saiz imej ialah , dan kekerapannya ialah FPS Setiap video mempunyai 1 hingga 5 gelagat kenderaan, seperti memecut, membelok ke kanan dan bergabung. Semua tindakan ini dianotasi dengan teks, termasuk naratif tindakan (cth., "Kereta berhenti") dan penaakulan (cth., "Kerana lampu isyarat merah"). Terdapat kira-kira 29,000 pasangan anotasi tingkah laku secara keseluruhan.
Butiran pelaksanaan khusus
- video swin transformer telah dilatih terlebih dahulu pada Kinetics-600
- pengubah bahasa penglihatan dan motion transformer dimulakan secara rawak
- Tiada latihan tetap, jadi parameter swin tetap ke hujung Saiz bingkai video input
- diubah saiz dan dipotong, dan input akhir kepada rangkaian ialah 224x224
- Untuk penerangan dan penaakulan, pembenaman WordPiece [75] digunakan dan bukannya keseluruhan perkataan, (mis., "berhenti" ialah dipotong kepada "berhenti" dan "#s"), panjang maksimum setiap ayat ialah 15
- Semasa latihan, pemodelan bahasa bertopeng akan secara rawak menutup 50% daripada token, dan token setiap topeng mempunyai kebarangkalian 80% menjadi [MASK]. terdapat 10% kebarangkalian bahawa satu perkataan akan dipilih secara rawak, dan baki 10% kebarangkalian kekal tidak berubah.
- Pengoptimum AdamW digunakan, dan dalam 10% pertama langkah latihan, terdapat mekanisme memanaskan badan
- Ia mengambil masa kira-kira 13 jam untuk berlatih dengan 4 GPU V100
Impak latihan bersama
Tiga eksperimen dibandingkan di sini untuk menggambarkan keberkesanan latihan bersama tugasan masih belum wujud, tetapi apabila memasukkan modul DCG, selain tag video, tag isyarat kawalan juga perlu dimasukkan
Perbandingan kesan adalah seperti berikut
Berbanding dengan tugas DCG sahaja, Penaakulan ADAPT kesannya jauh lebih baik. Walaupun kesannya bertambah baik apabila terdapat input isyarat kawalan, ia masih tidak sebaik kesan penambahan tugasan CSP. Selepas menambah tugasan CSP, keupayaan untuk mewakili dan memahami video adalah lebih kuatSelain itu, jadual di bawah juga menunjukkan bahawa kesan latihan bersama terhadap CSP juga bertambah baik.boleh difahami sebagai ketepatan, khususnya ia akan Isyarat kawalan yang diramalkan dipotong, dan formulanya adalah seperti berikut
Pengaruh pelbagai jenis isyarat kawalan
Dalam eksperimen, isyarat asas yang digunakan ialah kelajuan dan tajuk. Walau bagaimanapun, eksperimen mendapati bahawa apabila hanya satu daripada isyarat digunakan, kesannya tidak sebaik menggunakan kedua-dua isyarat pada masa yang sama Data khusus ditunjukkan dalam jadual berikut:Ini menunjukkan bahawa kedua-dua isyarat. kepantasan dan hala tuju boleh membantu rangkaian Perihalan tindakan pembelajaran yang lebih baik dan penaakulan
Interaksi antara huraian tindakan dan penaakulan
Berbanding dengan tugasan penerangan umum, penjanaan tugas huraian memandu ialah dua ayat iaitu huraian tindakan dan penaakulan. Ia boleh didapati daripada jadual berikut:
Garis 2 dan 3 pertukaran inferens Susunan huraian dan huraian juga akan menjadi tidak teratur, yang menunjukkan bahawa penaakulan bergantung pada huraian
Membandingkan tiga baris seterusnya, mengeluarkan hanya penerangan dan hanya mengeluarkan penaakulan tidak sebaik mengeluarkan kedua-duanya; Kesan Kadar Pensampelan Diperlukan Kandungan yang ditulis semula ialah: Pautan asal: https://mp.weixin.qq.com/s/MSTyr4ksh0TOqTdQ2WnSeQAtas ialah kandungan terperinci Tajuk baharu: ADAPT: Penerokaan awal kebolehjelasan pemanduan autonomi hujung-ke-hujung. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

AI Menambah Penyediaan Makanan Walaupun masih dalam penggunaan baru, sistem AI semakin digunakan dalam penyediaan makanan. Robot yang didorong oleh AI digunakan di dapur untuk mengautomasikan tugas penyediaan makanan, seperti membuang burger, membuat pizza, atau memasang SA

Pengenalan Memahami ruang nama, skop, dan tingkah laku pembolehubah dalam fungsi Python adalah penting untuk menulis dengan cekap dan mengelakkan kesilapan runtime atau pengecualian. Dalam artikel ini, kami akan menyelidiki pelbagai ASP

Pengenalan Bayangkan berjalan melalui galeri seni, dikelilingi oleh lukisan dan patung yang terang. Sekarang, bagaimana jika anda boleh bertanya setiap soalan dan mendapatkan jawapan yang bermakna? Anda mungkin bertanya, "Kisah apa yang anda ceritakan?

Meneruskan irama produk, bulan ini MediaTek telah membuat satu siri pengumuman, termasuk Kompanio Ultra dan Dimensity 9400 yang baru. Produk ini mengisi bahagian perniagaan MediaTek yang lebih tradisional, termasuk cip untuk telefon pintar

#1 Google melancarkan Agent2Agent Cerita: Ia Isnin pagi. Sebagai perekrut berkuasa AI, anda bekerja lebih pintar, tidak lebih sukar. Anda log masuk ke papan pemuka syarikat anda di telefon anda. Ia memberitahu anda tiga peranan kritikal telah diperolehi, dijadualkan, dan dijadualkan untuk

Saya akan meneka bahawa anda mesti. Kita semua seolah -olah tahu bahawa psychobabble terdiri daripada pelbagai perbualan yang menggabungkan pelbagai terminologi psikologi dan sering akhirnya menjadi tidak dapat difahami atau sepenuhnya tidak masuk akal. Semua yang anda perlu lakukan untuk memuntahkan fo

Hanya 9.5% plastik yang dihasilkan pada tahun 2022 dibuat daripada bahan kitar semula, menurut satu kajian baru yang diterbitkan minggu ini. Sementara itu, plastik terus menumpuk di tapak pelupusan sampah -dan ekosistem -sekitar dunia. Tetapi bantuan sedang dalam perjalanan. Pasukan Engin

Perbualan baru -baru ini dengan Andy Macmillan, Ketua Pegawai Eksekutif Platform Analytics Enterprise terkemuka Alteryx, menonjolkan peranan kritikal namun kurang dihargai ini dalam revolusi AI. Seperti yang dijelaskan oleh Macmillan, jurang antara data perniagaan mentah dan maklumat siap sedia


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

MinGW - GNU Minimalis untuk Windows
Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

SublimeText3 Linux versi baharu
SublimeText3 Linux versi terkini

DVWA
Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular

Pelayar Peperiksaan Selamat
Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.