Rumah > Artikel > Peranti teknologi > Tafsiran algoritma dan model pemanduan autonomi Tesla
Tesla ialah syarikat AI biasa Ia telah melatih 75,000 rangkaian saraf pada tahun lalu, yang bermaksud model baharu dihasilkan setiap 8 minit. Sebanyak 281 model menggunakan kereta Tesla. Seterusnya, kami akan mentafsir algoritma Tesla FSD dan kemajuan model dalam beberapa aspek.
Salah satu teknologi utama Tesla dalam persepsi tahun ini ialah Rangkaian Pendudukan. Pelajar yang mempelajari robotik pasti akan biasa dengan grid pekerjaan menunjukkan sama ada setiap voxel 3D (voxel) dalam ruang itu boleh menjadi perwakilan binari 0/1 atau satu antara nilai kebarangkalian.
Mengapa penghunian penting untuk persepsi pemanduan autonomi? Kerana semasa memandu, sebagai tambahan kepada halangan biasa seperti kenderaan dan pejalan kaki, kita boleh menganggarkan kedudukan dan saiznya melalui pengesanan objek 3D Terdapat juga lebih banyak halangan ekor panjang yang juga akan memberi kesan penting kepada pemanduan. Contohnya: 1. Halangan boleh ubah bentuk, seperti treler dua bahagian, tidak sesuai untuk diwakili oleh kotak sempadan 3D; 2. Halangan berbentuk khas, seperti kenderaan terbalik, anggaran sikap 3D tidak diketahui; kategori Halangan seperti batu dan sampah di jalan raya tidak boleh diklasifikasikan. Oleh itu, kami berharap dapat mencari ungkapan yang lebih baik untuk menggambarkan halangan ekor panjang ini dan menganggarkan sepenuhnya penghunian setiap kedudukan dalam ruang 3D, malah semantik dan pergerakan (aliran).
Tesla menggunakan contoh khusus dalam rajah di bawah untuk menunjukkan kuasa Rangkaian Pendudukan. Tidak seperti kotak 3D, perwakilan pekerjaan tidak membuat terlalu banyak andaian geometri tentang objek, jadi ia boleh memodelkan objek dengan bentuk arbitrari dan sebarang bentuk gerakan objek. Rajah menunjukkan pemandangan di mana bas dua bahagian sedang bermula Biru mewakili voxel bergerak dan merah mewakili voxel pegun menganggarkan dengan tepat bahawa bahagian pertama bas telah mula bergerak, manakala bahagian kedua bas telah bermula. untuk bergerak.
Anggaran penghunian dua bas bermula, biru mewakili voxel bergerak, merah mewakili voxel pegun
Struktur model Rangkaian Penghuni ditunjukkan dalam rajah di bawah. Pertama, model menggunakan RegNet dan BiFPN untuk mendapatkan ciri daripada berbilang kamera Struktur ini konsisten dengan struktur rangkaian yang dikongsi pada hari AI tahun lepas, menunjukkan bahawa tulang belakang tidak banyak berubah. Model kemudian melakukan gabungan berbilang kamera berasaskan perhatian pada ciri imej 2D melalui pertanyaan spatial dengan kedudukan spatial 3D. Bagaimana untuk merealisasikan hubungan antara pertanyaan spatial 3D dan peta ciri 2D? Kaedah gabungan khusus tidak diperincikan dalam rajah, tetapi terdapat banyak kertas awam untuk rujukan. Saya rasa penyelesaian yang paling mungkin ialah satu daripada dua penyelesaian Yang pertama dipanggil pertanyaan 3D-ke-2D, yang menayangkan pertanyaan spatial 3D ke peta ciri 2D berdasarkan parameter dalaman dan luaran setiap kamera untuk mengekstrak ciri-ciri kedudukan yang sepadan. Kaedah ini telah dicadangkan dalam DETR3D, dan BEVFormer dan PolarFormer juga menerima pakai idea ini. Yang kedua ialah menggunakan pembenaman kedudukan untuk melaksanakan pemetaan tersirat, iaitu, menambah pembenaman kedudukan yang munasabah pada setiap kedudukan peta ciri 2D, seperti parameter dalaman dan luaran kamera, koordinat piksel, dsb., dan kemudian biarkan model mempelajari surat-menyurat. antara ciri 2D dan 3D dengan sendirinya. Seterusnya, model itu menjalani gabungan siri masa, yang dicapai dengan penyambungan ruang ciri 3D berdasarkan perubahan kedudukan dan sikap kenderaan yang diketahui.
Struktur Rangkaian Penghunian
Selepas gabungan ciri, satu penyahkonvolusian berasaskan Penyahkod akan menyahkod pekerjaan, semantik dan aliran setiap kedudukan ruang 3D. Sidang akhbar itu menekankan bahawa oleh kerana output rangkaian ini adalah padat, resolusi output akan dihadkan oleh memori. Saya percaya ini juga merupakan masalah utama bagi semua pelajar yang melakukan pembahagian imej Lebih-lebih lagi, apa yang kami lakukan di sini ialah pembahagian 3D, tetapi pemanduan autonomi mempunyai keperluan resolusi yang sangat tinggi (~10cm). Oleh itu, diilhamkan oleh perwakilan tersirat saraf, penyahkod MLP tersirat tambahan yang boleh ditanya direka pada penghujung model Dengan memasukkan sebarang nilai koordinat (x, y, z), maklumat kedudukan spatial boleh dinyahkodkan, iaitu pekerjaan. , semantik, aliran. Kaedah ini memecahkan had resolusi model, yang saya fikir adalah kemuncak reka bentuk.
Perancangan ialah satu lagi modul penting dalam pemanduan autonomi Tesla kali ini terutamanya menekankan interaksi di persimpangan kompleks ) untuk pemodelan. Mengapakah pemodelan interaksi begitu penting? Oleh kerana terdapat tahap ketidakpastian tertentu dalam tingkah laku masa depan kenderaan dan pejalan kaki lain, modul perancangan pintar perlu meramalkan pelbagai interaksi antara kenderaan sendiri dan kenderaan lain dalam talian, dan menilai risiko yang dibawa oleh setiap interaksi, dan akhirnya Tentukan strategi apa untuk mengejar.
Tesla memanggil model perancangan yang mereka gunakan Carian Interaksi, yang kebanyakannya terdiri daripada tiga langkah utama: carian pokok, perancangan trajektori rangkaian saraf dan pemarkahan trajektori.
1. Carian pokok ialah algoritma yang biasa digunakan untuk perancangan trajektori dengan berkesan boleh menemui pelbagai situasi interaktif dan mencari penyelesaian yang optimum masalah terbesar. Kesukarannya ialah ruang carian terlalu besar. Sebagai contoh, mungkin terdapat 20 kenderaan yang berkaitan dengan diri di persimpangan kompleks, yang boleh digabungkan menjadi lebih daripada 100 kaedah interaksi, dan setiap kaedah interaksi mungkin mempunyai berpuluh-puluh trajektori spatio-temporal sebagai calon. Oleh itu, Tesla tidak menggunakan kaedah carian trajektori, tetapi menggunakan rangkaian saraf untuk menjaringkan kedudukan sasaran (matlamat) yang mungkin dicapai selepas tempoh masa, dan memperoleh sejumlah kecil sasaran yang lebih baik.
2. Selepas menentukan sasaran, kita perlu menentukan trajektori untuk mencapai sasaran. Kaedah perancangan tradisional sering menggunakan pengoptimuman untuk menyelesaikan masalah ini Tidak sukar untuk menyelesaikan masalah pengoptimuman Setiap pengoptimuman mengambil masa kira-kira 1 hingga 5 milisaat Walau bagaimanapun, apabila terdapat banyak sasaran calon yang diberikan oleh carian pokok, kita tidak boleh menyelesaikan masalah dari segi kos masa. Oleh itu, Tesla mencadangkan menggunakan rangkaian neural lain untuk perancangan trajektori untuk mencapai perancangan yang sangat selari untuk pelbagai sasaran calon. Terdapat dua sumber label trajektori untuk melatih rangkaian saraf ini: yang pertama ialah trajektori pemanduan manusia sebenar, tetapi kita tahu bahawa trajektori pemanduan manusia mungkin hanya satu daripada banyak penyelesaian yang lebih baik, jadi sumber kedua adalah melalui pengoptimuman luar talian Lain-lain penyelesaian trajektori yang dihasilkan oleh algoritma.
3. Selepas mendapat satu siri trajektori yang boleh dilaksanakan, kita perlu memilih penyelesaian yang optimum. Penyelesaian yang digunakan di sini adalah untuk menjaringkan trajektori yang diperolehi Penyelesaian pemarkahan menggabungkan penunjuk risiko yang dirumus secara buatan, penunjuk keselesaan dan penjaring rangkaian saraf.
Melalui penyahgandingan tiga langkah di atas, Tesla telah melaksanakan modul perancangan trajektori yang cekap yang mengambil kira interaksi. Tidak banyak kertas kerja yang boleh dirujuk untuk perancangan trajektori berdasarkan rangkaian saraf Saya telah menerbitkan kertas kerja TNT [5] yang secara relatifnya berkaitan dengan kaedah ini Ia juga menguraikan masalah ramalan trajektori ke dalam tiga langkah di atas untuk menyelesaikan: sasaran pemarkahan, Perancangan trajektori, pemarkahan trajektori. Pembaca yang berminat boleh menyemak butirannya. Di samping itu, kumpulan penyelidikan kami telah meneroka isu yang berkaitan dengan interaksi dan perancangan tingkah laku, dan semua orang dialu-alukan untuk memberi perhatian kepada kerja terbaru kami InterSim[6].
Struktur Model Perancangan Carian Interaksi
Secara peribadi, saya rasa satu lagi sorotan teknikal utama Hari AI ini ialah model pembinaan peta vektor dalam talian Lanes Network. Pelajar yang memberi perhatian kepada Hari AI tahun lepas mungkin ingat bahawa Tesla menjalankan segmentasi dalam talian yang lengkap dan pengiktirafan peta dalam ruang BEV. Jadi mengapa kita masih mahu membina Rangkaian Lorong? Oleh kerana lorong aras piksel tersegmen tidak mencukupi untuk perancangan trajektori, kita juga perlu mendapatkan topologi garisan lorong untuk mengetahui bahawa kereta kita boleh bertukar dari satu lorong ke lorong lain.
Mari kita lihat dahulu apa itu peta vektor Seperti yang ditunjukkan dalam rajah, peta vektor Tesla terdiri daripada satu siri garisan tengah lorong biru dan beberapa titik utama (sambungan titik sambungan. titik fork, titik cantum), dan hubungan sambungannya dinyatakan dalam bentuk graf.
Peta vektor, titik ialah titik utama garisan lorong dan warna biru ialah garis tengah lorong
Lanes Network ialah penyahkod berdasarkan tulang belakang rangkaian persepsi dari segi struktur model. Berbanding dengan menyahkod penghunian dan semantik setiap voxel, adalah lebih sukar untuk menyahkod satu siri garisan lorong bersambung yang jarang kerana bilangan output tidak tetap, dan terdapat hubungan logik antara kuantiti output.
Tesla merujuk kepada penyahkod Transformer dalam model bahasa semula jadi dan mengeluarkan keputusan secara autoregresif dalam cara yang berurutan. Dari segi pelaksanaan khusus, kita mesti terlebih dahulu memilih susunan penjanaan (seperti dari kiri ke kanan, atas ke bawah) dan mendiskrisikan ruang (tokenisasi). Kemudian kita boleh menggunakan Lanes Network untuk meramalkan satu siri token diskret. Seperti yang ditunjukkan dalam rajah, rangkaian mula-mula akan meramalkan kedudukan kasar (indeks: 18) dan kedudukan tepat (indeks: 31) sesuatu nod, kemudian meramalkan semantik nod ("Mula", yang merupakan titik permulaan bagi garisan lorong), dan akhirnya meramalkan ciri sambungan, seperti parameter bifurcation/cantuman/kelengkungan, dsb. Rangkaian akan menjana semua nod garisan lorong dengan cara autoregresif ini.
Struktur Rangkaian Rangkaian Lorong
Kita harus ambil perhatian bahawa penjanaan jujukan autoregresi tidak dipatenkan oleh model Transformer bahasa. Kumpulan penyelidikan kami juga telah menerbitkan dua kertas kerja berkaitan penjanaan peta vektor dalam beberapa tahun kebelakangan ini, HDMapGen[7] dan VectorMapNet[8]. HDMapGen menggunakan rangkaian neural graf dengan perhatian (GAT) untuk menjana secara autoregresif titik utama peta vektor, yang serupa dengan penyelesaian Tesla. VectorMapNet menggunakan Detection Transformer (DETR) untuk menyelesaikan masalah ini, menggunakan penyelesaian ramalan yang ditetapkan untuk menjana peta vektor dengan lebih cepat.
Hasil penjanaan peta vektor HDMapGen
Hasil penjanaan peta vektor VectorMapNet
Pelabelan automatik juga adalah Tes La teknologi yang telah dijelaskan pada Hari AI tahun lepas Anotasi automatik tahun ini memfokuskan pada anotasi automatik Rangkaian Lanes. Kereta Tesla boleh menjana 500,000 perjalanan memandu (perjalanan) setiap hari, dan menggunakan data pemanduan ini dengan lebih baik boleh membantu meramalkan garisan lorong.
Petanda lorong automatik Tesla mempunyai tiga langkah:
1 Melalui teknologi odometri inersia visual, Anggaran trajektori berketepatan tinggi untuk semua perjalanan.
2. Pembinaan semula peta berbilang kenderaan dan berbilang perjalanan ialah langkah paling kritikal dalam pelan ini. Motivasi asas untuk langkah ini ialah kenderaan yang berbeza mungkin memerhati lokasi yang sama dari sudut dan masa spatial yang berbeza, jadi pengagregatan maklumat ini boleh membawa kepada pembinaan semula peta yang lebih baik. Titik teknikal langkah ini termasuk padanan geometri antara peta dan pengoptimuman hasil bersama.
3. Penandaan lorong automatik untuk perjalanan baharu. Apabila kami mempunyai hasil pembinaan semula peta luar talian berketepatan tinggi, apabila perjalanan baharu berlaku, kami boleh melakukan padanan geometri mudah untuk mendapatkan nilai pseudo-benar (pseudolabel) bagi garis lorong perjalanan baharu. Kaedah untuk mendapatkan nilai pseudo-benar ini kadangkala lebih baik daripada anotasi manual (pada waktu malam, hari hujan dan berkabus).
Lanes Network pelabelan automatik
Simulasi imej visual telah menjadi arah popular dalam penglihatan komputer sejak beberapa tahun kebelakangan ini. Dalam pemanduan autonomi, tujuan utama simulasi visual adalah untuk menghasilkan beberapa adegan yang jarang berlaku dalam cara yang disasarkan, dengan itu menghapuskan keperluan untuk mencuba nasib anda dalam ujian jalan raya sebenar. Sebagai contoh, Tesla sentiasa sakit kepala dengan adegan sebuah trak besar terbaring di tengah jalan. Tetapi simulasi visual bukanlah masalah mudah Untuk persimpangan yang kompleks (Market Street di San Francisco), penyelesaian menggunakan pemodelan dan pemaparan tradisional memerlukan pereka bentuk selama 2 minggu. Penyelesaian berasaskan AI Tesla kini hanya mengambil masa 5 minit.
Simulasi visual dibina semula persimpangan
Secara khusus, simulasi visual Prasyaratnya ialah untuk menyediakan maklumat jalan dunia sebenar yang dilabel secara automatik dan perpustakaan bahan grafik yang kaya. Kemudian teruskan ke langkah berikut mengikut turutan:
1. Penjanaan turapan: Isi permukaan jalan mengikut kerb, termasuk cerun jalan, bahan dan maklumat terperinci lain.
2. Penjanaan garis lorong: lukis maklumat garis lorong di permukaan jalan.
3. Penjanaan loji dan bangunan: Menjana dan menjadikan tumbuhan dan rumah secara rawak di antara jalan dan tepi jalan. Tujuan menjana tumbuhan dan bangunan bukan sahaja untuk kecantikan visual, ia juga mensimulasikan kesan oklusi yang disebabkan oleh objek ini di dunia nyata.
4. Hasilkan elemen jalan lain: seperti lampu isyarat, papan tanda jalan dan lorong import serta hubungan sambungan.
5. Tambahkan elemen dinamik seperti kenderaan dan pejalan kaki.
Akhir sekali, mari kita bercakap secara ringkas tentang asas siri teknologi perisian Tesla, yang merupakan infrastruktur yang berkuasa . Pusat superkomputer Tesla mempunyai 14,000 GPU dan sejumlah 30PB cache data, dan 500,000 video baharu mengalir ke dalam superkomputer ini setiap hari. Untuk memproses data ini dengan lebih cekap, Tesla telah membangunkan pustaka penyahkodan video dipercepatkan secara khusus, serta format fail .smol format fail yang mempercepatkan membaca dan menulis ciri perantaraan. Di samping itu, Tesla juga telah membangunkan cip Dojo sendiri untuk pusat pengkomputeran super, yang tidak akan kami jelaskan di sini.
Pusat Superkomputer untuk Latihan Model Video
Dengan keluaran kandungan Tesla AI Day dalam dua tahun yang lalu, kami perlahan-lahan melihat landskap teknikal Tesla ke arah pemanduan autonomi (dibantu) Pada masa yang sama, kami Kami juga melihat bahawa Tesla sendiri sentiasa mengulangi dirinya sendiri, seperti dari persepsi 2D, persepsi BEV, kepada Rangkaian Pendudukan. Pemanduan autonomi ialah perjalanan yang panjang beribu-ribu batu Apakah yang menyokong evolusi teknologi Tesla? Saya fikir terdapat tiga perkara: keupayaan memahami pemandangan penuh yang dibawa oleh algoritma visual, kelajuan lelaran model yang disokong oleh kuasa pengkomputeran yang berkuasa dan generalisasi yang dibawa oleh data besar-besaran. Bukankah ini tiga tonggak era pembelajaran mendalam?
Atas ialah kandungan terperinci Tafsiran algoritma dan model pemanduan autonomi Tesla. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!