Mari bercakap tentang beberapa model besar dan konsep pemanduan autonomi yang telah menjadi popular baru-baru ini.-AI-php.cn

Rumah

Peranti teknologi

Mari bercakap tentang beberapa model besar dan konsep pemanduan autonomi yang telah menjadi popular baru-baru ini.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 09, 2023 am 11:13 AM

ModelPemanduan autonomi

Pelbagai aplikasi model besar masih popular baru-baru ini Satu siri artikel gimik muncul sekitar awal Oktober, cuba menggunakan model besar untuk pemanduan autonomi. Saya telah bercakap tentang banyak topik berkaitan dengan ramai rakan baru-baru ini Apabila menulis artikel ini, di satu pihak, saya mendapati bahawa termasuk diri saya sendiri, pada masa lalu, kami sebenarnya telah mengelirukan beberapa konsep yang sangat berkaitan tetapi sebenarnya berbeza tangan, ia adalah lanjutan daripada konsep-konsep ini Terdapat beberapa pemikiran menarik yang patut dikongsi dan dibincangkan dengan semua orang.

Model besar (bahasa)

Ini sudah pasti hala tuju paling popular pada masa ini, dan ia juga menjadi tumpuan kertas kerja yang paling tertumpu. Bagaimanakah model bahasa besar boleh membantu pemanduan autonomi? Di satu pihak, seperti GPT-4V, ia menyediakan keupayaan pemahaman semantik yang sangat berkuasa melalui penjajaran dengan imej, yang tidak akan disebut di sini buat masa ini, sebaliknya, ia menggunakan LLM sebagai ejen untuk melaksanakan tingkah laku pemanduan secara langsung. Yang terakhir ini sebenarnya merupakan hala tuju penyelidikan yang paling seksi pada masa ini, dan berkait rapat dengan siri kerja pada AI terbenam.

Kebanyakan jenis kerja terakhir yang dilihat setakat ini menggunakan LLM: 1) digunakan secara langsung 2) diperhalusi melalui pembelajaran terselia 3) diperhalusi melalui pembelajaran pengukuhan untuk tugas memandu. Pada dasarnya, tidak lari daripada kerangka paradigma pemanduan sebelum ini berdasarkan kaedah pembelajaran. Sebenarnya, soalan yang sangat langsung ialah, mengapa mungkin lebih baik menggunakan LLM untuk melakukan ini? Secara intuitif, menggunakan kata-kata untuk memandu adalah perkara yang tidak cekap dan bertele-tele. Kemudian suatu hari saya tiba-tiba memikirkannyaLLM sebenarnya melaksanakan pralatihan untuk ejen melalui bahasa! Salah satu sebab penting mengapa RL sukar untuk digeneralisasikan sebelum ini ialah sukar untuk menyatukan pelbagai tugas dan menggunakan pelbagai data biasa untuk melatih setiap tugasan hanya boleh dilatih dari awal, tetapi LLM menyelesaikannya dengan baik soalan. Tetapi sebenarnya, terdapat beberapa masalah yang tidak dapat diselesaikan dengan baik: 1) Selepas melengkapkan pralatihan, mestikah bahasa itu dikekalkan sebagai antara muka keluaran? Ini sebenarnya membawa banyak kesulitan kepada banyak tugas, dan juga menyebabkan pengiraan berlebihan pada tahap tertentu. 2) Pendekatan LLM sebagai ejen masih tidak mengatasi masalah asas kaedah bebas model RL sedia ada, dan semua masalah kaedah bebas model masih wujud. Baru-baru ini, kami juga telah melihat beberapa percubaan berasaskan model + LLM sebagai ejen, yang mungkin merupakan hala tuju yang menarik.

Perkara terakhir yang ingin saya adukan dalam setiap kertas kerja ialah: Ia bukan sekadar menyambung kepada LLM dan membiarkan LLM mengeluarkan alasan untuk menjadikan model anda boleh ditafsirkan. Alasan ini mungkin masih karut. . . Perkara yang tidak dijamin sebelum ini tidak akan menjadi terjamin hanya kerana ayat adalah output.

Model Besar (Visual)

Model visual yang besar sebenarnya masih belum melihat detik "kemunculan" ajaib itu. Apabila bercakap tentang model visual yang besar, secara amnya terdapat dua rujukan yang mungkin: satu ialah pengekstrak ciri maklumat visual yang sangat berkuasa berdasarkan pra-latihan data web besar-besaran seperti CLIP atau DINO atau SAM, yang meningkatkan keupayaan pemahaman semantik model. ; Yang lain merujuk kepada model pasangan bersama (imej, tindakan, dll...) yang dilaksanakan oleh model dunia yang diwakili oleh GAIA.

Malah, saya rasa yang pertama hanyalah hasil daripada skala linear yang berterusan di sepanjang garis tradisional Pada masa ini, sukar untuk melihat kemungkinan perubahan kuantitatif dalam pemanduan autonomi. Malah, yang kedua telah terus memasuki bidang wawasan penyelidik kerana publisiti berterusan Wayve dan Tesla tahun ini. Apabila orang bercakap tentang model dunia, mereka sering memasukkan fakta bahawa model itu hujung ke hujung (secara langsung mengeluarkan tindakan) dan berkaitan dengan LLM. Malah, andaian ini adalah berat sebelah. Pemahaman saya tentang model dunia juga sangat terhad. Saya ingin mengesyorkan temu bual Lecun dan tinjauan RL berasaskan model @Yu Yang, yang tidak akan saya bahas lebih lanjut:

Yu Yang: Belajar tentang model persekitaran (model dunia)
https://www.php.cn/link/a2cdd86a458242d42a17c2bf4feff069

Pemandu autonomi visual tulen

Ini sebenarnya mudah difahami dan merujuk kepada sistem pemanduan autonomous sahaja. Ini sebenarnya keinginan terbaik dan muktamad untuk pemanduan autonomi: untuk memandu dengan sepasang mata seperti manusia. Konsep sedemikian biasanya dikaitkan dengan dua model besar di atas, kerana semantik imej yang kompleks memerlukan keupayaan abstraksi yang kuat untuk mengekstrak maklumat yang berguna. Di bawah serangan publisiti berterusan Tesla baru-baru ini, konsep ini juga bertindih dengan hujung ke hujung yang dinyatakan di bawah. Tetapi sebenarnya, terdapat banyak cara untuk mencapai pemanduan visual tulen, dan hujung-ke-hujung secara semulajadi adalah salah satu daripadanya, tetapi ia bukan satu-satunya. Masalah yang paling sukar dalam merealisasikan pemanduan autonomi visual semata-mata ialah penglihatan sememangnya tidak sensitif terhadap maklumat 3D, dan model besar tidak mengubahnya pada dasarnya. Dicerminkan secara khusus dalam: 1) Cara menerima gelombang elektromagnet secara pasif menjadikan penglihatan tidak seperti penderia lain yang boleh mengukur maklumat geometri dalam ruang 3D) Perspektif menjadikan objek jauh sangat sensitif terhadap ralat. Ini sangat tidak mesra untuk perancangan dan kawalan hiliran, yang dilaksanakan dalam ruang 3D ralat yang sama secara lalai. Namun, adakah pemanduan dengan penglihatan sama seperti dapat menganggar jarak dan kelajuan 3D dengan tepat? Saya fikir ini adalah isu perwakilan yang layak untuk dikaji secara mendalam dalam pemanduan autonomi visual tulen selain pemahaman semantik.

Pemandu autonomi hujung ke hujung

Konsep ini merujuk kepada isyarat kawalan daripada sensor ke output akhir (malah, saya fikir ia juga boleh memasukkan maklumat titik laluan kepada perancangan lapisan yang lebih huluan) menggunakan pengoptimuman bersama model. Ini sama ada kaedah hujung-ke-hujung terus yang memasukkan data sensor seperti ALVINN seawal tahun 1980-an dan mengeluarkan isyarat kawalan secara terus melalui rangkaian saraf, atau ia boleh menjadi kaedah hujung-ke-hujung berperingkat seperti CVPR terbaik tahun ini kertas UniAD. Walau bagaimanapun, perkara biasa kaedah ini ialah isyarat penyeliaan hiliran boleh dihantar terus ke huluan, dan bukannya setiap modul mempunyai matlamat pengoptimuman yang ditentukan sendiri. Secara keseluruhan, ini adalah idea yang betul Lagipun, pembelajaran mendalam bergantung pada pengoptimuman bersama tersebut untuk menjana kekayaannya. Walau bagaimanapun, bagi sistem seperti pemanduan autonomi atau robot tujuan umum, yang selalunya sangat kompleks dan berurusan dengan dunia fizikal, terdapat banyak masalah yang perlu diatasi dari segi pelaksanaan kejuruteraan dan organisasi data dan kecekapan penggunaan.

Feed-Forward pemanduan autonomi hujung ke hujung

Konsep ini nampaknya jarang disebut, tetapi sebenarnya saya mendapati bahawa kewujudan hujung ke hujung itu sendiri adalah berharga, tetapi masalahnya terletak pada pemerhatian penggunaan Cara Suapan Ke Hadapan ini. Termasuk saya, sebenarnya, saya selalu ingkar bahawa pemanduan hujung ke hujung mestilah dalam bentuk Feed-Forward, kerana 99% kaedah berasaskan pembelajaran mendalam semasa menganggap struktur sedemikian, yang bermaksud bahawa output akhir yang menjadi kebimbangan (seperti isyarat kawalan )u = f(x), x ialah pelbagai cerapan penderia. Di sini f boleh menjadi fungsi yang sangat kompleks. Tetapi sebenarnya, dalam beberapa masalah, kami berharap untuk membuat output akhir memuaskan atau hampir dengan hartanah tertentu, jadi sukar untuk borang Feed-Forward untuk memberikan jaminan sedemikian. Jadi terdapat satu lagi cara kita boleh menulis u* = argmin g(u, x) s.t h(u, x)

Dengan pembangunan model besar, penyelesaian pemanduan autonomi hujung-ke-hujung Feed-Forward terus ini telah membawa kebangkitan. Sudah tentu, model besar sangat berkuasa, tetapi saya menimbulkan satu soalan dan berharap semua orang akan memikirkannya: Jika model besar adalah maha kuasa dari hujung ke hujung, adakah itu bermakna model besar itu sepatutnya boleh memainkan hujung Go/Gobang -ke-akhir? Paradigma seperti AlphaGo sepatutnya tidak bermakna? Saya percaya semua orang tahu bahawa jawapannya adalah tidak. Sudah tentu, kaedah Feed-Forward ini boleh digunakan sebagai penyelesai anggaran yang pantas dan mencapai keputusan yang baik dalam kebanyakan senario.

Berdasarkan pelbagai penyelesaian yang telah mendedahkan penggunaan Perancang Neural mereka, bahagian saraf hanya menyediakan beberapa cadangan permulaan untuk penyelesaian pengoptimuman seterusnya untuk mengurangkan masalah pengoptimuman sangat tidak cembung dalam pengoptimuman berikutnya. Ini pada asasnya adalah perkara yang sama seperti pelancaran pantas dalam AlphaGo. Tetapi AlphaGo tidak akan memanggil carian MCTS berikutnya sebagai penyelesaian "menutup". . .

Akhir sekali, saya berharap ini dapat membantu semua orang menjelaskan perbezaan dan kaitan antara konsep ini, dan semua orang dapat memahami dengan jelas perkara yang mereka bincangkan semasa membincangkan isu. . .

Mari bercakap tentang beberapa model besar dan konsep pemanduan autonomi yang telah menjadi popular baru-baru ini.

Pautan asal: https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A

Atas ialah kandungan terperinci Mari bercakap tentang beberapa model besar dan konsep pemanduan autonomi yang telah menjadi popular baru-baru ini.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Panduan komprehensif untuk ekstrapolasiApr 15, 2025 am 11:38 AM

Pengenalan Katakan ada petani yang setiap hari memerhatikan kemajuan tanaman dalam beberapa minggu. Dia melihat kadar pertumbuhan dan mula merenungkan betapa lebih tinggi tumbuhannya dapat tumbuh dalam beberapa minggu lagi. Dari th

Kebangkitan AI lembut dan apa maksudnya untuk perniagaan hari iniApr 15, 2025 am 11:36 AM

Soft AI-yang ditakrifkan sebagai sistem AI yang direka untuk melaksanakan tugas-tugas tertentu yang sempit menggunakan penalaran, pengiktirafan corak, dan pengambilan keputusan yang fleksibel-bertujuan untuk meniru pemikiran seperti manusia dengan merangkul kekaburan. Tetapi apa maksudnya untuk busine

Rangka kerja keselamatan yang berkembang untuk sempadan AIApr 15, 2025 am 11:34 AM

Jawapannya jelas-seperti pengkomputeran awan memerlukan peralihan ke arah alat keselamatan awan asli, AI menuntut satu penyelesaian keselamatan baru yang direka khusus untuk keperluan unik AI. Kebangkitan pengkomputeran awan dan pelajaran keselamatan dipelajari Dalam th

3 cara AI Generatif menguatkan usahawan: berhati -hati dengan purata!Apr 15, 2025 am 11:33 AM

Usahawan dan menggunakan AI dan Generatif AI untuk menjadikan perniagaan mereka lebih baik. Pada masa yang sama, adalah penting untuk mengingati AI generatif, seperti semua teknologi, adalah penguat - menjadikan yang hebat dan yang biasa -biasa saja, lebih buruk. Kajian 2024 yang ketat o

Kursus Pendek Baru mengenai Model Embedding oleh Andrew NgApr 15, 2025 am 11:32 AM

Buka kunci kekuatan model embedding: menyelam jauh ke kursus baru Andrew Ng Bayangkan masa depan di mana mesin memahami dan menjawab soalan anda dengan ketepatan yang sempurna. Ini bukan fiksyen sains; Terima kasih kepada kemajuan dalam AI, ia menjadi R

Adakah halusinasi dalam model bahasa besar (LLMS) tidak dapat dielakkan?Apr 15, 2025 am 11:31 AM

Model bahasa besar (LLM) dan masalah halusinasi yang tidak dapat dielakkan Anda mungkin menggunakan model AI seperti ChatGPT, Claude, dan Gemini. Ini semua contoh model bahasa besar (LLM), sistem AI yang kuat yang dilatih dalam dataset teks besar -besaran ke

Masalah 60% - Bagaimana carian AI mengalir trafik andaApr 15, 2025 am 11:28 AM

Penyelidikan baru-baru ini telah menunjukkan bahawa gambaran AI boleh menyebabkan penurunan 15-64% dalam trafik organik, berdasarkan jenis industri dan carian. Perubahan radikal ini menyebabkan pemasar untuk menimbang semula keseluruhan strategi mereka mengenai penglihatan digital. Yang baru

Makmal Media MIT untuk meletakkan manusia berkembang di tengah -tengah AI R & DApr 15, 2025 am 11:26 AM

Laporan baru -baru ini dari Elon University Imagining the Digital Future Centre meninjau hampir 300 pakar teknologi global. Laporan yang dihasilkan, 'Menjadi Manusia pada tahun 2035', menyimpulkan bahawa kebanyakannya bimbang bahawa penggunaan sistem AI yang mendalam lebih daripada t

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang laluByDDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7517

Tutorial CakePHP

1378

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi