搜尋
首頁科技週邊人工智慧來聊聊近期火爆的幾個大模型和自動駕駛概念

近期大模型各種應用依然火爆,10月初前後出現了一系列頗有噱頭的文章,試圖把大模型應用於自動駕駛。和許多朋友最近也聊了很多相關的話題,寫這篇文章,一方面是發現其實包括我在內,在過去其實都混淆了一些很相關但其實不同的概念,另一方面從這些概念延伸出來有一些有趣的思考,值得和大家一起分享和探討。

大(語言)模型

這無疑是目前最火爆的一個方向,也是論文最集中的熱點。那大語言模型究竟能怎麼幫助到自動駕駛?一方面是像GPT-4V一樣,透過和影像的對齊,提供極其強大的語意理解能力,這裡暫時按下不表;另一方面便是把LLM當作agent去直接實現駕駛行為。後者其實也是目前最為sexy的研究方向,和embodied AI這一系列工作有著千絲萬縷的關係。

目前看到的絕大部分後一類工作都是將LLM:1) 直接使用 2) 透過supervised learning的方式微調 3) 透過reinforcement learning的方式微調 用於駕駛任務。本質上並沒有逃脫出先前基於learning方法去駕駛的範式框架。那其實很直接的一個問題就是,為什麼用LLM來做這件事可能會更好?直覺上來說用語言去開車是一件很低效而囉嗦的事情。後來有一天突然想明白了LLM其實透過語言實現了一個對agent的pretrain! 之前RL很難有泛化性很重要的一個原因是難以統一起來各種不同的任務,去用各種通用的資料去pretrain,只能是每種任務from scratch訓練,但LLM很好解決了這樣的問題。但其實也有幾個沒有很好解決的問題:1) 完成pretrain之後,一定要保留語言作為輸出的介面嗎?這其實在許多任務中帶來了許多的不便,也一定程度上造成了冗餘的計算量。 2) LLM as agent的做法上仍然沒有克服現有RL類model free方法的本質問題,所有model free有的問題這樣的方法仍然存在。最近也看到一些model based LLM as agent的嘗試,這可能會是個有趣的方向。

最後想吐槽的一句各篇paper的是:並不是接上LLM,讓LLM輸出一個reason就能讓你的模型變得可解釋。這個reason仍然是可能胡說八道的。 。 。原先不會有保障的東西,並不會因為輸出一句話就變得有保障了。

大(視覺)模型

純粹的大視覺模型其實目前仍然沒有看到那神奇的「湧現」時刻。談到大視覺模型,一般有兩個可能的所指:一個是基於CLIP或DINO或SAM這樣海量的web data預訓練實現的超強視覺資訊特徵提取器,這大大提升了模型的語義理解能力;另一個是指以GAIA為代表的world model實現的對(image, action,etc...)的聯合模型。

前者其實我認為只是沿著傳統的思路繼續linear scale up的結果,目前很難看到對自動駕駛量變的可能性。後者其實在今年Wayve和Tesla的不斷宣傳之下,不斷走入了研究者的視野。大家在聊world model的時候,往往夾雜著這個模型是端對端(直接輸出action)且和LLM是相關聯的。其實這樣的假設是片面的。對於world model的我的理解也是非常有限,這裡推薦一下Lecun的訪談和@俞揚老師的這篇model based RL的survey,就不展開了:

俞揚:關於環境模型(world model)的學習
https://www.php.cn/link/a2cdd86a458242d42a17c2bf4feff069

#純視覺自動駕駛

這其實很容易理解,是指僅依賴視覺感測器的自動駕駛系統。這其實也是自動駕駛最美好的終極願望:像人一樣靠一雙眼睛開車。這樣的概念一般都會和上述兩個大模型連結起來,因為圖像複雜的語意需要很強的抽象能力來提取有用的資訊。在Tesla最近不斷的宣傳攻勢下,這個概念也和下面要提到的端對端重疊。但其實純視覺駕駛有很多種實現的路徑,端到端自然是其中的一條,但也不是僅有的一條。要實現純視覺自動駕駛最困難的問題就是視覺天生對於3D資訊的不敏感,大模型也並未本質上改變這一點。具體體現在:1) 被動接收電磁波的方式使得視覺不像其他感測器可以測量3D空間中的幾何資訊;2) 透視使得遠處的物體對於誤差的敏感程度極高。這對於下游預設在一個等誤差的3D空間中實現的planning和control來說非常不友善。但是,人靠視覺開車等於人能準確估計3D距離和速度嗎?我覺得這才是純視覺自動駕駛除了語意理解之外,值得深入研究的representation的問題。

端對端自動駕駛

這個概念是指從感測器到最終輸出的控制訊號(其實我認為也可以廣義地包含到更上游一層planning的路點資訊)使用一個聯合優化的模型。這既可以是像早在80年代的ALVINN一樣輸入感測器數據,直接透過一個神經網路輸出控制訊號的直接端對端方法,也可以有像今年CVPR best paper UniAD這樣的分階段端到端方法。但是這些方法的一個共同要點都是透過下游的監督訊號能夠直接傳遞給到上游,而不是每個模組只有自己自定的最佳化目標。整體來說這是正確的一個思路,畢竟深度學習就是靠著這樣的聯合優化發家的。但是對於自動駕駛或通用機器人這種往往複雜程度極高,且和物理世界打交道的系統來說,工程實現和數據組織和利用效率上都存在著許多需要克服的難題。

Feed-Forward端對端自動駕駛

這個概念好像很少有人提到,但其實我發現端到端本身的存在是有價值的,但是問題在於對於觀測這種Feed-Forward的使用方式。包括我在內,其實之前也會預設端對端駕駛一定是Feed-Forward形式的,因為目前99%基於深度學習的方法都假設了這樣的結構,也就是說最終關心的輸出量(例如控制訊號)u = f(x),x是感測器的各種觀測。這裡f可以是一個很複雜的函數。但其實,我們在某些​​問題裡,我們希望能夠使得最終的輸出量滿足或接近某些性質,這樣Feed-Forward的形式便很難給出這樣的保證。所以能還有一種方式我們可以寫成u* = argmin g(u, x) s.t. h(u, x)

隨著大模型的發展,這個直接式的Feed-Forward端對端自動駕駛的方案又迎來了一波復興。大模型當然是非常強大的,但是我拋出一個問題希望大家來想想:如果大模型端到端是萬能的,那是不是意味著大模型就應該可以端到端下圍棋/五子棋呢?類似AlphaGo的典範就應該已經毫無意義了? 相信大家也都知道這個答案是否定的。當然這種Feed-Forward的方式可以作為一個快速的近似求解器,在大部分場景下取得不錯的結果。

以目前公開了自己使用了Neural Planner的各家方案來看,neural的部分只是為後續的優化方案提供了若干初始化的proposal去緩解後續優化高度非凸的問題。這本質上和AlphaGo裡的fast rollout做的事情是一模一樣的。但是AlphaGo不會把後續的MCTS搜尋叫做一個「兜底」方案。 。 。

最後,希望這些能夠幫助大家理清這些概念之間的區別與聯繫,大家在討論問題的時候也能夠明確在說的究竟是什麼東西。 。 。

來聊聊近期火爆的幾個大模型和自動駕駛概念

原文連結:https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A

以上是來聊聊近期火爆的幾個大模型和自動駕駛概念的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)