搜尋
首頁科技週邊人工智慧來聊聊近期火爆的幾個大模型和自動駕駛概念

近期大模型各種應用依然火爆,10月初前後出現了一系列頗有噱頭的文章,試圖把大模型應用於自動駕駛。和許多朋友最近也聊了很多相關的話題,寫這篇文章,一方面是發現其實包括我在內,在過去其實都混淆了一些很相關但其實不同的概念,另一方面從這些概念延伸出來有一些有趣的思考,值得和大家一起分享和探討。

大(語言)模型

這無疑是目前最火爆的一個方向,也是論文最集中的熱點。那大語言模型究竟能怎麼幫助到自動駕駛?一方面是像GPT-4V一樣,透過和影像的對齊,提供極其強大的語意理解能力,這裡暫時按下不表;另一方面便是把LLM當作agent去直接實現駕駛行為。後者其實也是目前最為sexy的研究方向,和embodied AI這一系列工作有著千絲萬縷的關係。

目前看到的絕大部分後一類工作都是將LLM:1) 直接使用 2) 透過supervised learning的方式微調 3) 透過reinforcement learning的方式微調 用於駕駛任務。本質上並沒有逃脫出先前基於learning方法去駕駛的範式框架。那其實很直接的一個問題就是,為什麼用LLM來做這件事可能會更好?直覺上來說用語言去開車是一件很低效而囉嗦的事情。後來有一天突然想明白了LLM其實透過語言實現了一個對agent的pretrain! 之前RL很難有泛化性很重要的一個原因是難以統一起來各種不同的任務,去用各種通用的資料去pretrain,只能是每種任務from scratch訓練,但LLM很好解決了這樣的問題。但其實也有幾個沒有很好解決的問題:1) 完成pretrain之後,一定要保留語言作為輸出的介面嗎?這其實在許多任務中帶來了許多的不便,也一定程度上造成了冗餘的計算量。 2) LLM as agent的做法上仍然沒有克服現有RL類model free方法的本質問題,所有model free有的問題這樣的方法仍然存在。最近也看到一些model based LLM as agent的嘗試,這可能會是個有趣的方向。

最後想吐槽的一句各篇paper的是:並不是接上LLM,讓LLM輸出一個reason就能讓你的模型變得可解釋。這個reason仍然是可能胡說八道的。 。 。原先不會有保障的東西,並不會因為輸出一句話就變得有保障了。

大(視覺)模型

純粹的大視覺模型其實目前仍然沒有看到那神奇的「湧現」時刻。談到大視覺模型,一般有兩個可能的所指:一個是基於CLIP或DINO或SAM這樣海量的web data預訓練實現的超強視覺資訊特徵提取器,這大大提升了模型的語義理解能力;另一個是指以GAIA為代表的world model實現的對(image, action,etc...)的聯合模型。

前者其實我認為只是沿著傳統的思路繼續linear scale up的結果,目前很難看到對自動駕駛量變的可能性。後者其實在今年Wayve和Tesla的不斷宣傳之下,不斷走入了研究者的視野。大家在聊world model的時候,往往夾雜著這個模型是端對端(直接輸出action)且和LLM是相關聯的。其實這樣的假設是片面的。對於world model的我的理解也是非常有限,這裡推薦一下Lecun的訪談和@俞揚老師的這篇model based RL的survey,就不展開了:

俞揚:關於環境模型(world model)的學習
https://www.php.cn/link/a2cdd86a458242d42a17c2bf4feff069

#純視覺自動駕駛

這其實很容易理解,是指僅依賴視覺感測器的自動駕駛系統。這其實也是自動駕駛最美好的終極願望:像人一樣靠一雙眼睛開車。這樣的概念一般都會和上述兩個大模型連結起來,因為圖像複雜的語意需要很強的抽象能力來提取有用的資訊。在Tesla最近不斷的宣傳攻勢下,這個概念也和下面要提到的端對端重疊。但其實純視覺駕駛有很多種實現的路徑,端到端自然是其中的一條,但也不是僅有的一條。要實現純視覺自動駕駛最困難的問題就是視覺天生對於3D資訊的不敏感,大模型也並未本質上改變這一點。具體體現在:1) 被動接收電磁波的方式使得視覺不像其他感測器可以測量3D空間中的幾何資訊;2) 透視使得遠處的物體對於誤差的敏感程度極高。這對於下游預設在一個等誤差的3D空間中實現的planning和control來說非常不友善。但是,人靠視覺開車等於人能準確估計3D距離和速度嗎?我覺得這才是純視覺自動駕駛除了語意理解之外,值得深入研究的representation的問題。

端對端自動駕駛

這個概念是指從感測器到最終輸出的控制訊號(其實我認為也可以廣義地包含到更上游一層planning的路點資訊)使用一個聯合優化的模型。這既可以是像早在80年代的ALVINN一樣輸入感測器數據,直接透過一個神經網路輸出控制訊號的直接端對端方法,也可以有像今年CVPR best paper UniAD這樣的分階段端到端方法。但是這些方法的一個共同要點都是透過下游的監督訊號能夠直接傳遞給到上游,而不是每個模組只有自己自定的最佳化目標。整體來說這是正確的一個思路,畢竟深度學習就是靠著這樣的聯合優化發家的。但是對於自動駕駛或通用機器人這種往往複雜程度極高,且和物理世界打交道的系統來說,工程實現和數據組織和利用效率上都存在著許多需要克服的難題。

Feed-Forward端對端自動駕駛

這個概念好像很少有人提到,但其實我發現端到端本身的存在是有價值的,但是問題在於對於觀測這種Feed-Forward的使用方式。包括我在內,其實之前也會預設端對端駕駛一定是Feed-Forward形式的,因為目前99%基於深度學習的方法都假設了這樣的結構,也就是說最終關心的輸出量(例如控制訊號)u = f(x),x是感測器的各種觀測。這裡f可以是一個很複雜的函數。但其實,我們在某些​​問題裡,我們希望能夠使得最終的輸出量滿足或接近某些性質,這樣Feed-Forward的形式便很難給出這樣的保證。所以能還有一種方式我們可以寫成u* = argmin g(u, x) s.t. h(u, x)

隨著大模型的發展,這個直接式的Feed-Forward端對端自動駕駛的方案又迎來了一波復興。大模型當然是非常強大的,但是我拋出一個問題希望大家來想想:如果大模型端到端是萬能的,那是不是意味著大模型就應該可以端到端下圍棋/五子棋呢?類似AlphaGo的典範就應該已經毫無意義了? 相信大家也都知道這個答案是否定的。當然這種Feed-Forward的方式可以作為一個快速的近似求解器,在大部分場景下取得不錯的結果。

以目前公開了自己使用了Neural Planner的各家方案來看,neural的部分只是為後續的優化方案提供了若干初始化的proposal去緩解後續優化高度非凸的問題。這本質上和AlphaGo裡的fast rollout做的事情是一模一樣的。但是AlphaGo不會把後續的MCTS搜尋叫做一個「兜底」方案。 。 。

最後,希望這些能夠幫助大家理清這些概念之間的區別與聯繫,大家在討論問題的時候也能夠明確在說的究竟是什麼東西。 。 。

來聊聊近期火爆的幾個大模型和自動駕駛概念

原文連結:https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A

以上是來聊聊近期火爆的幾個大模型和自動駕駛概念的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
從摩擦到流:AI如何重塑法律工作從摩擦到流:AI如何重塑法律工作May 09, 2025 am 11:29 AM

法律技術革命正在獲得動力,促使法律專業人員積極採用AI解決方案。 對於那些旨在保持競爭力的人來說,被動抵抗不再是可行的選擇。 為什麼技術採用至關重要? 法律專業人員

這就是AI對您的看法,對您的了解這就是AI對您的看法,對您的了解May 09, 2025 am 11:24 AM

許多人認為與AI的互動是匿名的,與人類交流形成了鮮明的對比。 但是,AI在每次聊天期間都會積極介紹用戶。 每個單詞的每個提示都經過分析和分類。讓我們探索AI Revo的這一關鍵方面

建立蓬勃發展的AI-Ready企業文化的7個步驟建立蓬勃發展的AI-Ready企業文化的7個步驟May 09, 2025 am 11:23 AM

成功的人工智能戰略,離不開強大的企業文化支撐。正如彼得·德魯克所言,企業運作依賴於人,人工智能的成功也同樣如此。 對於積極擁抱人工智能的組織而言,構建適應AI的企業文化至關重要,它甚至決定著AI戰略的成敗。 西蒙諾諮詢公司(West Monroe)近期發布了構建蓬勃發展的AI友好型企業文化的實用指南,以下是一些關鍵要點: 1. 明確AI的成功模式: 首先,要對AI如何賦能業務有清晰的願景。理想的AI運作文化,能夠實現人與AI系統之間工作流程的自然融合。 AI擅長某些任務,而人類則擅長創造力、判

Netflix New Scroll,Meta AI的遊戲規則改變者,Neuralink價值85億美元Netflix New Scroll,Meta AI的遊戲規則改變者,Neuralink價值85億美元May 09, 2025 am 11:22 AM

Meta升級AI助手應用,可穿戴式AI時代來臨!這款旨在與ChatGPT競爭的應用,提供文本、語音交互、圖像生成和網絡搜索等標準AI功能,但現在首次增加了地理位置功能。這意味著Meta AI在回答你的問題時,知道你的位置和正在查看的內容。它利用你的興趣、位置、個人資料和活動信息,提供最新的情境信息,這在以前是無法實現的。該應用還支持實時翻譯,這徹底改變了Ray-Ban眼鏡上的AI體驗,使其實用性大大提升。 對外國電影徵收關稅是對媒體和文化的赤裸裸的權力行使。如果實施,這將加速向AI和虛擬製作的

今天採取這些步驟以保護自己免受AI網絡犯罪的侵害今天採取這些步驟以保護自己免受AI網絡犯罪的侵害May 09, 2025 am 11:19 AM

人工智能正在徹底改變網絡犯罪領域,這迫使我們必須學習新的防禦技巧。網絡罪犯日益利用深度偽造和智能網絡攻擊等強大的人工智能技術進行欺詐和破壞,其規模前所未有。據報導,87%的全球企業在過去一年中都成為人工智能網絡犯罪的目標。 那麼,我們該如何避免成為這波智能犯罪的受害者呢?讓我們探討如何在個人和組織層面識別風險並採取防護措施。 網絡罪犯如何利用人工智能 隨著技術的進步,犯罪分子不斷尋找新的方法來攻擊個人、企業和政府。人工智能的廣泛應用可能是最新的一個方面,但其潛在危害是前所未有的。 特別是,人工智

共生舞蹈:人工和自然感知的循環共生舞蹈:人工和自然感知的循環May 09, 2025 am 11:13 AM

最好將人工智能(AI)與人類智力(NI)之間的複雜關係理解為反饋循環。 人類創建AI,對人類活動產生的數據進行培訓,以增強或複制人類能力。 這個AI

AI最大的秘密 - 創作者不了解,專家分裂AI最大的秘密 - 創作者不了解,專家分裂May 09, 2025 am 11:09 AM

Anthropic最近的聲明強調了有關尖端AI模型缺乏了解,引發了專家之間的激烈辯論。 這是一個真正的技術危機,還是僅僅是通往更秘密的道路上的臨時障礙

Sarvam AI的Bulbul-V2:印度最佳TTS模型Sarvam AI的Bulbul-V2:印度最佳TTS模型May 09, 2025 am 10:52 AM

印度是一個多元化的國家,具有豐富的語言,使整個地區的無縫溝通成為持續的挑戰。但是,Sarvam的Bulbul-V2正在幫助彌合其高級文本到語音(TTS)T

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具