並非所有人都能理解Tesla V12在北美大規模推送以及憑藉其優良的表現開啟獲得越來越多用戶認同的局面,端到端自動駕駛也成為自動駕駛行業里大家最為關注的技術方向。最近有機會和許多行業中的一流工程師、產品經理、投資者、媒體人進行了一些交流,發現大家對端到端自動駕駛很感興趣,但甚至在一些對端到端自動駕駛的基本理解上還存在著這樣那樣的迷思。作為有幸體驗過國內一線品牌有圖無圖城市功能,同時又體驗過FSD V11和V12兩個版本的人,在這裡我想結合自己專業背景和對Tesla FSD常年的進展跟踪,談談幾個現階段大家談及端對端自動駕駛的常見誤解,並給出我自己對於這些問題的解讀。
疑惑一:端對端感知,端到端決策規劃都可以算是端對端自動駕駛?
從感測器輸入開始到規劃然後控制訊號輸出的過程中所有的步驟都是端到端可導,這樣整個系統可以作為一個大模型進行訓練,通過梯度下降的訓練,透過梯度反向傳播可以在模型訓練期間對模型從輸入到輸出之間的所有環節進行參數更新優化,從而能夠針對使用者直接感知到的驅動決策軌跡優化整個系統的驅動行為。而最近一些友商在宣傳端到端的自動駕駛的過程中聲稱自己是端到端感知,或者端到端的決策,但這二者其實我認為都不能算作是端到端的自動駕駛,而只能被稱作純粹數據驅動的感知和純粹數據驅動的決策規劃。
某些人可能會根據特定模型做出決策,並結合傳統方法來進行安全校驗和軌跡最佳化的混合策略,也稱為端到端規劃。此外,有說法認為Tesla V12並不是純粹精確的模型輸出控制訊號,應該也是結合了一些規則方法的混合策略。根據就是http://X.com上的著名Green前段時間發過一條twitter稱在V12技術棧裡還是能夠發現規則的程式碼。對此我的理解是Green發現的程式碼很可能是V12高速技術棧保留的V11版本程式碼,因為我們知道目前V12其實只是用端到端取代了原本城市技術棧,高速仍會沿用V11的方案,因此在解開的程式碼中找到一些規則碼的只言片語並不代表V12是假“端到端”,而是找到的很可能是高速的程式碼。實際上我們從2022年的AI Day上就可以看出,V11及之前的版本已經是混合方案,因此V12如果不是徹底的模型直出軌跡,那麼方案上就和之前的版本差別不大,如果是這樣V12的性能跳躍性提升又沒有法合理的解釋了。關於Tesla之前的方案可參考我在AI Day解讀EatElephant:Tesla AI Day 2022 -- 世字解讀:塪稱自動駕駛春晚,去中心化的研發團隊,麎心勃勃的向AI技術公司轉型。
從2022年AI Day來看,V11已經是混合了NN Planner的規劃方案
總的來說,無論是感知後處理程式碼,還是規則的候選軌跡評分,甚至是安全兜底策略,一旦引入了規則的代碼,有了if else的分支,整個系統的穩定傳遞就會被截斷,這也就損失了端到端系統通過訓練獲得全域最佳化的最大優勢。
疑惑二:端到端是對之前技術的推倒重來?
另一個常見的誤解是端到端就是推翻了之前積累的技術進行徹底的新技術的革新,並且很多人覺得已然Tesla剛剛實現了端到端自動駕駛系統的用戶推送,那麼其他廠商根本不用再在原本感知、預測、規劃的模組化技術棧上迭代,大家直接進入端到端的系統,反而可以藉鑑後發優勢快速追上甚至超越Tesla。確實以一個大模型來完成從感測器輸入到規劃控制訊號的映射是最徹底的端到端,也很早就有公司嘗試過類似的方法,例如Nvidia的DAVE-2和Wayve等公司就使用了類似的方法。這種徹底的端到端技術確實更接近黑盒,很難進行debug和迭代優化,同時由於感測器輸入訊號如影像、點雲等是非常高維度的輸入空間,輸出控制訊號如方向盤轉角和油門制動踏板是相對低維度的輸出空間,導致實車測試完全無法使用。
徹底的端對端系統也會使用一些常見的如語意分割,深度估計等輔助任務幫助模型收斂和debug
#因此我們實際看到的FSD V12保留了幾乎所有先前的視覺化內容,這表明FSD V12是在原本強大的感知基礎上進行的端到端訓練,從2020年10月開始的FSD迭代並沒有被拋棄,反而成為了V12堅實的技術基礎。 Andrej Karparthy之前也回答過類似問題,他雖然沒有參與V12的研發,但他認為所有先前的技術累積並沒有被拋棄,只是從台前遷移到了幕後。因此端到端是在原有技術基礎上一步步去掉個部分的規則程式碼逐漸實現的端對端導航。
V12保留了FSD幾乎所有的感知,只取消了椎桶等有限的可視化內容
##疑惑三:學術Paper中的端到端能否遷移到實際產品?
UniAD成為2023年CVPR Best Paper無疑代表了學術界對端到端的自動駕駛系統寄予的厚望。從2021年Tesla介紹了其視覺BEV感知技術的創新後,國內學術界在自動駕駛BEV感知方面投入了非常大的熱情,並誕生了一些列研究,推動了BEV方法的性能優化和落地部署,那麼端到端是否也能走一條類似的路線,由學術界引領,產業界跟隨從而推動端到端技術在產品上的快速迭代落地呢?我認為是比較難的。首先BEV感知還是一個相對模組化的技術,更多是演算法層面,且入門級效能對資料量的需求沒有那麼高,高品質的學術開源資料集Nuscenes的推出為許多BEV研究提供了便利的前置條件,在Nuscenes上迭代的BEV感知方案雖然無法達到產品級性能要求,但是作為概念驗證和模型選型,是具有很大借鑒價值的。然而學術界缺乏大規模的端到端可用數據。目前最大規模的Nuplan數據集包含了4個城市1200小時的實車採集數據,然而在2023年的一次財報會議上,Musk表示對於端到端的自動駕駛「訓練了100萬個視頻case,勉強可以工作;200萬個,稍好一些;300萬個,就會感到Wow;到了1000萬個,它的表現就變得難以置信了」。 Tesla的Autopilot回傳數據普遍認為是1min的片段,那麼入門級別的100w視頻case大概就是16000小時,比最大的學術數據集至少多一個數量級以上,這裡還是要注意nuplan是連續採集數據,因此在數據的分佈和多樣性上有著致命的缺陷,絕大多數數據都是簡單場景,這也意味著使用nuplan這樣的學術數據集甚至無法獲得一個能夠勉強上車的版本。疑惑四:端到端自動駕駛只是一次演算法革新?
最後端對端不只是一個新的演算法那麼簡單。模組化的自動駕駛系統不同模組的模型可以使用各自任務的資料分別迭代訓練,然而端到端系統各個功能是同時進行訓練的,這就要求訓練資料具有極高的一致性,每條資料要對所有子任務標籤都進行標註,一旦一種任務標註失敗,那麼這條數據就很難在端到端訓練任務中使用了,這對於自動標註Pipeline的成功率和性能提出了極高的要求。其次端到端系統因為需要所有模組都達到一個較高的效能水準才能在端到端的決策規劃輸出任務中達成較好的效果,因此普遍認為端到端系統資料門檻遠高於各個單一模組的數據需求,而數據的門檻不僅是對絕對數量的要求,還對於數據的分佈和多樣性要求極高,這就是得自己沒有車輛的完全控制權,不得不適配多個擁有不同車型客戶的供應商在開發端到端系統時候可能會遇到較大的困難。在算力門檻上,Musk曾在今年三月初在http://X.com上表示目前FSD的最大限制因素是算力,而在最近馬老闆則表示他們的算力問題得到了很大的環節,幾乎就在同一時間在2024年Q1財報會議上Tesla透露如今他們已經擁有35000塊H100的計算資源,並透漏在2024年底這一數字將達到85000塊。毫無疑問Tesla擁有非常強大的算力工程優化能力,這意味著要達到FSD V12目前的水平,大概率35000塊H100和數十億美金的基礎設施資本開銷是必要前提,如果在算力使用方面不如Tesla高效,那麼可能這項門檻會被進一步拔高。
3月初馬斯克表示FSD的迭代主要限制因素是算力
4月初馬斯克表示今年Tesla在算力方面的總投入將超過100億美元
另外在http://X.com有網友分享了一張Nvidia汽車行業的高管Norm Marks在今年某次會議的截圖,從中可以看出截止到2023年底,Tesla所擁有的NV顯示卡數量在長條圖上是完全爆表的存在(左圖最右側綠的箭頭,中間文字說明了這個排名第一的OEM所擁有的NV顯示卡數>7000個DGX節點,這個OEM顯然就是Tesla,每個節點依照8卡計算,23年底Tesla大概有A100顯示卡超過56000卡,比排名第二的OEM多出四倍以上,這裡我理解不包括2024年新購入的35000卡新款H100),再結合美國對出口中國顯示卡的限制政策,想要趕上這一算力的難度變得更加困難。
Norm Marks在某次內部分享截圖,來源X.com@ChrisZheng001
除了上述資料算力挑戰外,端到端的系統會遇到什麼樣的新挑戰,如何保證系統的可控性,如何儘早發現問題,透過數據驅動的方式解決問題,並且在無法利用規則代碼的情況下快速迭代,目前對於絕大多數自動駕駛研發團隊而言都是一個未知的挑戰。
最後端到端對於現在的自動駕駛研發團隊還是一個組織變革,因為從L4自動駕駛以來,絕大多數自動駕駛團隊的組織架構是模組化的,不僅分為感知組,預測組,定位組,規劃控制組,甚至感知組還分視覺感知,雷射感知等等。而端到端的技術架構直接幹掉了不同模組間的介面壁壘,使得研發端到端的團隊需要整合全部人力資源來適應新的技術範式,這對不夠靈活的團隊組織文化是一個極大的挑戰。
以上是2024年,端到端自動駕駛在國內是否會有實質的突破與進展?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

介紹 大語言模型(LLM)的功能正在迅速發展。它們使我們能夠構建各種LLM應用程序。這些範圍從任務自動化到工作流優化。一個令人興奮的應用程序是

總統唐納德·特朗普(Donald Trump)在他的任期的第一天取消了前總統喬·拜登(Joe Biden)的AI行政命令(披露:我在拜登政府期間擔任國土安全部AI的高級顧問),副總統JD VA

介紹 想像一下,經營一個繁忙的咖啡館,其中每一秒鐘都很重要。您沒有不斷檢查單獨的庫存和訂單列表,而是將所有關鍵詳細信息整合到一個易於閱讀的板上。這類似於Denormaliza

介紹 想像一下,當一條進攻性帖子突然出現時,您正在瀏覽自己喜歡的社交媒體平台。在您點擊報告按鈕之前,它已經消失了。那是內容主音

介紹 在當今數據繁多的世界中,處理龐大的數據集可能會令人不知所措。這就是洞察力的來源。它旨在使探索您的數據變得輕而易舉。只需上傳您的數據集,您就會獲得Instan

介紹 想像一下,開發與對話相同的應用程序。將沒有復雜的開發環境可以設置,也無需查看配置文件。將概念轉換為有價值的應用程序

最近,隨著大語言模型和AI的興起,我們看到了自然語言處理方面的無數進步。文本,代碼和圖像/視頻生成等域中的模型具有存檔的人類的推理和P


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3漢化版
中文版,非常好用