首頁 >科技週邊 >人工智慧 >聊聊端到端與下一代自動駕駛系統，以及端到端自動駕駛的一些迷思？

聊聊端到端與下一代自動駕駛系統，以及端到端自動駕駛的一些迷思？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB轉載: 2024-04-15 16:13:011341瀏覽

最近一個月由於眾所周知的一些原因，非常密集地和行業內的各種老師同學進行了交流。交流中必不可免的一個話題自然是端到端與火爆的特斯拉 FSD V12。想藉此機會，整理當下這個時刻的一些想法和觀點，供大家參考和討論。

如何定義端對端的自動駕駛系統，應該期望端對端解決什麼問題？

依照最傳統的定義，端到端的系統指的是一套系統，輸入感測器的原始訊息，直接輸出任務關心的變數。例如，在影像辨識中，CNN相對於傳統的特徵提取器分類器的方法就可以稱之為端到端。在自動駕駛任務中，輸入各種感知器的資料（相機/LiDAR/Radar/IMU等），直接輸出車輛行駛的控制訊號（油門/方向盤角度等）。為了考慮不同車型之間的適配問題，也可以將輸出放寬為車輛行駛的軌跡。這便是一種傳統意義上的定義，或者說是我所謂的做狹義端對端的定義。在這樣一個基礎上，也衍生出了一些中間任務的監督來提升性能能力。

然而，除了這樣狹義的定義之外，我們還應該從本質上思考一下，端到端的本質是什麼？ 我認為端對端的本質應該是感知訊息的無損傳遞。我們先回想一下在非端到端系統中，感知和PnC模組的介面是什麼樣子的。一般我們會有針對白名單物體（車，人，etc）的偵測/屬性分析/預測，會有對靜態環境的理解（道路結構/限速/紅綠燈，etc），如果做的更細緻一些的話，還會做通用障礙物的一些檢測工作。 從宏觀的角度來講，感知輸出的這些訊息，都是對複雜駕駛場景的一種抽象，而且是人工定義的顯式抽象。然而，對於一些非常見場景中，現在的顯式抽象難以充分錶達場景中會影響駕駛行為的因素，亦或是我們需要定義的任務過多過瑣碎，也難以枚舉盡所有需要的任務。所以端到端系統，提供了一種（也許是隱式）全面表示，希望能夠自動地無損地將這樣的資訊作用於PnC。我認為，所有能滿足這樣的系統，都可以叫做廣義端對端。

對於其他的問題，例如對動態互動場景的一些最佳化，我個人的觀點認為至少並非只有端到端才能解決這些問題，傳統方法是可以解決好這些問題的。當然，在資料量夠大的時候，端到端可能會提供一個還不錯的solution。關於這個事情是否有必要，會在後幾個問題中展開討論。

聊聊端到端與下一代自動駕駛系統，以及端到端自動駕駛的一些迷思？

關於端對端自動駕駛的一些誤解？

一定要輸出控制訊號和路點才是端到端

#對於廣義端到端的概念，如果能認同上面所講的概念，那麼這個問題就很容易理解了。端到端的強調的是訊息的無損傳遞，而不是一定要直接輸出任務量。這樣的端到端處理方法需要大量的兜底方案來確保安全，而且在實作過程中也會遇到一些問題，在後續處理中會逐漸展開。

端對端系統一定要基於大模型或純視覺

聊聊端到端與下一代自動駕駛系統，以及端到端自動駕駛的一些迷思？

#端對端自動駕駛的概念和大模型自動駕駛以及純視覺自動駕駛沒有任何必然的關聯。這三個概念是完全獨立存在的，一個端到端的系統不必一定是傳統意義上的大模型驅動的，也不一定是純粹視覺。三者之間有些關聯，但不等同。

之前我有一篇文章詳細闡述過這些概念之間的關係，詳見：https://zhuanlan.zhihu.com/p/664189972

長遠來看，上述狹義的端對端系統有沒有可能達到L3等級以上自動駕駛？

其實我先想來吐槽一句，號稱要用大模型來顛覆L4的人，都沒有實際做過L4；號稱端到端包治百病的人，也都從來沒做過PnC。於是和許多對端到端狂熱的人聊下來，就變成了一個純粹的無法證實也無法證偽的宗教信仰之爭。我們做前沿研發的同學，還是應該更實事求是，講究證據一些。。。最起碼對想要顛覆的東西有一些基礎認知和了解其中棘手的問題，這是應該有的基本科學素質。。。

言歸正傳，目前來看，我是悲觀的。暫且不論目前號稱是純端到端的FSD，性能還遠遠不能達到L3級別以上所需的可靠性和穩定性，未來就算是統計意義上這個車輛和人類是一樣安全的，還要面臨如何和人類駕駛員的錯誤做align的問題。更直白一點來說，就是說，一個自動駕駛系統想要讓大眾和輿論接受，關鍵可能不在於一個絕對的事故率和致死率，而是在於大眾是否能接受有一些場景中，對於人類是相對輕鬆解決，而機器會犯錯的。這個需求對於純端到端系統來說更難以實現。更具體的在我21年的一個回答中有闡述，詳見：

如何看待李彥宏朋友圈發表：無人駕駛肯定會出事，只是這個機率比有人駕駛低多了？

https://www.zhihu.com/question/530828899/answer/2590673435?utm_psn=1762524415009697792

#在北美的Waymo和Cruise為例，其實分別都沒有出過不少事故，但是為什麼Cruise最後一次出現的事故讓監管和大眾尤為不能接受呢？這起事故發生了兩次傷害，第一次的碰撞，對於人類駕駛也是相當難以避免的，其實也是可以接受的。但在這次的碰撞發生之後，發生了嚴重的二次傷害：系統錯誤地判斷了碰撞位置和傷員位置，為了不阻塞交通，降級到了靠邊停車的模式，將傷員拖拽很久。這樣的一個行為，是任何一個正常的人類駕駛員都不會做出的事情，而且影響非常惡劣。這個事情直接導致了Cruise後續的一些動盪。這個事情其實也給我們敲響了警鐘，如何避免這樣的事情發生，應該是自動駕駛系統研發和營運上認真考慮的問題。

那麼站在現在的這個時刻，下一代量產輔助駕駛系統中切實可行的方案是什麼？

簡單來說，我認為一個合適的系統應該是先充分挖掘傳統系統的能力上限，然後再去結合端到端的靈活和普適性，也就是一個漸進式端對端的方案。當然這兩者如何有機地結合就是個付費內容了，哈哈。。。但我們可以分析一下，現在所謂的端到端或是learning based planner實際落地在做的事情是什麼。

以我有限的了解，目前所謂端到端模型在行車中使用的時候，在輸出的軌跡之後都會去接一個基於傳統方法兜底的方案，或者是這樣的learning based planner和傳統的軌跡規劃演算法會同時輸出多條軌跡，再透過一個selector來選擇一條執行。如果這樣設計系統架構，這麼一個級連繫統的效能上限其實是被這樣的兜底方案和selector限制住的。如果這樣的方案仍然是基於純feedforward learning的，仍會有不可預測的失效，本質上並不能達到兜底的目的。如果考慮在這樣輸出的軌跡上使用一個傳統的規劃方法再去優化或選擇，那相當於learning based方法出的軌跡，只是給這樣的一個最佳化和搜尋問題做了一個初始解，我們為何不直接去優化和搜尋這樣的軌跡呢？

當然有同學會跳出來講，這樣的一個優化或搜尋問題是非凸的，狀態空間很大不可能在車載系統上跑到即時。我請大家在這裡仔細想這樣一個問題：在過去10年中，感知系統至少吃到了100x的算力紅利發展，但是我們的PnC模組呢？如果我們同樣允許PnC模組使用大算力，結合上近幾年先進優化演算法的一些發展，這樣的結論仍然成立嗎？針對這樣的問題，我們不應該固步自封，路徑依賴，而是從第一原理思考什麼才是對的。

聊聊端到端與下一代自動駕駛系統，以及端到端自動駕駛的一些迷思？

数据驱动和传统方法之间关系如何调和？

其实和自动驾驶非常类似的一个例子就是下棋，刚好在今年2月份的时候Deepmind发表了一篇文章（Grandmaster-Level Chess Without Search：https://arxiv.org/abs/2402.04494）就在探索只用数据驱动，抛弃AlphaGo和AlphaZero中的MCTS search是否可行。类比到自动驾驶中就是，只用一个网络直接输出action，抛弃掉后续所有的步骤。文章的结论是，在相当的规模的数据和模型参数下，不用搜索仍然可以得到一个还算合理的结果，然而和加上搜索的方法比，还有非常显著的差距。（文章中这里的对比其实也不尽公平，实际差距应该更大）尤其是在解一些困难的残局上，纯数据驱动性能非常糟糕。这类比到自动驾驶中，也就是意味着，需要多步博弈的困难场景或corner case，仍然很难完全抛弃掉传统的优化或者搜索算法。像AlphaZero一样合理地运用各种技术的优势，才是最为高效提升性能的方式。

传统方法 = rule based if else？

这个观念也是我在和很多人的交流中需要反复纠正的。按照很多人的定义，只要不是纯数据驱动，就叫做rule based。还是举下棋这个例子，去死记硬背定式和棋谱是rule based，但是像AlphaGo和AlphaZero一样通过搜索和优化赋予模型reasoning的能力，我认为并不能叫做rule based。这恰恰也是目前大模型本身所欠缺的，也是研究者通过CoT等方式试图赋予一个learning based model的。然而人开车每一个动作都是有明确的动机的，这和需要纯数据驱动的图像识别等无法清晰描述原因的任务不同。在一个合适的算法架构设计下，决策轨迹都应该成为变量，在一个科学的目标指引下统一优化。而不是通过强行打patch和调参去修各种case。这样的一个系统自然也不会存在各种hardcode的奇怪的rule。

总结

最终总结一下，端到端也许是一个很有希望的技术路线，但是这样一个概念如何付诸实践还有很多有待探索的事情。是不是狂堆数据和模型参数就是唯一正确的解决方案，目前在我看来并不是的。我觉得，任何时刻作为一个前沿研究的技术人员，我们都应该真正奉行马斯克所讲的第一性原理和工程师思维，从实践中思考问题的本质，而不是将马斯克本身变成第一性原理。想要真正遥遥领先，就不应该放弃思考，人云亦云，否则就只能在不断想要弯道超车。

以上是聊聊端到端與下一代自動駕駛系統，以及端到端自動駕駛的一些迷思？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

架构 if 接口堆算法 cnn https 传感器系统架构

陳述：

本文轉載於：51cto.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：擔心美國科技巨頭操縱全球AI市場，英國監管機構發起多項調查下一篇：擔心美國科技巨頭操縱全球AI市場，英國監管機構發起多項調查

看更多