首頁 >科技週邊 >人工智慧 >綜述！全面概括基礎模型對於推動自動駕駛的重要作用

綜述！全面概括基礎模型對於推動自動駕駛的重要作用

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原創: 2024-06-11 17:29:581165瀏覽

写在前面&笔者的个人理解

最近来，随着深度学习技术的发展和突破，大规模的基础模型（Foundation Models）在自然语言处理和计算机视觉领域取得了显著性的成果。基础模型在自动驾驶当中的应用也有很大的发展前景，可以提高对于场景的理解和推理。

通过对丰富的语言和视觉数据进行预训练，基础模型可以理解和解释自动驾驶场景中的各类元素并进行推理，为驾驶决策和规划提供语言和动作命令。
基础模型可以根据对驾驶场景的理解来实现数据增强，用于提供在常规驾驶和数据收集期间不太可能遇到的长尾分布中那些罕见的可行场景以实现提高自动驾驶系统准确性和可靠性的目的。
对基础模型应用的另外一个场景是在于世界模型，该模型展示了理解物理定律和动态事物的能力。通过采用自监督的学习范式对海量数据进行学习，世界模型可以生成不可见但是可信的驾驶场景，促进对于动态物体行为预测的增强以及驾驶策略的离线训练过程。

本文主要概述了基础模型在自动驾驶领域中的应用，并根据基础模型在自动驾驶模型方面的应用、基础模型在数据增强方面的应用以及基础模型中世界模型对于自动驾驶方面的应用三方面进行展开。在自动驾驶模型方面，基础模型可以用于实现各种自动驾驶功能，例如车辆的感知、决策和控制等。通过基础模型，车辆可以获取周围环境的信息，并做出相应的决策和控制动作。在数据增强方面，基础模型可以用于增强数据

本文链接：https://arxiv.org/pdf/2405.02288

自动驾驶模型

基于语言和视觉基础模型的类人驾驶

在自动驾驶中，语言和视觉的基础模型显示出了巨大的应用潜力，通过增强自动驾驶模型在驾驶场景中的理解和推理，实现自动驾驶的类人驾驶。下图展示了基于语言和视觉的基础模型对驾驶场景的理解以及给出语言引导指令和驾驶行为的推理。

綜述！全面概括基礎模型對於推動自動駕駛的重要作用

基础模型对于自动驾驶模型增强范式

目前很多工作都已经证明语言和视觉特征可以有效增强模型对于驾驶场景的理解，再获取对于当前环境的整体感知理解后，基础模型就会给出一系列的语言命令，如：“前方有红灯，减速慢行”，“前方有十字路口，注意行人”等相关语言指令，便于自动驾驶汽车根据相关的语言指令执行最终的驾驶行为。

近年来，学术界和工业界将GPT的语言知识嵌入到自动驾驶的决策过程中。以语言命令的形式提高自动驾驶的性能，以促进大模型自动驾驶中的应用。考虑到大模型有望真正部署在车辆端，它最终需要落在规划或控制指令上，基础模型最终应该从动作状态级别授权自动驾驶。一些学者已经进行了初步探索，但仍有很多发展空间。更重要的是，一些学者通过类似GPT的方法探索了自动驾驶模型的构建，该方法直接输出基于大规模语言模型的轨迹，然后通过控制命令实现，相关工作已经汇总在如下表格中。

綜述！全面概括基礎模型對於推動自動駕駛的重要作用

使用预训练主干网络进行端到端自动驾驶

上述的相关内容其核心思路是提高自动驾驶决策的可解释性，增强场景理解解析，指导自动驾驶系统的规划或控制。在过去的一段时间内，有许多工作一直以各种方式优化预训练模型主干网络，并且取得了非常不错的成果。因此，为了更加全面的总结基础模型在自动驾驶中的应用，我们对预训练主干网络以及取得了非常不错的成果的研究进行了总结和回顾。下图展示了端到端自动驾驶的整体过程。

綜述！全面概括基礎模型對於推動自動駕駛的重要作用

基于预训练主干网络的端到端自动驾驶系统的流程图

在端到端自動駕駛的整體流程中，從原始資料中提取低階資訊在一定程度上決定了後續模型性能的潛力，優秀的預訓練骨幹可以使模型具有更強的特徵學習能力。 ResNet和VGG等預訓練卷積網路是端到端模型視覺特徵擷取應用最廣泛的主幹網路。這些預訓練網路通常利用目標偵測或分割作為提取廣義特徵的任務進行訓練，並且他們所取得的效能已經在許多工作中得到了驗證。

此外，早期的端到端自動駕駛模型主要是基於各種類型的捲積神經網絡，透過模仿學習或強化學習的方式來完成。最近的一些工作試圖建立一個具有Transformer網路結構的端對端自動駕駛系統，並且同樣取得了比較不錯的成績，例如Transfuser、FusionAD、UniAD等工作。

資料增強

隨著深度學習技術的進一步發展，底層網路架構的進一步完善和升級，具有預訓練和微調的基礎模型已經展現出了越來越強大的性能。由GPT代表的基礎模型已經使得大模型從學習範式的規則向資料驅動的方式轉換。資料作為模型學習關鍵環節的重要性是無可取代的。在自動駕駛模型的訓練和測試過程中，大量的場景資料被用來使模型能夠對各種道路和交通場景具有良好的理解和決策能力。自動駕駛面臨的長尾問題也是這樣一種事實，即存在無窮無盡的未知邊緣場景，使模型的泛化能力似乎永遠不足，導致性能較差。

資料增強對於提高自動駕駛模型的泛化能力至關重要。數據增強的實現需要考慮兩個面向

一方面：如何獲得大規模的數據，使提供給自動駕駛模型的數據具有足夠的多樣性和廣泛性
#另一方面：如何獲得盡可能多的高品質數據，使用於訓練和測試自動駕駛模型的數據準確可靠

所以，相關的研究工作主要從以上兩個方面開展相關的技術研究，一是豐富現有的資料集中的資料內容，增強駕駛場景中的資料特徵。二是透過模擬的方式產生多層次的駕駛場景。

擴展自動駕駛資料集

現有的自動駕駛資料集主要是透過記錄感測器資料然後標記資料來獲得的。透過這種方式獲得的資料特徵通常是很低級的，同時資料集的量級也是比較差，這對於自動駕駛場景的視覺特徵空間是完全不夠的。語言模型表示的基礎模型在高級語義理解、推理和解釋能力為自動駕駛資料集的豐富和擴展提供了新的思路和技術途徑。透過利用基礎模型的高級理解、推理和解釋能力來擴展資料集可以幫助更好地評估自動駕駛系統的可解釋性和控制，從而提高自動駕駛系統的安全性和可靠性。

產生駕駛場景

駕駛場景對自動駕駛來說具有重要的意義。為了獲得不同的駕駛場景數據，僅依賴採集車輛的感測器進行即時擷取需要消耗龐大的成本，很難為一些邊緣場景獲得足夠的場景數據。透過模擬產生逼真的駕駛場景引起了許多研究者的關注，交通模擬研究主要分為基於規則和數據驅動兩大類。

基於規則的方法：使用預先定義的規則，這些規則通常不足以描述複雜的駕駛場景，並且模擬的駕駛場景更簡單、更通用
基於資料驅動的方法：使用駕駛資料來訓練模型，模型可以從中持續學習和適應。然而，資料驅動的方法通常需要大量的標記資料進行訓練，這阻礙了流量模擬的進一步發展

#隨著技術的發展，目前資料的產生方式已經逐漸由規則的方式轉換為數據驅動的方式。透過有效率、準確地模擬駕駛場景，包括各種複雜和危險的情況，為模型學習提供了大量的訓練數據，可以有效提高自動駕駛系統的泛化能力。同時，產生的駕駛場景也可用於評估不同的自動駕駛系統和演算法來測試和驗證系統性能。下表是不同資料增強策略的總結。

綜述！全面概括基礎模型對於推動自動駕駛的重要作用

不同資料增強策略總結

世界模型

世界模型被認為是為一種人工智慧模型，它包含了它運行的環境的整體理解或表示。該模型能夠模擬環境做出預測或決策。在最近的文獻中，強化學習的背景下提到了術語」世界模型」。這個概念在自動駕駛應用中也得到了關注，因為它能夠理解和闡明駕駛環境的動態特性。世界模型與強化學習、模仿學習和深度生成模型高度相關。然而，在強化學習和模仿學習中利用世界模型通常需要標註好的數據，而SEM2以及MILE等方法都是在監督範式中進行的。同時，也有嘗試根據標記的數據的限制將強化學習和無監督學習結合。由於與自監督學習密切相關，深度生成模型變得越來越流行，目前已經提出了許多工作。下圖展示了使用世界模型增強自動駕駛模型的整體流程圖。

綜述！全面概括基礎模型對於推動自動駕駛的重要作用

世界模型進行自動駕駛模型增強的整體流程圖

#深度生成模型

##深度生成模型通常包括變分自動編碼器、生成對抗網路、流模型、自回歸模型。

產生對抗網路由兩個神經網路、生成器和鑑別器組成，它們利用對抗訓練相互競爭和增強，最終實現生成真實樣本的目標
流模型透過一系列可逆變換將簡單的先驗分佈轉換為複雜的後驗分佈來產生相似的資料樣本
自迴歸模型是一類序列分析方法，基於序列資料之間的自相關，描述當前觀測值與過去觀測值之間的關係，模型參數的估計通常是利用最小平方法和最大似然估計來完成的。擴散模型是一種典型的自回歸模型，它從純雜訊資料中學習逐步去雜訊的過程。由於其強大的生成性能，擴散模型是當前深度生成模型中的新SOTA模型

#生成式方法

基於深度生成模型的強大能力，利用深度生成模型作為世界模型學習駕駛場景以增強自動駕駛已逐漸成為研究熱點。接下來我們將回顧利用深度生成模型作為自動駕駛中的世界模型的應用。視覺是人類獲取有關世界資訊的最直接有效的方法之一，因為影像資料中包含的特徵資訊極為豐富。許多先前的工作透過世界模型完成了圖像生成的任務，表明世界模型對圖像資料具有良好的理解和推理能力。目前整體來看，研究者希望可以從影像資料中學習世界的內在演化規律，然後預測未來的狀態。結合自監督學習，世界模型用於從圖像資料中學習，充分釋放模型的推理能力，為視覺域建立廣義基礎模型提供了一個可行的方向。下圖展示了一些利用世界模型的相關工作內容摘要。

綜述！全面概括基礎模型對於推動自動駕駛的重要作用

使用世界模型進行預測的工作總結

#非生成式方法

與產生世界模型相比，LeCun透過提出聯合提取和預測架構(JEPA) 詳細闡述了他對世界模型的不同概念。這是一個非生成和自監督的架構，因為它不是直接根據輸入資料來預測輸出結果，而是將輸入資料編碼在抽象空間中進行編碼完成最終的預測。這種預測方式的優點是它不需要預測關於輸出結果的所有信息，並且可以消除不相關的細節資訊。

JEPA是一種基於能量模型的自監督學習架構，它觀察和學習世界如何運作和高度概括的規律。 JEPA在自動駕駛中也有很大的潛力，有望透過學習駕駛是如何運作的來產生高品質的駕駛場景和駕駛策略。

結論

本文全面概述了基礎模型在自動駕駛應用中的重要角色。從本文研究的相關研究工作的總結和發現來看，另一個值得進一步探索的方向是如何為自監督學習設計一個有效的網路架構。自監督學習可以有效地突破資料標註的局限性，允許模型大規模的對資料進行學習，充分釋放模型的推理能力。如果自動駕駛的基礎模型可以在自監督學習範式下使用不同規模的駕駛場景資料進行訓練，則預期其泛化能力將大大提高。這種進步可能會實現更通用的基礎模型。

總之，雖然在將基礎模型應用於自動駕駛方面存在許多挑戰，但其具有非常廣泛的應用空間和發展前景。未來，我們將繼續觀察應用於自動駕駛的基礎模型的相關進展。

以上是綜述！全面概括基礎模型對於推動自動駕駛的重要作用的詳細內容。更多資訊請關注PHP中文網其他相關文章！

架构算法人工智能 transformer https 传感器 gpt Foundation

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺下一篇：微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺

看更多