首頁 >科技週邊 >人工智慧 >大模型「上車」關鍵一步:全球首個語言+自動駕駛開源資料集來了

大模型「上車」關鍵一步:全球首個語言+自動駕駛開源資料集來了

PHPz
PHPz轉載
2023-09-16 20:13:021308瀏覽

DriveLM是一個基於語言的驅動項目,它包含一個資料集和一個模型。透過DriveLM,我們介紹了自動駕駛(AD)中大型語言模型的推理能力,以做出決策並確保可解釋的規劃。

在DriveLM的資料集中,我們將人工書寫的推理邏輯作為連接,以促進感知、預測和規劃(P3)。在我們的模型中,我們提出了一個具備思考圖能力的AD視覺語言模型,以產生更優質的規劃結果。目前,我們已經發布了資料集的演示版本,完整的資料集和模型將在未來發布

專案連結:https://github.com/OpenDriveLab/DriveLM 需要重寫的內容是:專案連結:https://github.com/OpenDriveLab/DriveLM

大模型「上車」關鍵一步:全球首個語言+自動駕駛開源資料集來了

大模型「上車」關鍵一步:全球首個語言+自動駕駛開源資料集來了

What is Graph-of -Thoughts in AD?

資料集最令人興奮的方面是,P3中的問答(QA)以圖形風格的結構連接,QA對作為每個節點,對象的關係作為邊。

相較於純語言的思考樹或思考圖,我們更傾向於多模態。在AD域中,我們之所以這樣做,是因為每個階段都定義了AD任務,從原始感測器輸入到最終控制動作

大模型「上車」關鍵一步:全球首個語言+自動駕駛開源資料集來了

大模型「上車」關鍵一步:全球首個語言+自動駕駛開源資料集來了

DriveLM資料集中包含什麼?

基於主流的nuScenes資料集建構我們的資料集。 DriveLM最核心的元素是基於幀的P3 QA。感知問題需要模型辨識場景中的物件。預測問題要求模型預測場景中重要物件的未來狀態。規劃問題促使模型給予合理的規劃行動,避免危險的行動。

標定過程如何?

  1. 關鍵影格選擇。給定一個剪輯中的所有幀,註釋器將選擇需要註釋的關鍵幀。標準是,這些框架應該涉及自車運動狀態的變化(變換車道、突然停車、停車後啟動等)。
  2. 關鍵物件選擇。給定關鍵幀,註釋器需要拾取周圍六個圖像中的關鍵物件。標準是這些物體應該能夠影響自車(交通號誌、過街行人、其他車輛)
  3. 問答註記。給定這些關鍵對象,我們會自動產生關於感知、預測和規劃的單一或多個對象的問題。更多細節可以在我們的演示數據中找到。

以上是大模型「上車」關鍵一步:全球首個語言+自動駕駛開源資料集來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除