DriveLM是一個基於語言的驅動項目,它包含一個資料集和一個模型。透過DriveLM,我們介紹了自動駕駛(AD)中大型語言模型的推理能力,以做出決策並確保可解釋的規劃。
在DriveLM的資料集中,我們將人工書寫的推理邏輯作為連接,以促進感知、預測和規劃(P3)。在我們的模型中,我們提出了一個具備思考圖能力的AD視覺語言模型,以產生更優質的規劃結果。目前,我們已經發布了資料集的演示版本,完整的資料集和模型將在未來發布
專案連結:https://github.com/OpenDriveLab/DriveLM 需要重寫的內容是:專案連結:https://github.com/OpenDriveLab/DriveLM
資料集最令人興奮的方面是,P3中的問答(QA)以圖形風格的結構連接,QA對作為每個節點,對象的關係作為邊。
相較於純語言的思考樹或思考圖,我們更傾向於多模態。在AD域中,我們之所以這樣做,是因為每個階段都定義了AD任務,從原始感測器輸入到最終控制動作
基於主流的nuScenes資料集建構我們的資料集。 DriveLM最核心的元素是基於幀的P3 QA。感知問題需要模型辨識場景中的物件。預測問題要求模型預測場景中重要物件的未來狀態。規劃問題促使模型給予合理的規劃行動,避免危險的行動。
以上是大模型「上車」關鍵一步:全球首個語言+自動駕駛開源資料集來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!