在最近的研究中,視覺-語言-動作(VLA,vision-language-action)模型的輸入基本上都是2D數據,沒有整合更通用的3D物理世界。
此外,現有的模型透過學習「感知到動作的直接映射」來進行動作預測,忽略了世界的動態性,以及動作和動態之間的關係。
相較之下,人類在思考時會引入世界模型,可以描繪除對未來情境的想像,從而對下一步的行動進行規劃。
為此,來自馬薩諸塞州大學阿默斯特分校、MIT等機構的研究人員提出了3D-VLA模型,透過引入一類全新的具身基礎模型(embodied foundation models),可以根據生成的世界模型無縫連結3D感知、推理與行動。
#專案首頁:https://vis-www.cs.umass .edu/3dvla/
論文網址:https://arxiv.org/abs/2403.09631
具體而言,3D-VLA建構在基於3D的大型語言模型(LLM)之上,並引入一組交互token來參與具身環境中。
淦創團隊訓練了一系列具身擴散模型,將產生能力注入模型,並將其對齊到LLM中,以便預測目標影像和點雲。
為了訓練3D-VLA模型,我們從現有的機器人資料集中提取了大量的3D相關信息,建構了一個龐大的3D具身指令資料集。
研究結果顯示,3D-VLA在處理具身環境中的推理、多模態生成和規劃任務時表現出色,這突顯了其在實際場景中的潛在應用價值。
三維具身指令調整資料集(3D Embodied Instruction Tuning Dataset)
由於網路上數十億規模的資料集,VLM在多項任務中展現出卓越的性能,而百萬級視訊動作資料集也為機器人控制的具體VLM奠定了基礎。
然而,目前的資料集大多無法為機器人操作提供足夠的深度或3D標註以及精確控制。這就需要資料集中包含3D空間推理和互動的內容。缺乏3D資訊會讓機器人難以理解和執行需要進行3D空間推理的指令,例如「將最遠處的杯子放在中間的抽屜裡」。
#為了彌補這一差距,研究人員建立了一個大規模的3D指令調優資料集,該資料集提供了足夠的「3D相關資訊」以及「相應的文字指令」以訓練模型。
研究人員設計了一個pipeline從現有的具身資料集中提取3D語言動作對,獲得點雲、深度圖、3D邊界框、機器人的7D動作和文字描述的標註。
3D-VLA是一個用於在具身環境(embodied environment)中進行三維推理、目標生成和決策的世界模型。
首先在3D-LLM之上建立主幹網絡,並透過增加一系列互動token來進一步增強模型與3D世界互動的能力;再透過預訓練擴散模型並使用投影來對齊LLM和擴散模型,將目標生成能力注入3D-VLA
#骨幹網路
##在第一階段,研究人員依照3D-LLM的方法開發3D-VLA基礎模型:由於收集到的資料集沒有達到從頭開始訓練多模態LLM所需的十億級規模,因此需要利用多視圖特徵產生3D場景特徵,使得視覺特徵能夠無縫整合到預訓練VLM中,不需要自適應。
同時,3D-LLM的訓練資料集主要包含物件(objects)和室內場景,與特定設定不直接一致,所以研究人員選擇使用BLIP2-PlanT5XL作為預訓練模型。
在訓練過程中,解凍token的輸入和輸出嵌入,以及Q-Former的權重。
交互tokens
#為了增強模型對3D場景的理解與環境中的交互,研究人員引入了一組全新的互動tokens
首先,輸入加入了object tokens,包含解析句子中的物件名詞(如
其次,為了更好地用語言表達空間訊息,研究人員設計了一組位置token 第三,為了更好地進行動態編碼,框架中引入了 透過擴展代表機器人動作的專用標記集,進一步增強了此架構。機器人的動作有7 個自由度,用 注入目標生成能力 #人類能夠對場景的最終狀態進行預先視覺化(pre-visualize),以提升動作預測或決策的準確性,也是建立世界模型的關鍵方面;在初步實驗中,研究人員還發現提供真實的最終狀態可以增強模型的推理和規劃能力。 但訓練MLLM來產生圖像、深度和點雲並不簡單: 首先,視訊擴散模型並不是為具身場景量身訂製的,例如Runway在產生「開啟抽屜」的未來畫面時,場景中會發生視圖變化、物件變形、怪異的紋理替換以及佈局失真等問題。 並且,如何將各種模態的擴散模型整合到單一的基礎模型中仍然是一個難題。 所以研究人員提出的新框架,首先根據圖像、深度和點雲等不同形式對具體的擴散模型進行預訓練,然後在對齊階段將擴散模型的解碼器對齊到3D-VLA的嵌入空間。 3D-VLA是一個多功能的、基於3D的生成式世界模型,可以在3D世界中執行推理和定位、想像多模態目標內容,並為機器人操作生成動作,研究人員主要從三個方面對3D-VLA進行了評估:3D推理和定位、多模態目標生成和具身行動規劃。 3D推理與定位 #3D-VLA在語言推理任務上優於所有2D VLM方法,研究人員將其歸因於3D資訊的槓桿作用,3D資訊為推理提供了更準確的空間資訊。 此外,由於資料集中包含一組3D定位標註,3D-VLA學習定位相關對象,有助於模型更專注於關鍵對象進行推理。 研究人員發現3D-LLM在這些機器人推理任務中表現不佳,證明了在機器人相關的3D資料集上收集和訓練的必要性。 且3D-VLA在定位效能方面表現出明顯優於2D基準方法,這項發現也為標註過程的有效性提供了令人信服的證據,有助於模型獲得強大的3D定位能力。 與現有的零樣本遷移到機器人領域的生成方法相比,3D-VLA在大多數指標方面實現了更好的性能,證實了使用「專門為機器人應用設計的資料集」來訓練世界模型的重要性。 即使在與Instruct-P2P*的直接比較中,3D-VLA也始終性能更優,結果表明,將大型語言模型集成到3D-VLA中可以更全面、更深刻地理解機器人操作指令,從而提高目標影像生成性能。 此外,當從輸入提示符中排除預測的邊界框時,可以觀察到性能略有下降,證實了使用中間預測邊界框的有效性,可以幫助模型理解整個場景,允許模型將更多的注意力分配到給定指令中提到的特定對象,最終增強其想像最終目標圖像的能力。 點雲產生的結果對比中,具有中間預測邊界框的3D-VLA性能最好,證實了在理解指令和場景的背景下結合大型語言模型和精確物件定位的重要性。 具身行動規劃 #3D-VLA在RLBench動作預測中的大多數任務中超過了基線模型的性能,顯示了其具有規劃能力。 值得注意的是,基準模型需要用到歷史觀察、物件狀態和當前狀態訊息,而3D-VLA模型只透過開環控制執行。 此外,模型的泛化能力在撿杯(pick-up-cup)任務中得到了證明,3D-VLA在CALVIN中也取得了較好的結果,研究人員將這種優勢歸因於定位感興趣的對象和想像目標狀態的能力,為推斷動作提供了豐富的資訊。 實驗結果
多模態目標生成
以上是3D版Sora來了? UMass、MIT等提出3D世界模型,具身智慧機器人實現新里程碑的詳細內容。更多資訊請關注PHP中文網其他相關文章!