首頁 >科技週邊 >人工智慧 >開源VLMs的潛力被RoboFlamingo框架釋放

開源VLMs的潛力被RoboFlamingo框架釋放

PHPz
PHPz轉載
2024-01-17 14:12:24736瀏覽

近年來,大模型的研究正在加速推進,它逐漸在各類任務上展現出多模態的理解和時間空間上的推理能力。機器人的各類具身操作任務天然就對語言指令理解、場景感知和時空規劃等能力有著很高的要求,這自然引申出一個問題:能不能充分利用大模型能力,將其遷移到機器人領域,直接規劃底層動作序列呢?

ByteDance Research利用開源的多模態語言視覺大模型OpenFlamingo開發了易用的RoboFlamingo機器人操作模型,只需單機訓練。 VLM可透過簡單微調變成Robotics VLM,適用於語言互動的機器人操作任務。

在機器人操作資料集CALVIN上,OpenFlamingo進行了驗證。實驗結果表明,RoboFlamingo僅使用了1%帶有語言標註的數據,就在一系列機器人操作任務中取得了SOTA的表現。隨著RT-X資料集的開放,採用開源資料預訓練的RoboFlamingo,並進行不同機器人平台的微調,有望成為一個簡單有效的機器人大模型流程。論文也測試了不同策略頭、不同訓練範式和不同Flamingo結構的VLM在機器人任務上的微調表現,並得出了一些有趣的結論。

開源VLMs的潛力被RoboFlamingo框架釋放

  • 專案首頁:https://roboflamingo.github.io
  • 程式碼位址:https://github.com/RoboFlamingo/RoboFlamingo
  • ##論文網址:https://arxiv.org/ abs/2311.01378

#研究背景

開源VLMs的潛力被RoboFlamingo框架釋放

基於語言的機器人操作是具身智慧領域的重要應用,涉及多模態資料的理解和處理,包括視覺、語言和控制等。近年來,視覺語言基礎模型(VLMs)在圖像描述、視覺問答和圖像生成等領域取得了顯著進展。然而,將這些模型應用於機器人操作仍面臨挑戰,例如如何整合視覺和語言訊息,以及如何處理機器人操作的時序性。解決這些挑戰需要在多個方面進行改進,例如改進模型的多模態表示能力,設計更有效的模型融合機制,以及引入適應機器人操作時序性的模型結構和演算法。此外,還需要發展更豐富的機器人資料集,以訓練和評估這些模型。透過持續的研究和創新,基於語言的機器人操作有望在實際應用中發揮更大的作用,為人類提供更智慧、便利的服務。

為了解決這些問題,ByteDance Research的機器人研究團隊對現有的開源VLM(Visual Language Model)——OpenFlamingo進行了微調,並設計了一套新的視覺語言操作框架,稱為RoboFlamingo。這個框架的特點是利用VLM實現了單步驟視覺語言理解,並透過額外的policy head模組處理歷史資訊。透過簡單的微調方法,RoboFlamingo能夠適應基於語言的機器人操作任務。這一框架的引入有望解決當前機器人操作中存在的一系列問題。

RoboFlamingo 在基於語言的機器人操作資料集CALVIN 上進行了驗證,實驗結果表明,RoboFlamingo 只利用了1% 的帶語言標註的數據即在一系列機器人操作任務上取得了SOTA 的表現(多任務學習的task sequence 成功率為66%,平均任務完成數量為4.09,基線方法為38%,平均任務完成數量為3.06;zero-shot 任務的成功率為24%,平均任務完成數量為2.48,基線方法為1%,平均任務完成數量為0.67),並且能夠透過開環控制實現即時回應,可以靈活部署在較低效能的平台上。這些結果表明,RoboFlamingo 是一種有效的機器人操作方法,可以為未來的機器人應用提供有用的參考。

方法

開源VLMs的潛力被RoboFlamingo框架釋放

本工作利用現有的基於圖像 - 文字對的視覺語言基礎模型,透過訓練端到端的方式產生機器人每一步的相對動作。模型由三個主要模組組成:Vision encoder,Feature fusion decoder 和 Policy head。 在 Vision encoder 模組中,當前視覺觀測首先被輸入到 ViT 中,然後透過 resampler 對 ViT 輸出的 token 進行 down sample。這一步驟有助於減小模型的輸入維度,從而提高了訓練效率。 Feature fusion decoder 模組將 text token 作為輸入,並透過交叉注意力機制將視覺編碼器的輸出作為查詢,實現了視覺與語言特徵的融合。在每個 layer 中,feature fusion decoder 首先執行交叉注意力操作,然後執行自我注意操作。這些操作有助於提取語言和視覺特徵之間的相關性,從而更好地產生機器人的動作。 在 Feature fusion decoder 輸出的當前和歷史 token 序列的基礎上,Policy head 直接輸出當前的 7 DoF 相對動作,包括了 6-dim 的機械臂末端位姿和 1-dim 的 gripper open/close。最後,對 feature fusion decoder 進行 max pooling 後將其送入 Policy head 中,從而產生相對動作。 透過這種方式,我們的模型能夠有效地將視覺和語言訊息融合在一起,產生出準確的機器人動作。這對於機器人控制和自主導航等領域有著廣泛的應用前景。

在訓練過程中,RoboFlamingo 利用預訓練的 ViT、LLM 和 Cross Attention 參數,並且只微調 resampler、cross attention 和 policy head 的參數。

實驗結果

資料集:

開源VLMs的潛力被RoboFlamingo框架釋放

CALVIN(Composing Actions from Language and Vision)是一個開源的模擬基準測試,用於學習基於語言的long-horizo​​n 操作任務。與現有的視覺 - 語言任務資料集相比,CALVIN 的任務在序列長度、動作空間和語言上都更為複雜,並支援靈活地指定感測器輸入。 CALVIN 分為 ABCD 四個 split,每個 split 對應了不同的 context 和 layout。

定量分析:

開源VLMs的潛力被RoboFlamingo框架釋放

#RoboFlamingo 在各設定和指標上的表現均為最佳,說明了其具有很強的模仿能力、視覺泛化能力以及語言泛化能力。 Full 和 Lang 表示模型是否使用未配對的視覺資料進行訓練(即沒有語言配對的視覺資料);Freeze-emb 指的是凍結融合解碼器的嵌入層;Enriched 表示使用 GPT-4 增強的指令。

消融實驗:

開源VLMs的潛力被RoboFlamingo框架釋放

#不同的policy head:

#實驗考察了四種不同的策略頭部:MLP w/o hist、MLP w hist、GPT 和LSTM。其中,MLP w/o hist 直接根據當前觀測預測歷史,其性能最差,MLP w hist 將歷史觀測在vision encoder 端進行融合後預測action,性能有所提升;GPT 和LSTM 在policy head 處分別顯式、隱式地維護歷史訊息,其表現最好,說明了透過policy head 進行歷史資訊融合的有效性。

視覺-語言預訓練的影響:

#預訓練對於 RoboFlamingo 的表現提升起到了關鍵作用。實驗顯示,透過預先在大型視覺語言資料集上進行訓練,RoboFlamingo 在機器人任務中表現得更好。

模型大小與性能:

雖然通常更大的模型會帶來更好的性能,但實驗結果表明,即使是較小的模型,也能在某些任務上與大型模型媲美。

指令微調的影響:

指令微調是一個強大的技巧,實驗結果表明,它可以進一步提高模型的效能。

定性結果

相對於基準法,RoboFlamingo 不但完整執行了5 個連續的子任務,且對於基準頁執行成功的前兩個子任務, RoboFlamingo 所使用的步數也明顯較少。

開源VLMs的潛力被RoboFlamingo框架釋放

總結

#本工作為語言互動的機器人操作策略提供了一個新穎的基於現有開源VLMs 的框架,使用簡單微調就能達到出色的效果。 RoboFlamingo 為機器人技術研究者提供了一個強大的開源框架,能夠更輕鬆地發揮開源 VLMs 的潛能。工作中豐富的實驗結果或許可以為機器人技術的實際應用提供寶貴的經驗和數據,有助於未來的研究和技術發展。

以上是開源VLMs的潛力被RoboFlamingo框架釋放的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除