開源VLMs的潛力被RoboFlamingo框架釋放-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

開源VLMs的潛力被RoboFlamingo框架釋放

PHPz

Jan 17, 2024 pm 02:12 PM

ai訓練

近年來，大模型的研究正在加速推進，它逐漸在各類任務上展現出多模態的理解和時間空間上的推理能力。機器人的各類具身操作任務天然就對語言指令理解、場景感知和時空規劃等能力有著很高的要求，這自然引申出一個問題：能不能充分利用大模型能力，將其遷移到機器人領域，直接規劃底層動作序列呢？

ByteDance Research利用開源的多模態語言視覺大模型OpenFlamingo開發了易用的RoboFlamingo機器人操作模型，只需單機訓練。 VLM可透過簡單微調變成Robotics VLM，適用於語言互動的機器人操作任務。

在機器人操作資料集CALVIN上，OpenFlamingo進行了驗證。實驗結果表明，RoboFlamingo僅使用了1%帶有語言標註的數據，就在一系列機器人操作任務中取得了SOTA的表現。隨著RT-X資料集的開放，採用開源資料預訓練的RoboFlamingo，並進行不同機器人平台的微調，有望成為一個簡單有效的機器人大模型流程。論文也測試了不同策略頭、不同訓練範式和不同Flamingo結構的VLM在機器人任務上的微調表現，並得出了一些有趣的結論。

開源VLMs的潛力被RoboFlamingo框架釋放

專案首頁：https://roboflamingo.github.io
程式碼位址：https://github.com/RoboFlamingo/RoboFlamingo
##論文網址：https://arxiv.org/ abs/2311.01378

#研究背景

開源VLMs的潛力被RoboFlamingo框架釋放

基於語言的機器人操作是具身智慧領域的重要應用，涉及多模態資料的理解和處理，包括視覺、語言和控制等。近年來，視覺語言基礎模型（VLMs）在圖像描述、視覺問答和圖像生成等領域取得了顯著進展。然而，將這些模型應用於機器人操作仍面臨挑戰，例如如何整合視覺和語言訊息，以及如何處理機器人操作的時序性。解決這些挑戰需要在多個方面進行改進，例如改進模型的多模態表示能力，設計更有效的模型融合機制，以及引入適應機器人操作時序性的模型結構和演算法。此外，還需要發展更豐富的機器人資料集，以訓練和評估這些模型。透過持續的研究和創新，基於語言的機器人操作有望在實際應用中發揮更大的作用，為人類提供更智慧、便利的服務。

為了解決這些問題，ByteDance Research的機器人研究團隊對現有的開源VLM（Visual Language Model）——OpenFlamingo進行了微調，並設計了一套新的視覺語言操作框架，稱為RoboFlamingo。這個框架的特點是利用VLM實現了單步驟視覺語言理解，並透過額外的policy head模組處理歷史資訊。透過簡單的微調方法，RoboFlamingo能夠適應基於語言的機器人操作任務。這一框架的引入有望解決當前機器人操作中存在的一系列問題。

RoboFlamingo 在基於語言的機器人操作資料集CALVIN 上進行了驗證，實驗結果表明，RoboFlamingo 只利用了1% 的帶語言標註的數據即在一系列機器人操作任務上取得了SOTA 的表現（多任務學習的task sequence 成功率為66%，平均任務完成數量為4.09，基線方法為38%，平均任務完成數量為3.06；zero-shot 任務的成功率為24%，平均任務完成數量為2.48，基線方法為1%，平均任務完成數量為0.67），並且能夠透過開環控制實現即時回應，可以靈活部署在較低效能的平台上。這些結果表明，RoboFlamingo 是一種有效的機器人操作方法，可以為未來的機器人應用提供有用的參考。

方法

開源VLMs的潛力被RoboFlamingo框架釋放

本工作利用現有的基於圖像 - 文字對的視覺語言基礎模型，透過訓練端到端的方式產生機器人每一步的相對動作。模型由三個主要模組組成：Vision encoder，Feature fusion decoder 和 Policy head。在 Vision encoder 模組中，當前視覺觀測首先被輸入到 ViT 中，然後透過 resampler 對 ViT 輸出的 token 進行 down sample。這一步驟有助於減小模型的輸入維度，從而提高了訓練效率。 Feature fusion decoder 模組將 text token 作為輸入，並透過交叉注意力機制將視覺編碼器的輸出作為查詢，實現了視覺與語言特徵的融合。在每個 layer 中，feature fusion decoder 首先執行交叉注意力操作，然後執行自我注意操作。這些操作有助於提取語言和視覺特徵之間的相關性，從而更好地產生機器人的動作。在 Feature fusion decoder 輸出的當前和歷史 token 序列的基礎上，Policy head 直接輸出當前的 7 DoF 相對動作，包括了 6-dim 的機械臂末端位姿和 1-dim 的 gripper open/close。最後，對 feature fusion decoder 進行 max pooling 後將其送入 Policy head 中，從而產生相對動作。透過這種方式，我們的模型能夠有效地將視覺和語言訊息融合在一起，產生出準確的機器人動作。這對於機器人控制和自主導航等領域有著廣泛的應用前景。

在訓練過程中，RoboFlamingo 利用預訓練的 ViT、LLM 和 Cross Attention 參數，並且只微調 resampler、cross attention 和 policy head 的參數。

實驗結果

資料集：

開源VLMs的潛力被RoboFlamingo框架釋放

CALVIN（Composing Actions from Language and Vision）是一個開源的模擬基準測試，用於學習基於語言的long-horizon 操作任務。與現有的視覺 - 語言任務資料集相比，CALVIN 的任務在序列長度、動作空間和語言上都更為複雜，並支援靈活地指定感測器輸入。 CALVIN 分為 ABCD 四個 split，每個 split 對應了不同的 context 和 layout。

定量分析：

開源VLMs的潛力被RoboFlamingo框架釋放

#RoboFlamingo 在各設定和指標上的表現均為最佳，說明了其具有很強的模仿能力、視覺泛化能力以及語言泛化能力。 Full 和 Lang 表示模型是否使用未配對的視覺資料進行訓練（即沒有語言配對的視覺資料）；Freeze-emb 指的是凍結融合解碼器的嵌入層；Enriched 表示使用 GPT-4 增強的指令。

消融實驗：

開源VLMs的潛力被RoboFlamingo框架釋放

#不同的policy head：

#實驗考察了四種不同的策略頭部：MLP w/o hist、MLP w hist、GPT 和LSTM。其中，MLP w/o hist 直接根據當前觀測預測歷史，其性能最差，MLP w hist 將歷史觀測在vision encoder 端進行融合後預測action，性能有所提升；GPT 和LSTM 在policy head 處分別顯式、隱式地維護歷史訊息，其表現最好，說明了透過policy head 進行歷史資訊融合的有效性。

視覺-語言預訓練的影響：

#預訓練對於 RoboFlamingo 的表現提升起到了關鍵作用。實驗顯示，透過預先在大型視覺語言資料集上進行訓練，RoboFlamingo 在機器人任務中表現得更好。

模型大小與性能：

雖然通常更大的模型會帶來更好的性能，但實驗結果表明，即使是較小的模型，也能在某些任務上與大型模型媲美。

指令微調的影響：

指令微調是一個強大的技巧，實驗結果表明，它可以進一步提高模型的效能。

定性結果

相對於基準法，RoboFlamingo 不但完整執行了5 個連續的子任務，且對於基準頁執行成功的前兩個子任務， RoboFlamingo 所使用的步數也明顯較少。

開源VLMs的潛力被RoboFlamingo框架釋放

總結

#本工作為語言互動的機器人操作策略提供了一個新穎的基於現有開源VLMs 的框架，使用簡單微調就能達到出色的效果。 RoboFlamingo 為機器人技術研究者提供了一個強大的開源框架，能夠更輕鬆地發揮開源 VLMs 的潛能。工作中豐富的實驗結果或許可以為機器人技術的實際應用提供寶貴的經驗和數據，有助於未來的研究和技術發展。

以上是開源VLMs的潛力被RoboFlamingo框架釋放的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7？Apr 23, 2025 am 11:49 AM

擁抱Face的OlympicCoder-7B：強大的開源代碼推理模型開發以代碼為中心的語言模型的競賽正在加劇，擁抱面孔與強大的競爭者一起參加了比賽：OlympicCoder-7B，一種產品

4個新的雙子座功能您可以錯過Apr 23, 2025 am 11:48 AM

你們當中有多少人希望AI可以做更多的事情，而不僅僅是回答問題？我知道我有，最近，我對它的變化感到驚訝。 AI聊天機器人不僅要聊天，還關心創建，研究

Camunda為經紀人AI編排編寫了新的分數Apr 23, 2025 am 11:46 AM

隨著智能AI開始融入企業軟件平台和應用程序的各個層面（我們必須強調的是，既有強大的核心工具，也有一些不太可靠的模擬工具），我們需要一套新的基礎設施能力來管理這些智能體。總部位於德國柏林的流程編排公司Camunda認為，它可以幫助智能AI發揮其應有的作用，並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能，旨在幫助組織建模、部署和管理AI智能體。從實際的軟件工程角度來看，這意味著什麼？確定性與非確定性流程的融合該公司表示，關鍵在於允許用戶（通常是數據科學家、軟件

策劃的企業AI體驗是否有價值？Apr 23, 2025 am 11:45 AM

參加Google Cloud Next '25，我渴望看到Google如何區分其AI產品。有關代理空間（此處討論）和客戶體驗套件（此處討論）的最新公告很有希望，強調了商業價值

如何為抹布找到最佳的多語言嵌入模型？Apr 23, 2025 am 11:44 AM

為您的檢索增強發電（RAG）系統選擇最佳的多語言嵌入模型在當今的相互聯繫的世界中，建立有效的多語言AI系統至關重要。強大的多語言嵌入模型對於RE至關重要

麝香：奧斯汀的機器人需要每10,000英里進行干預Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi發射：仔細觀察Musk的主張埃隆·馬斯克（Elon Musk）最近宣布，特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射，最初出於安全原因部署了一支小型10-20輛汽車，並有快速擴張的計劃。 h

AI震驚的樞軸：從工作工具到數字治療師和生活教練Apr 23, 2025 am 11:41 AM

人工智能的應用方式可能出乎意料。最初，我們很多人可能認為它主要用於代勞創意和技術任務，例如編寫代碼和創作內容。然而，哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作，而是支持、組織，甚至是友誼！報告稱，人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。另一方面，營銷任務（例如撰寫博客、創建社交媒體帖子或廣告文案）在流行用途列表中的排名要低得多。這是為什麼呢？讓我們看看研究結果及其對我們人類如何繼續將