搜尋
首頁科技週邊人工智慧李飛飛兩位高徒聯合指導:能看懂「多模態提示」的機器人,zero-shot性能提升2.9倍

人工智慧領域的下一個發展機會,有可能是為AI模型裝上一個「身體」,與真實世界進行互動來學習。

相比現有的自然語言處理、電腦視覺等在特定環境下執行的任務來說,開放領域的機器人技術顯然更難。

李飛飛兩位高徒聯合指導:能看懂「多模態提示」的機器人,zero-shot性能提升2.9倍

例如prompt-based學習可以讓單一語言模型執行任意的自然語言處理任務,例如寫程式碼、做摘要、問答,只需要修改prompt即可。

機器人技術中的任務規範種類更多,例如模仿單樣本演示、遵照語言指示或實現某一視覺目標,這些通常都被視為不同的任務,由專門訓練後的模型來處理。

最近來自英偉達、史丹佛大學、瑪卡萊斯特學院、加州理工、清華大學和德州大學奧斯汀分校的研究人員共同提出一個基於Transformer的通用機器人智能體VIMA,利用多模態的prompt,實現極高的泛化效能,能夠處理大量的機器人操作任務。

李飛飛兩位高徒聯合指導:能看懂「多模態提示」的機器人,zero-shot性能提升2.9倍

論文連結:https://arxiv.org/abs/2210.03094

專案連結:https://vimalabs.github.io/

#程式碼連結:https://github.com/vimalabs/ VIMA

輸入prompt為交錯所使用的文字與視覺符號

為了訓練和評估VIMA,研究人員提出了一個新的模擬基準資料集,包含上千個由程式產生的帶有多模態提示的桌面任務,和60多萬條專家軌跡用於模仿學習,以四個等級來評估模型的泛化性能

在同等尺寸的模型、等量訓練資料的情況下,VIMA在最難的zero-shot的泛化設定下任務成功率為當下sota方法的2.9倍

在訓練資料減少10倍的情況下,VIMA的表現仍比其他方法好2.7倍。

目前所有的程式碼、預訓練模型、資料集和模擬基準都已完全開源

論文的第一作者是Yunfan Jiang,史丹佛大學碩士二年級學生,目前在英偉達研究院實習。 2020年本科畢業於愛丁堡大學。他主要的研究方向為具身人工智慧(embodied AI),即透過與環境的互動來學習。具體研究內容為如何利用大規模的基礎模型來實現開放式的的具身智能體(embodied agents)

李飛飛兩位高徒聯合指導:能看懂「多模態提示」的機器人,zero-shot性能提升2.9倍

##論文包含兩位導師,都是李飛飛曾經的學生。

朱玉可,本科畢業於浙江大學,並取得了浙江大學和加拿大西蒙弗雷澤大學的雙學位。碩士和博士研究生就讀於史丹佛大學,師從李飛飛,並於2019年8月取得博士學位。朱玉可現任UT Austin電腦科學系助理教授,同時是機器人感知與學習實驗室的主任,以及英偉達研究院高級研究科學家。

範麟熙,博士畢業於史丹佛大學,師從李飛飛,目前是NVIDIA AI的研究科學家。主要研究方向為開發通用且強大的自主智能體(generally capable autonomous agents),具體的研究工作涵蓋了基礎模型、策略學習、機器人技術、多模式學習和大規模系統。

機器人與多模態prompt

Transformer在NLP領域多任務已經實現相當高的性能,只有一個模型就能同時完成問答、機器翻譯、文本摘要等。

實作不同任務的介面就在於輸入的文字提示,從而將具體的任務需求傳遞給通用大模型。

能不能把這種prompt介面用在通用機器人智能體上呢?

對於一個家務機器人來說,理想情況下,只需要輸入給我拿#,機器人就可以按照圖片把杯子拿過來。

當機器人需要學習新技能時,最好可以透過輸入影片示範就能學習。如果機器人需要與不熟悉的物體互動時,只需要透過圖例即可輕鬆解釋。

同時為了確保安全部署,使用者可以進一步指定視覺約束,例如不要進入房間

李飛飛兩位高徒聯合指導:能看懂「多模態提示」的機器人,zero-shot性能提升2.9倍

為了實現這些功能,VIMA模型主要包含三個部分:

1、 形式化多模態提示,將機器人操縱任務轉換為序列建模問題;

2、一個新的機器人智能體模型,能夠進行多任務操作 

3、一個具有不同任務的大規模基準,以系統地評估智能體的可擴展性和通用性

首先,由多模態提示帶來的彈性可以讓開發者指定和建構一個模型即可支援大量的任務規範,這篇論文中主要考慮六類任務:

1、 簡單物體操縱(Simple object manipulation),任務提示形如put into ,其中對應的槽位為物體的圖像;

2、實現視覺目標(Visual goal reaching),操縱物體實現目標設置,例如重新排列(rearragement);

3、接納新概念(Novel concept grounding),提示中包含一些不常見的詞,例如dax, blicket等,可以透過在提示內的圖像進行解釋,然後直接在指令中使用,可以測試智能體對新概念的認知速度;

4、單樣本影片模仿(One-shot video imitation),觀看影片演示,並學習如何以相同的移動路徑對一個特定物體進行複現;

5、滿足視覺限制(Visual constraint satisfaction),機器人必須小心地操縱物體,來避免觸犯安全性限制;

6、視覺推理(Visual reasoning),有一些任務要求智能體需要會推理,例如「把所有和相同紋理的物體都放到一個容器中」,或要求視覺記憶,如「把放到容器中,然後再放回原位”

需要注意的是,這六類任務並非互斥,例如有的任務可能會透過示範影片(imitation)引入了一個之前沒見過的動詞(Novel Concept)

新基準VIM-BENCH

巧婦難為無米之炊,為了訓練模型,研究人員同時準備了一些配套資料作為多模態機器人學習基準VIMA-BENCH

模擬環境(Simulation Environment)上,現有的基準一般都是針對特定的任務規範,目前還沒有一個基準能夠提供豐富的多模態任務套件和全面的測試平台來有針對性地探測代理能力。

為此,研究人員透過擴展Ravens機器人模擬器來建立VIMA-BENCH,支援可擴展的物件和紋理集合,以組成多模態提示,並按程式產生大量的任務。

具體來說,VIMA-BENCH提供了17個多模態提示範本的元任務,可以被實例化為1000個獨立的任務。每個元任務屬於上述6種任務規範方法中的一種或多種。

VIMA-BENCH可以透過腳本化的oracle智能體產生大量的模仿學習資料。

觀察與行動(Observation and Actions)上,模擬器的觀察空間包括從正面視圖和自上而下視圖渲染的RGB影像,基準也提供真實的物體分割和邊界框,用於訓練以物體為中心的模型。

VIM-BENCH從前人工作中繼承了高級動作空間,由最基礎的運動技能組成,如“取放”、“擦拭”等,具體由終端效果的姿勢所決定。

模擬器還具有腳本化的oracle程式,可以透過使用特權模擬器的狀態信息,如所有物體的精確位置,以及多模態指令的基礎解釋,產生專家示範。

最終,研究人員透過預先編程的oracles產生了一個大型的專家軌跡離線資料集用於模仿學習。資料集包括每個元任務的5萬條軌跡,共65萬條成功的軌跡。

同時保留一個物件模型和紋理的子集方便評估,並將17個元任務中的4個用於zero-shot泛化性測試。

VIMA-BENCH的每個任務標準只有成功和失敗,不存在中間狀態的獎勵訊號。

在測試時,研究人員在實體模擬器中執行智能體策略,以計算出成功率,所有評估的元任務的平均成功率為最終報告的指標。

評估協議包含四個層次以系統地探測智能體的泛化能力,每一級都更偏離訓練分佈,因此嚴格來說一級比一級難。

1、放置泛化(Placement generalization):在訓練過程中,所有的提示都是逐字逐句的,但在測試時,桌面上的物體放置是隨機的。

2、組合泛化(Combinatorial generalization):所有的材料(形容詞)和三維物體(名詞)在訓練中都能看到,但在測試中會出現一些新的組合形式。

3、新物件泛化(Novel object generalization):測試提示和模擬的工作空間包括新的形容詞和物件。

4、新任務泛化(Novel task generalization):測試時帶有新提示模板的新元任務

VIMA模型

多模態prompt中總共包含三種格式:

#1、文字,使用預先訓練的T5模型進行分詞及取得詞向量;

2、整個桌面的場景,首先使用Mask R-CNN辨識出所有的獨立物體,每個物體由一個bounding box和裁剪圖像表示,然後使用一個bounding bo編碼器和ViT分別進行編碼。

3、單一物件的圖像,同樣使用ViT獲得tokens,然後將結果序列輸入到預先訓練的T5編碼器模型中。

李飛飛兩位高徒聯合指導:能看懂「多模態提示」的機器人,zero-shot性能提升2.9倍

機器人控制器(Robot Controller),即解碼器的輸入為提示序列上進行多次交叉注意力層後的表示和軌跡歷史序列。

這樣的設計可以增強對prompt的連接度;更好地保留且更深地處理原始prompt tokens;更好的計算效率。

在測試階段的實驗設計,主要為了回答三個問題:

##1、VIMA和先前的SOTA基於Transformer的智能體在多模態提示的多種任務上的性能對比;

#2、VIMA在模型容量和資料量上的縮放性(scaling properties);

3、不同的視覺分詞器,條件提示和條件編碼是否會影響最終的決策。

對比的基準模型包括GatoFlamingoDecision Transformer(DT)

#首先在模型縮放(Model scaling)上,研究人員對所有方法從2M到200M參數量進行訓練,編碼器的尺寸始終保持為T5-base,在所有層次的zero-shot泛化性評估上,VIMA都絕對好於其他工作。

儘管Gato和Flamingo在更大尺寸的模型上性能有所提升,VIMA也仍然好於所有模型。

李飛飛兩位高徒聯合指導:能看懂「多模態提示」的機器人,zero-shot性能提升2.9倍

資料縮放(Data scaling)上,研究人員對各個方法的訓練資料採取0.1%, 1% , 10%和全量模仿學習數據集的不同實驗,VIMA僅需1%的數據,就能實現其他方法用10倍的數據訓練的L1和L2泛化性指標。在L4指標上,只要1%的訓練數據,VIMA就已經要比其他模型在全量數據上訓練效果要好了。

李飛飛兩位高徒聯合指導:能看懂「多模態提示」的機器人,zero-shot性能提升2.9倍

漸進泛化(Progressive Generalization)效能對比中,在面向更難的泛化任務中,沒有採用任何微調。 VIMA模型的效能倒退最少,尤其是從L1到L2和L1到L3,而其他模型退化超過了20%,這也意味著VIMA學習到了更泛化的策略,更健壯的表徵。  

參考資料:

https://arxiv.org/ abs/2210.03094#

以上是李飛飛兩位高徒聯合指導:能看懂「多模態提示」的機器人,zero-shot性能提升2.9倍的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)