搜尋
首頁科技週邊人工智慧谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。

注意看,眼前的這個男人正對著一個機器人不斷發出自然語言指令,如「把綠色的星星推到紅色塊之間」、「把藍色的方塊移動到左下角」,機器人對每一次輸入的指令都可以即時完成。

自1960年代開始,機器人專家就開始嘗試讓機器人聽懂人的「自然語言指令」,並執行具體的行動。

理想情況下,未來的機器人將對使用者能夠用自然語言描述的任何相關任務做出即時反應。

特別是在開放的人類環境中,使用者可能需要在機器人行為發生時自訂行為,提供快速修正,例如「停止,將手臂向上移動一點」或指定限制“慢慢向右移動”。

谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。

此外,即時語言可以使人和機器人更容易在複雜的長期任務中進行協作,人們可以迭代和互動式地指導機器人操作,偶爾會有語言回饋。

目前的相關工作大體可以分為以下三個部分:

1、機器人本體需要存在於現實世界;

2、能夠回應大量且豐富的自然語言指令;

#3、能夠執行互動式的(interactive)語言指令 ,即機器人需要在任務執行的過程中接受新的自然語言指令。

對於第三點來說,目前機器人領域在互動式方面的發展速度仍然非常緩慢,也讓機器人缺乏「生命感」。

最近Google發表了一篇論文,提出了一個全新的框架,可以生產真實世界的、即時互動的、執行自然語言指令的機器人,並且相關資料集、環境、基準測試和策略都已開放使用。

谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。

論文連結:https://arxiv.org/pdf/2210.06407.pdf

專案首頁:https://interactive-language.github.io/

透過數十萬個語言標註軌跡的資料集進行行為克隆訓練,產生的策略可以熟練地執行比以前的工作實現了多一個數量級的命令。在現實世界中,研究人員估計該方法在87,000個不同的自然語言字串上有93.5%的成功率。

谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。

並且同樣的策略能夠被人類透過自然語言進行即時引導,以解決廣泛的精確的長距離重新排列目標,例如「用積木做個笑臉」等。

隨論文共同發布的資料集包括近60萬個語言標記的軌跡,比之前的可用資料集也要大一個數量級。

互動式語言:與機器人即時對話

想要讓機器人融入現實世界中,最重要是能夠處理開放式的自然語言指令,但從機器學習的角度來看,讓機器人學習開放詞彙表語言是一個巨大的挑戰。

開放式代表模型需要執行大量任務,包括小的修正指令等。現有的多任務學習設定利用精心設計的模仿學習資料集或複雜的強化學習獎勵功能來驅動每個任務的學習,透過這種方式設計的預定義集合注定不會很大。

因此,在開放詞彙表任務中一個關鍵的問題是: 應該如何擴展機器人資料的收集過程,使其能夠涵蓋真實環境中成千上萬的行動,以及如何將所有這些行為與最終用戶可能實際提供的自然語言指令聯繫起來?

在互動式語言中,Google提出的大規模模擬學習框架關鍵是創建大型、多語言條件的機器人演示資料集的可擴展性。

和先前設定中需要定義所有的技能,然後收集每個技能策劃的示範不同的是,研究人員不斷在跨多個機器人在無場景重置(scene resets )或低階技能分割(low level skill segmentation)的情況下收集資料。

所有的數據,包括失敗的數據(如把塊從桌子上敲下來 knocking blocks off a table),都要經過一個hindsight language relabeling的過程才能與文本配對。

在這個過程中,標註人員需要觀看長長的機器人影片來識別盡可能多的行為,標記每個行為的開始和結束時間,並使用無限的形式自然語言來描述每個片段。

最重要的是,與先前設定的引導相比,所有用於訓練的技能都是從資料本身自下而上顯示出來的,而非由研究人員預先確定的。

谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。

研究人員有意將學習方法和架構盡可能簡化,機器人策略網絡是一個交叉注意力Transformer,將5赫茲的視頻和文本映射到5赫茲的機器人動作,在沒有輔助損失(auxiliary losses)的情況下使用標準的監督式學習行為克隆目標。

在測試時,新的自然語言指令可以透過speech-to-text以高達5赫茲的速率傳送到策略網路。

開源基準

在標註過程中,研究人員收集了一個Language-Table資料集,其中包含超過44萬實際和18萬模擬的機器人執行自然語言命令的演示,以及機器人在演示過程中採取的動作順序。

谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。

這也是當下最大的基於語言條件的機器人演示(language-conditioned robot demonstration)資料集,直接提升了一個數量級。

Language-Table 推出了一個模擬模擬學習基準,可以用它來進行模型選擇,或是用來評估不同方法訓練所得到的機器人執行指令的能力。

即時語言行為學習

在實驗中,研究人員發現,當機器人能夠跟隨即時輸入的自然語言指令時,機器人的能力就會顯得特別強大。

在專案網站中,研究人員展示了使用者可以只使用自然語言就能引導機器人透過複雜的長視野序列(long-horizo​​n sequences)來解決需要較長時間才能精確協調控制的目標。

谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。

例如在桌上有許多blcoks,指令可以是「用綠眼睛做一個笑臉」或「把所有的放在一條垂直線上”等。

因為機器人被訓練去跟隨開放的詞彙語言,所以在實驗中能夠看到機器人可以對一系列不同的口頭修正做出反應,例如“輕輕地向右移動紅色的星星」。

最後,研究人員探索了即時語言的優勢,例如可以讓機器人資料收集變得更加高效,一個人類操作員可以同時使用口語控制四個機器人,有可能在未來擴大機器人資料收集的規模,而不需要為每個機器人配備一個標註員。

結論

雖然該專案目前僅限於桌面上的一套固定的物體,但互動式語言的實驗結果可以初步表明,大規模模仿學習確實可以生產出即時互動式機器人,能夠遵循自由形式的終端使用者命令。

為了推動實體機器人即時語言控制技術的進步,研究人員開源了Language-Table,也是目前最大的基於語言條件下的真實世界機器人演示資料集,也可以作為相關的模擬基準。

研究人員認為,這個資料集的作用可能不僅限於機器人控制領域,而且可能為研究語言和動作條件視訊預測、機器人視訊條件語言建模,或在更廣泛的機器學習環境中研究其他許多有趣的活躍問題提供一個新起點。

以上是谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7?擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7?Apr 23, 2025 am 11:49 AM

擁抱Face的OlympicCoder-7B:強大的開源代碼推理模型 開發以代碼為中心的語言模型的競賽正在加劇,擁抱面孔與強大的競爭者一起參加了比賽:OlympicCoder-7B,一種產品

4個新的雙子座功能您可以錯過4個新的雙子座功能您可以錯過Apr 23, 2025 am 11:48 AM

你們當中有多少人希望AI可以做更多的事情,而不僅僅是回答問題?我知道我有,最近,我對它的變化感到驚訝。 AI聊天機器人不僅要聊天,還關心創建,研究

Camunda為經紀人AI編排編寫了新的分數Camunda為經紀人AI編排編寫了新的分數Apr 23, 2025 am 11:46 AM

隨著智能AI開始融入企業軟件平台和應用程序的各個層面(我們必須強調的是,既有強大的核心工具,也有一些不太可靠的模擬工具),我們需要一套新的基礎設施能力來管理這些智能體。 總部位於德國柏林的流程編排公司Camunda認為,它可以幫助智能AI發揮其應有的作用,並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能,旨在幫助組織建模、部署和管理AI智能體。 從實際的軟件工程角度來看,這意味著什麼? 確定性與非確定性流程的融合 該公司表示,關鍵在於允許用戶(通常是數據科學家、軟件

策劃的企業AI體驗是否有價值?策劃的企業AI體驗是否有價值?Apr 23, 2025 am 11:45 AM

參加Google Cloud Next '25,我渴望看到Google如何區分其AI產品。 有關代理空間(此處討論)和客戶體驗套件(此處討論)的最新公告很有希望,強調了商業價值

如何為抹布找到最佳的多語言嵌入模型?如何為抹布找到最佳的多語言嵌入模型?Apr 23, 2025 am 11:44 AM

為您的檢索增強發電(RAG)系統選擇最佳的多語言嵌入模型 在當今的相互聯繫的世界中,建立有效的多語言AI系統至關重要。 強大的多語言嵌入模型對於RE至關重要

麝香:奧斯汀的機器人需要每10,000英里進行干預麝香:奧斯汀的機器人需要每10,000英里進行干預Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi發射:仔細觀察Musk的主張 埃隆·馬斯克(Elon Musk)最近宣布,特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射,最初出於安全原因部署了一支小型10-20輛汽車,並有快速擴張的計劃。 h

AI震驚的樞軸:從工作工具到數字治療師和生活教練AI震驚的樞軸:從工作工具到數字治療師和生活教練Apr 23, 2025 am 11:41 AM

人工智能的應用方式可能出乎意料。最初,我們很多人可能認為它主要用於代勞創意和技術任務,例如編寫代碼和創作內容。 然而,哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作,而是支持、組織,甚至是友誼! 報告稱,人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。 另一方面,營銷任務(例如撰寫博客、創建社交媒體帖子或廣告文案)在流行用途列表中的排名要低得多。 這是為什麼呢?讓我們看看研究結果及其對我們人類如何繼續將

公司競爭AI代理的採用公司競爭AI代理的採用Apr 23, 2025 am 11:40 AM

AI代理商的興起正在改變業務格局。 與雲革命相比,預計AI代理的影響呈指數增長,有望徹底改變知識工作。 模擬人類決策的能力

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中