注意看,眼前的這個男人正對著一個機器人不斷發出自然語言指令,如「把綠色的星星推到紅色塊之間」、「把藍色的方塊移動到左下角」,機器人對每一次輸入的指令都可以即時完成。
自1960年代開始,機器人專家就開始嘗試讓機器人聽懂人的「自然語言指令」,並執行具體的行動。
理想情況下,未來的機器人將對使用者能夠用自然語言描述的任何相關任務做出即時反應。
特別是在開放的人類環境中,使用者可能需要在機器人行為發生時自訂行為,提供快速修正,例如「停止,將手臂向上移動一點」或指定限制“慢慢向右移動”。
此外,即時語言可以使人和機器人更容易在複雜的長期任務中進行協作,人們可以迭代和互動式地指導機器人操作,偶爾會有語言回饋。
目前的相關工作大體可以分為以下三個部分:
1、機器人本體需要存在於現實世界;
2、能夠回應大量且豐富的自然語言指令;
#3、能夠執行互動式的(interactive)語言指令 ,即機器人需要在任務執行的過程中接受新的自然語言指令。
對於第三點來說,目前機器人領域在互動式方面的發展速度仍然非常緩慢,也讓機器人缺乏「生命感」。
最近Google發表了一篇論文,提出了一個全新的框架,可以生產真實世界的、即時互動的、執行自然語言指令的機器人,並且相關資料集、環境、基準測試和策略都已開放使用。
論文連結:https://arxiv.org/pdf/2210.06407.pdf
專案首頁:https://interactive-language.github.io/
透過數十萬個語言標註軌跡的資料集進行行為克隆訓練,產生的策略可以熟練地執行比以前的工作實現了多一個數量級的命令。在現實世界中,研究人員估計該方法在87,000個不同的自然語言字串上有93.5%的成功率。
並且同樣的策略能夠被人類透過自然語言進行即時引導,以解決廣泛的精確的長距離重新排列目標,例如「用積木做個笑臉」等。
隨論文共同發布的資料集包括近60萬個語言標記的軌跡,比之前的可用資料集也要大一個數量級。
互動式語言:與機器人即時對話
想要讓機器人融入現實世界中,最重要是能夠處理開放式的自然語言指令,但從機器學習的角度來看,讓機器人學習開放詞彙表語言是一個巨大的挑戰。
開放式代表模型需要執行大量任務,包括小的修正指令等。現有的多任務學習設定利用精心設計的模仿學習資料集或複雜的強化學習獎勵功能來驅動每個任務的學習,透過這種方式設計的預定義集合注定不會很大。
因此,在開放詞彙表任務中一個關鍵的問題是: 應該如何擴展機器人資料的收集過程,使其能夠涵蓋真實環境中成千上萬的行動,以及如何將所有這些行為與最終用戶可能實際提供的自然語言指令聯繫起來?
在互動式語言中,Google提出的大規模模擬學習框架關鍵是創建大型、多語言條件的機器人演示資料集的可擴展性。
和先前設定中需要定義所有的技能,然後收集每個技能策劃的示範不同的是,研究人員不斷在跨多個機器人在無場景重置(scene resets )或低階技能分割(low level skill segmentation)的情況下收集資料。
所有的數據,包括失敗的數據(如把塊從桌子上敲下來 knocking blocks off a table),都要經過一個hindsight language relabeling的過程才能與文本配對。
在這個過程中,標註人員需要觀看長長的機器人影片來識別盡可能多的行為,標記每個行為的開始和結束時間,並使用無限的形式自然語言來描述每個片段。
最重要的是,與先前設定的引導相比,所有用於訓練的技能都是從資料本身自下而上顯示出來的,而非由研究人員預先確定的。
研究人員有意將學習方法和架構盡可能簡化,機器人策略網絡是一個交叉注意力Transformer,將5赫茲的視頻和文本映射到5赫茲的機器人動作,在沒有輔助損失(auxiliary losses)的情況下使用標準的監督式學習行為克隆目標。
在測試時,新的自然語言指令可以透過speech-to-text以高達5赫茲的速率傳送到策略網路。
開源基準
在標註過程中,研究人員收集了一個Language-Table資料集,其中包含超過44萬實際和18萬模擬的機器人執行自然語言命令的演示,以及機器人在演示過程中採取的動作順序。
這也是當下最大的基於語言條件的機器人演示(language-conditioned robot demonstration)資料集,直接提升了一個數量級。
Language-Table 推出了一個模擬模擬學習基準,可以用它來進行模型選擇,或是用來評估不同方法訓練所得到的機器人執行指令的能力。
即時語言行為學習
在實驗中,研究人員發現,當機器人能夠跟隨即時輸入的自然語言指令時,機器人的能力就會顯得特別強大。
在專案網站中,研究人員展示了使用者可以只使用自然語言就能引導機器人透過複雜的長視野序列(long-horizon sequences)來解決需要較長時間才能精確協調控制的目標。
例如在桌上有許多blcoks,指令可以是「用綠眼睛做一個笑臉」或「把所有的放在一條垂直線上”等。
因為機器人被訓練去跟隨開放的詞彙語言,所以在實驗中能夠看到機器人可以對一系列不同的口頭修正做出反應,例如“輕輕地向右移動紅色的星星」。
最後,研究人員探索了即時語言的優勢,例如可以讓機器人資料收集變得更加高效,一個人類操作員可以同時使用口語控制四個機器人,有可能在未來擴大機器人資料收集的規模,而不需要為每個機器人配備一個標註員。
結論
雖然該專案目前僅限於桌面上的一套固定的物體,但互動式語言的實驗結果可以初步表明,大規模模仿學習確實可以生產出即時互動式機器人,能夠遵循自由形式的終端使用者命令。
為了推動實體機器人即時語言控制技術的進步,研究人員開源了Language-Table,也是目前最大的基於語言條件下的真實世界機器人演示資料集,也可以作為相關的模擬基準。
研究人員認為,這個資料集的作用可能不僅限於機器人控制領域,而且可能為研究語言和動作條件視訊預測、機器人視訊條件語言建模,或在更廣泛的機器學習環境中研究其他許多有趣的活躍問題提供一個新起點。
以上是谷歌機器人實現高達93.5%準確率的互動語言,開源資料量提升十倍。的詳細內容。更多資訊請關注PHP中文網其他相關文章!
![無法使用chatgpt!解釋可以立即測試的原因和解決方案[最新2025]](https://img.php.cn/upload/article/001/242/473/174717025174979.jpg?x-oss-process=image/resize,p_40)
ChatGPT無法訪問?本文提供多種實用解決方案!許多用戶在日常使用ChatGPT時,可能會遇到無法訪問或響應緩慢等問題。本文將根據不同情況,逐步指導您解決這些問題。 ChatGPT無法訪問的原因及初步排查 首先,我們需要確定問題是出在OpenAI服務器端,還是用戶自身網絡或設備問題。 請按照以下步驟進行排查: 步驟1:檢查OpenAI官方狀態 訪問OpenAI Status頁面 (status.openai.com),查看ChatGPT服務是否正常運行。如果顯示紅色或黃色警報,則表示Open

2025年5月10日,麻省理工學院物理學家Max Tegmark告訴《衛報》,AI實驗室應在釋放人工超級智能之前模仿Oppenheimer的三位一體測試演算。 “我的評估是'康普頓常數',這是一場比賽的可能性

AI音樂創作技術日新月異,本文將以ChatGPT等AI模型為例,詳細講解如何利用AI輔助音樂創作,並輔以實際案例進行說明。我們將分別介紹如何通過SunoAI、Hugging Face上的AI jukebox以及Python的Music21庫進行音樂創作。 通過這些技術,每個人都能輕鬆創作原創音樂。但需注意,AI生成內容的版權問題不容忽視,使用時務必謹慎。 讓我們一起探索AI在音樂領域的無限可能! OpenAI最新AI代理“OpenAI Deep Research”介紹: [ChatGPT]Ope

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显著提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

CHATGPT應用程序:與AI助手釋放您的創造力!初學者指南 ChatGpt應用程序是一位創新的AI助手,可處理各種任務,包括寫作,翻譯和答案。它是一種具有無限可能性的工具,可用於創意活動和信息收集。 在本文中,我們將以一種易於理解的方式解釋初學者,從如何安裝chatgpt智能手機應用程序到語音輸入功能和插件等應用程序所獨有的功能,以及在使用該應用時要牢記的要點。我們還將仔細研究插件限制和設備對設備配置同步

ChatGPT中文版:解鎖中文AI對話新體驗 ChatGPT風靡全球,您知道它也提供中文版本嗎?這款強大的AI工具不僅支持日常對話,還能處理專業內容,並兼容簡體中文和繁體中文。無論是中國地區的使用者,還是正在學習中文的朋友,都能從中受益。 本文將詳細介紹ChatGPT中文版的使用方法,包括賬戶設置、中文提示詞輸入、過濾器的使用、以及不同套餐的選擇,並分析潛在風險及應對策略。此外,我們還將對比ChatGPT中文版和其他中文AI工具,幫助您更好地了解其優勢和應用場景。 OpenAI最新發布的AI智能

這些可以將其視為生成AI領域的下一個飛躍,這為我們提供了Chatgpt和其他大型語言模型聊天機器人。他們可以代表我們採取行動,而不是簡單地回答問題或產生信息

使用chatgpt有效的多個帳戶管理技術|關於如何使用商業和私人生活的詳盡解釋! Chatgpt在各種情況下都使用,但是有些人可能擔心管理多個帳戶。本文將詳細解釋如何為ChatGpt創建多個帳戶,使用時該怎麼做以及如何安全有效地操作它。我們還介紹了重要的一點,例如業務和私人使用差異,並遵守OpenAI的使用條款,並提供指南,以幫助您安全地利用多個帳戶。 Openai


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

禪工作室 13.0.1
強大的PHP整合開發環境

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Dreamweaver Mac版
視覺化網頁開發工具