搜尋
首頁科技週邊人工智慧谷歌用大型模型訓練機器狗理解模糊指令,激動不已準備野餐

人類和四足機器人之間簡單有效的互動是創造能幹的智慧助理機器人的途徑,其昭示著這樣一個未來:科技以超乎我們想像的方式改善我們的生活。對於這樣的人類-機器人互動系統,關鍵是讓四足機器人有能力回應自然語言指令。

最近大型語言模式(LLM)發展迅速,已經展現了執行高層規劃的潛力。然而,對 LLM 來說,要理解低層指令仍然很難,例如關節角度目標或馬達扭矩,尤其是對於本身就不穩定、必需高頻控制訊號的足式機器人。因此,大多數現有工作都會假設已為 LLM 提供了決定機器人行為的高層 API,而這就從根本上限制了系統的表現能力。

在CoRL 2023 論文《SayTap: Language to Quadrupedal Locomotion》中,GoogleDeepMind 與東京大學提出了一種新方法,該方法使用足部接觸模式作為連接人類的自然語言指令與輸出低階指令的運動控制器的橋樑。

谷歌用大型模型訓練機器狗理解模糊指令,激動不已準備野餐

  • 論文網址:https://arxiv.org/abs/2306.07580
  • 計畫網站: https://saytap.github.io/

#足部接觸模式(foot contact pattern)是指四足智能體在移動時足放在地上的順序和方式。他們基於此開發出了一種互動式四足機器人系統,讓使用者可以靈活地制定不同的運動行為,例如使用者可以使用簡單的語言命令機器人走、跑、跳或執行其它動作。

他們的貢獻包括一個 LLM prompt 設計、一個獎勵函數和一個能讓 SayTap 控制器使用可行的接觸模式分佈的方法。

研究顯示 SayTap 控制器能夠實現多種運動模式,而這些能力還能遷移用於真實機器人硬體。

SayTap 方法

#SayTap 方法使用了接觸模式模板,該模板是一個由0 和1 構成的4 X T 矩陣,其中0 表示智能體的腳在空中,1 表示腳落在地面。由上至下,此矩陣的每一行分別給出了左前足(FL)、右前足(FR)、左後足(RL)、右後足(RR)的足部接觸模式。 SayTap 的控制頻率為 50 Hz,即每個 0 或 1 持續 0.02 秒。這項研究將所需足部接觸模式定義為一個大小為 L_w、形狀為 4 X L_w 的循環滑動視窗。此滑動視窗會從接觸模式模板中提取四足的接地標誌,其指示了在時間 t 1 和 t L_w 之間機器人腳是在地面還是在空中。下圖給出了 SayTap 方法的概況。

谷歌用大型模型訓練機器狗理解模糊指令,激動不已準備野餐

SayTap 方法概述

SayTap 引入的所需足部接觸模式可作為自然語言使用者指令與運動控制器之間的新介面。運動控制器是用於完成主要任務的(例如遵循指定的速度)以及用於在特定時間將機器人腳放在地上,以使實現的足部接觸模式盡可能接近所需的接觸模式。

為了做到這一點,在每個時間步驟,運動控制器以所需的足部接觸模式為輸入,再加上本體感官資料(如關節位置和速度)及任務相關輸入(如特定於使用者的速度命令)。 DeepMind 使用了強化學習來訓練此運動控制器,並將其表徵成一個深度神經網路。在控制器的訓練期間,研究者使用了一個隨機生成器來採樣所需的足部接觸模式,然後優化策略以輸出能實現所需足部接觸模式的低層機器人動作。而在測試時間,則是使用 LLM 將使用者指令轉譯成足部接觸模式。

谷歌用大型模型訓練機器狗理解模糊指令,激動不已準備野餐

SayTap 使用足部接觸模式作為連接自然語言使用者指令和低層控制命令的橋樑。 SayTap 既支援簡單直接的指令(例如「向前慢速小跑」),也支援模糊的使用者指令(例如「好消息,我們這個週末去野餐!)。透過基於強化學習的運動控制器,能讓四足機器人根據命令做出反應。

研究表明:使用適當設計的prompt,LLM 有能力準確地將用戶命令映射到特定格式的足部接觸模式模板中,即便使用者指令是非結構化的或模糊的。在訓練中,研究者使用隨機模式產生器產生了多種接觸模式模板,它們有不同的模式長度T、基於給定步態類型G 在一個週期內的足地接觸比,使得運動控制器能夠在廣泛的運動模式分佈上學習,獲得更好的泛化能力。更多詳情請參閱論文。

#實驗結果

使用僅包含三種常見足部接觸模式上下文樣本的簡單prompt,LLM 可將各種人類命令準確地轉譯成接觸模式,甚至泛化用於那些沒有明確指定機器人應當如何行為的情況。

SayTap prompt 簡潔緊湊,包含四個組分:

(1) 用於描述LLM 應完成的任務的一般性說明;
(2) 步態定義,用於提醒LLM 專注於有關四足步態的基本知識以及它們與情緒的關聯;
(3) 輸出格式定義;
(4) 演示範例,讓LLM 學習在上下文中的情況。

研究者也設定了五種速度,讓機器人可以前進或後退、快速或慢速、或保持不動。

#遵循簡單和直接的命令

#下面的動圖展示了SayTap 成功執行直接清晰命令的範例。儘管某些命令並不包含在三個上下文示例之中,但仍然可以引導LLM 表達出其在預訓練階段學習到的內部知識,這會用到prompt 中的“步態定義模組”,即上面prompt 中第二個模組。

谷歌用大型模型訓練機器狗理解模糊指令,激動不已準備野餐

谷歌用大型模型訓練機器狗理解模糊指令,激動不已準備野餐

遵循非結構化或模糊的命令

但更有趣的是SayTap 處理非結構化和模糊指令的能力。只需一點提示即可將某些步態與一般情緒印象聯繫起來,例如機器人在聽到讓其興奮的消息(如“我們去野餐吧!”)後會上下跳躍。此外,它還能準確地呈現出場景,例如當被告知地面非常熱時,機器人會快速移動,讓腳盡量少接觸地面。

谷歌用大型模型訓練機器狗理解模糊指令,激動不已準備野餐

谷歌用大型模型訓練機器狗理解模糊指令,激動不已準備野餐

谷歌用大型模型訓練機器狗理解模糊指令,激動不已準備野餐

谷歌用大型模型訓練機器狗理解模糊指令,激動不已準備野餐

#

總結與未來工作

#SayTap 是四足機器人的互動式系統,其允許使用者靈活地制定不同的運動行為。 SayTap 引入了所需足部接觸模式作為自然語言與低階控制器之間的介面。這種新介面簡單直接又很靈活,此外,它既支援機器人遵循直接指令,也支援機器人遵從沒有明確說明機器人行為方式的命令。

DeepMind 的研究者表示,未來一大研究方向是測試隱含特定感受的指令是否能讓 LLM 輸出所需步態。在上面結果的步態定義模組中,研究者提供了一個將開心情緒與跳動步態聯繫起來的句子。如果能提供更多訊息,也許能增強 LLM 解釋指令的能力,例如解讀隱含的感受。在實驗評估中,開心情緒與跳動步態的連結能讓機器人在遵從模糊的人類指令行動時表現得充滿活力。另一個有趣的未來研究方向是引入多模態輸入,例如視訊和音訊。理論上講,從這些訊號轉譯而來的足部接觸模式也適用於這裡新提出的工作流程,並有望開創更多有趣的用例。

原文連結:https://blog.research.google/2023/08/saytap-language-to-quadrupedal.html
#

以上是谷歌用大型模型訓練機器狗理解模糊指令,激動不已準備野餐的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
一個提示可以繞過每個主要LLM的保障措施一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

5個錯誤,大多數企業今年將犯有可持續性5個錯誤,大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

如果Openai購買Chrome,AI可能會統治瀏覽器戰爭如果Openai購買Chrome,AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

'AI是我們,比我們更多''AI是我們,比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud在下一個2025年對基礎架構變得更加認真Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器