首頁  >  文章  >  科技週邊  >  北大具身智能新成果:無需訓練,聽指令就能靈活走位

北大具身智能新成果:無需訓練,聽指令就能靈活走位

PHPz
PHPz轉載
2023-11-06 14:29:11704瀏覽

北京大學董豪團隊具身導航最新成果來了:

無需額外建圖和訓練,只需說出導航指令,如:

# Walk forward across the room and walk through the panty followed by the kitchen. Stand at the end of the kitchen

我們就能控制機器人靈活移動。

北大具身智能新成果:無需訓練,聽指令就能靈活走位

在此,機器人靠的是主動與大模型構成的「專家團隊」溝通完成指令分析、視覺感知、完成估計和決策測試等一系列視覺語言導航關鍵任務。

北大具身智能新成果:無需訓練,聽指令就能靈活走位

目前專案首頁和論文都已上線,程式碼即將推出:

北大具身智能新成果:無需訓練,聽指令就能靈活走位

##機器人如何根據人類指令導航?

視覺語言導航涉及一系列子任務,包括指令分析,視覺感知,完成估計和決策測試。

這些關鍵任務需要不同領域知識,它們環環相扣決定機器人的導航能力。

受到現實中專家討論行為的啟發,

北大董豪團隊#提出DiscussNav導航系統。

作者首先以提示方式賦予LLM

(大語言模型)和MLM(多模態大模型)專家角色和特定任務,激活它們的領域知識和能力,由此建構具備不同專長的視覺導航專家團隊。

北大具身智能新成果:無需訓練,聽指令就能靈活走位

然後,作者設計了討論問題語料庫和討論機制,遵循該機制,由LLM驅動的導航機器人可以主動發起一系列與視覺導航專家的討論。

北大具身智能新成果:無需訓練,聽指令就能靈活走位

在每一步移動前,導航機器人都會與專家討論來理解人類指令中要求的動作和提及的物體標誌。

進而依據這些物體標誌的類型有傾向性地對周圍環境進行感知,指令完成情況估計,由此做出初步的移動決策。

北大具身智能新成果:無需訓練,聽指令就能靈活走位

在決策過程中,導航機器人會根據Chain-of-Thought

(思維鏈)同時產生N個獨立的預測結果,當這些預測結果之間不一致時,機器人會向決策測試專家求助,篩選出最終的移動決策。

從這個過程我們可以看到,相比傳統方法需要進行額外的預訓練,這個方法透過與大模型專家互動指導機器人根據人類指令移動,

直接解決了機器人導航訓練數據稀缺的問題

更進一步,正是由於這個特點,它也實現了零樣本能力,只要遵循以上討論流程,就能follow多樣的導航指令。

以下是DiscussNav在經典的視覺語言導航資料集Room2Room上的表現。

北大具身智能新成果:無需訓練,聽指令就能靈活走位

可以看到,它

顯著高於所有零樣本方法,甚至超過兩個經過訓練的方法

作者進一步在Turtlebot4移動機器人上進行真實室內場景導航實驗。

憑藉專家角色扮演和討論激發出的大模型強大的語言和視覺泛化能力,DiscussNav在真實世界的表現明顯優於之前最優的零樣本方法和經過預訓練微調的方法,展現出良好的sim-to-real遷移能力。

北大具身智能新成果:無需訓練,聽指令就能靈活走位

透過實驗,作者進一步發現,DiscussNav產生了

4個強大的能力

1、識別開放世界物體,例如“白色桌子上的機械手臂”,“椅子上的泰迪熊”。

2、識別細粒度的導航標誌物體,例如“廚房檯面上的植物”,“桌上的紙箱”。

3、修正其它專家在討論中回覆的錯誤訊息,例如標誌提取專家在從導航動作序列提取導航標誌前會檢查並糾正被錯誤分解的動作序列。

4、排除不一致的移動決策,例如決策測試專家可以根據當前環境資訊從DiscussNav預測的多個不一致的移動決策中選擇最合理的一個作為最終移動決定。

「模擬與大模型先驗是Free Lunch」

通訊作者董豪在先前的報告中提出,深入探討如何有效利用模擬資料和大模型從海量資料中學習到的先驗知識是未來具身智能研究的發展方向。

目前受限於資料規模和探索真實環境的高昂成本,具身智慧研究仍將聚焦於模擬平台實驗和模擬資料訓練。

近期大模型的進展為具身智能提供新方向,合理發掘和利用大模型中存在的語言常識和物理世界先驗將推動具身智能發展。

北大具身智能新成果:無需訓練,聽指令就能靈活走位

論文網址: https://arxiv.org/abs/2309.11382

#

以上是北大具身智能新成果:無需訓練,聽指令就能靈活走位的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除