最近,來自UCSD、IAIFI和MIT機構的研究人員,用一種全新的神經體積記憶架構(NVM),教會了一隻機器狗感知三維世界。
利用這項技術,機器狗可以透過單一的神經網路實現爬樓梯、跨縫隙、翻障礙等等——完全自主,無需遙控。
不知道你有沒有註意到狗背上那個的白盒子?
裡面搭載的是蘋果的M1晶片,負責執行機器狗的視覺處理任務。而且,還是團隊從Mac上拆下來的。
不難看出,MIT的這隻機器狗可以輕鬆地爬過了橫在自己面前一段樹枝,毫不費力(基本上)。
眾所周知,對於機器狗,以及其他有腿的機器人來說,想要翻越不平整的道路,可謂是困難重重。
路面狀況越是複雜,就有越多的障礙物無法被看見。
為了解決「部分可觀測環境」問題,目前SOTA的視覺-運動技術透過框架堆疊(frame-stacking),將影像通道連接起來。
然而,這種簡單的處理方法遠遠落後於現在的電腦視覺技術——後者可以明確地模擬光流和特定的3D幾何形狀。
受此啟發,團隊提出了一種神經體積記憶架構(NVM),可以充分考慮到三維世界的SE(3)等變性(Equivalence)。
計畫網址:https://rchalyang.github.io/NVM/
與以往的方法不同,NVM是一種體積格式。它可以將來自多個相機視圖的特徵體積聚合到機器人的自我中心框架中,讓機器人能更好地理解周圍的環境。
測試的結果顯示,使用神經體積記憶(NVM)對腿部運動進行訓練後,機器人在複雜的地形上的表現要明顯優於先前的技術。
此外,消融實驗的結果顯示,神經體積記憶中儲存的內容捕捉了足夠的幾何資訊來重構3D場景。
為了在模擬之外的不同現實世界場景中進行驗證,團隊在室內和室外場景中都進行了實驗。
當機器狗發現有障礙物突然出現在自己面前時,直接就會選擇繞開。
在滿是石頭的地面上,走起來好像也沒什麼問題,雖然比在平地上還是要費力一些的。
相對於自身來說比較大的障礙,努努力還是可以翻過去的。
採用先前的辨識控制技術,小狗後腿對距離判斷明顯出現了誤差,一腳踩溝裡翻車了,失敗。
採用MIT提出的NVM之後,小狗過溝,穩穩的幸福,成功!
採用先前的辨識控制技術,小狗第一腳就踩空了,狗頭搶地,失敗。
採用MIT提出的NVM之後,小狗四平穩地走過了矩陣。
「腿部運動的體積記憶
為了使控制問題具體化,機器人需要從先前的幀中收集信息,並正確推斷被遮擋的地形。 在運動過程中,直接安裝在機器人底盤上的攝影機發生劇烈和突然的位置變化。
這樣,在表徵一連串的畫面的過程中,某單一影格能夠被放到正確的位置,就變得非常重要了。
為此,團隊提出的神經體積記憶(NVM)的概念,可以將輸入的一連串視覺訊息,轉化為場景特徵進行3D描繪,進而進行輸出。
透過自監督學習NVM
雖然「行為複製目標」足以產生一個好的策略,但針對平移和旋轉的等變性,自動為神經體積記憶提供了一個獨立的、自我監督的學習目標。
########################自監督學習:研究團隊訓練了一個獨立的解碼器。讓它透過一段視覺觀察和兩個影格之間的預估轉換,來預測不同影格中的視覺觀察。 ###############如上圖所示,可以假設在影格之間周圍的3D場景保持不變。由於相機是朝前看的,我們可以將先前幀的特徵體積規範化,並用它來預測後續的影像。 ############解碼器的視覺重建############第一幅圖顯示機器人在環境中移動,第二幅圖是輸入的視覺觀察結果,第三幅圖是使用3D特徵體積和預估畫面合成的視覺觀察效果。 ############對於輸入的視覺觀察,研究團隊對影像應用了大量的資料增強來提高模型的穩健性。 ######Ruihan Yan
Ruihan Yan是加州大學聖地牙哥分校的二年級博士生。在此之前,他於2019年在南開大學獲得軟體工程學士學位
他的研究興趣是強化學習、機器學習、機器人等。具體來說,他想建立智能體,利用來自不同來源的資訊進行決策。
Ge Yang
#Ge Yang本科畢業於耶魯大學物理和數學專業,並在芝加哥大學獲得物理學博士學位。目前是美國國家科學基金會人工智慧與基礎交互作用研究所(IAIFI)的博士後研究員。
Ge Yang的研究涉及兩組相關問題。第一組是透過重新檢視我們在神經網路中表徵知識的方式,以及知識如何在分佈中轉移,來改善學習。第二組是透過理論工具的觀點來看待強化學習,如神經正切核、非歐幾里德幾何和哈密頓動力學。
Xiaolong Wang
Xiaolong Wang是加州大學聖地牙哥分校ECE系的助理教授。他是TILOS國家科學基金會人工智慧研究所的機器人團隊的成員。
他在卡內基美隆大學獲得了機器人學的博士學位,並曾在加州大學柏克萊分校做博士後研究。
以上是UCSD、MIT等華人團隊教機器狗感知3D世界!搭M1晶片,爬樓跨障無所不能的詳細內容。更多資訊請關注PHP中文網其他相關文章!