物件目標導航 (Object Navigation) 是智慧機器人的基本任務之一。在這個任務中,智慧機器人在一個未知的新環境中主動探索並找到人類指定的某一類物件。物體目標導航任務面向未來家庭服務機器人的應用需求,當人們需要機器人完成某些任務時,例如拿一杯水,機器人需要先尋找並移動到水杯的位置,進而幫人們取水杯。
Habitat Challenge 挑戰賽由 Meta AI 等機構共同舉辦,是物體目標導航領域的知名賽事之一,截至 2022 今年已連續舉辦 4 屆,本次比賽共有 54 支參賽隊伍參加。在比賽中,位元組跳動 AI Lab-Research 團隊的研究者針對現有方法的不足,提出了一個全新的物件目標導航框架。該框架巧妙地將模仿學習與傳統方法結合,從一眾方法中脫穎而出獲得冠軍。在關鍵指標 SPL 中大幅超過了第二名及其他參賽隊伍的結果。歷史上該賽事的冠軍隊伍一般是 CMU、UC Berkerly、Facebook 等知名研究機構。
Test-Standard 名單
Test-Challenge 名單
Habitat Challenge 競賽官網:https://aihabitat.org/challenge/2022/
Habitat Challenge 比賽LeaderBoard:https://eval.ai/web/challenges/challenge-page/1615/leaderboard
1 . 研究動機
目前的物件目標導航方法可以大致分為端到端的方法和基於地圖的方法兩大類。端到端的方法提取輸入的感測器資料的特徵,再送入一個深度學習模型中得到action,此類方法一般基於強化學習或模仿學習(如圖1Map-less methods);基於地圖的方法一般會構建顯式或隱式地圖,然後透過強化學習等方法在地圖上選取一個目標點,最後規劃路徑並得到action(如圖1Map-based method)。
圖1端到端的方法(上)和基於地圖的方法(下)流程示意圖
在經過大量實驗在比較兩類方法後,研究者發現這兩類方法各有優劣:端到端的方法不需要建構環境的地圖,因此更簡潔,不同場景的泛化能力更強。但由於網路需要學習編碼環境的空間訊息,依賴大量的訓練數據,且難以同時學習一些簡單的行為,例如在目標物體附近停下來。而基於地圖的方法使用柵格來儲存特徵或語義,具有顯式空間訊息,因此這類行為的學習門檻較低。但它非常依賴準確的定位結果,而且在一些如樓梯等環境中,需要人工設計感知和路徑規劃策略。
基於上述結論,位元組跳動 AI Lab-Research 團隊的研究者們希望將兩類方法的優勢結合起來。然而這兩類方法的演算法流程差異很大,難以直接組合;此外也很難設計出一種策略直接融合兩種方法的輸出。因此研究者設計了一種簡單但有效的策略,使兩類方法根據機器人的狀態交替進行主動探索和物體搜索,從而將各自的優勢最大程度地發揮出來。
2. 競賽方法
演算法主要有兩個分支組成:基於機率地圖的分支和端到端的分支。演算法的輸入是第一視角的 RGB-D 影像和機器人位姿,以及需要尋找的目標物件類別,輸出是下一步動作 (action)。首先對 RGB 影像進行實例分割,並將其與其他原始輸入資料一起傳給兩個分支。兩個分支分別輸出各自的 action,並由一個切換策略決定最終輸出的 action。
圖2 演算法流程示意圖
#基於機率地圖的分支
基於機率地圖的分支借鑒了Semantic linking map[2] 的思想,對作者原來發表在IROS 機器人頂會的論文[3]的方法進行了簡化。此分支根據輸入的實例分割結果、深度圖和機器人位姿,一方面建立 2D 語意地圖;另一方面基於預先學習的物件間關聯機率,對一張機率地圖進行更新。
機率地圖的更新方式包括以下幾種:當檢測到目標物體但沒有足夠把握時(置信機率confidence score 低於閾值),此時應該繼續靠近觀察,因此機率地圖上相應區域的機率值應該提高(如圖3 上方所示);同理,如果檢測到和目標物體有關聯的物體(例如桌子和椅子放在一起的機率比較高),則相應區域的機率值也會提高(如圖3 下方)。演算法透過選擇機率最高的區域作為目標點,鼓勵機器人靠近潛在目標物體以及關聯物體進一步觀察,直到找到置信機率高於閾值的目標物體。
圖3 機率地圖更新方式示意圖
端到端的分支
端對端分支的輸入包括RGB-D 影像、實例分割結果、機器人位姿,以及目標物件類別,並直接輸出action。端對端分支的主要作用是引導機器人像人類一樣尋找物體,因此採用了 Habitat-Web[4] 方法的模型和訓練流程。此方法基於模仿學習,透過在訓練集中收集人類尋找物體的範例樣本訓練網路。
切換策略
切換策略主要根據機率地圖和路徑規劃的結果,在機率圖分支和端對端分支輸出的兩個action 中選擇一個作為最終輸出。當機率地圖中沒有機率大於閾值的柵格,機器人需要對環境進行探索;當地圖上無法規劃出可行路徑時,此時機器人可能處於一些特殊環境(如樓梯),這兩種情況下會採用端到端分支,使機器人具備足夠的環境適應能力。其他情況則選擇機率圖分支,充分發揮其在尋找目標物體方面的優勢。
此切換策略的效果如影片所示,機器人一般情況下利用端到端分支高效地探索環境,一旦發現了可能的目標物體或關聯物體,則切換到機率地圖分支靠近觀察,如果目標物體的置信機率大於閾值,則在目標物體處停下來;否則該區域的機率值會不斷降低,直到沒有機率大於閾值的柵格,機器人重新切換回端到端繼續探索。
從影片中可以看出,這種方法兼具了端到端方法和基於地圖的方法的優勢。兩個分支各司其職,端到端方法主要負責探索環境;機率地圖分支負責靠近感興趣區域進行觀察。因此該方法不僅能夠在複雜場景中探索(如樓梯),還降低了端到端分支的訓練要求。
3. 總結
針對物體主動目標導航任務,位元組跳動 AI Lab-Research 團隊提出了一種結合經典機率地圖與現代模仿學習的框架。該框架是對傳統方法與端到端方法相結合的成功的嘗試。在 Habitat 競賽中,位元組跳動 AI Lab-Research 團隊提出的方法大幅超出了第二名及其他參賽隊伍的結果,證明了演算法的先進性。透過將傳統方法引入目前主流的 Embodied AI 端到端方法,來進一步彌補端到端方法的一些不足,從而使得智慧機器人在幫助人、服務人的道路上更進一步。
近期,位元組跳動AI Lab-Research 團隊在機器人領域的研究也被CoRL、IROS、ICRA 等機器人頂會收錄,其中包括物件位姿估計、物件抓取、目標導航、自動組裝、人機互動等機器人核心任務。
【CoRL 2022】Generative Category-Level Shape and Pose Estimation with Semantic Primitives
- 論文地址:https://arxiv.org/abs/2210.01112
【IROS 2022】3D Part Assembly Generation with Instance Encoded Transformer
- 論文網址:https://arxiv.org/abs/2207.01779
【IROS 2022 】Navigating to Objects in Unseen Environments by Distance Prediction
- 論文地址:https://arxiv.org/abs/2202.03735
【EMNLP 2022】Towards Unifying Reference Expression Generation and Comprehension
- 論文網址:https://arxiv.org/pdf/2210.13076
【ICRA 2022】Learning Design and Construction with Varying-Sized Materials via Prioritized Memory Resets
- 論文地址:https://arxiv.org/abs/2204.05509
#【IROS 2021】Simultaneous Semantic and Collision Learning for 6-DoF Grasp Pose Estimation
- #論文網址:httpshttps ://arxiv.org/abs/2108.02425
【IROS 2021】Learning to Design and Construct Bridge without Blueprint
- #論文網址:https://arxiv.org /abs/2108.02439
4. 參考文獻
[1] Yadav, Karmesh, et al. "Habitat-Matterport 3D Semantics Dataset." arXiv preprint arXiv:2210.05633 (202) .
[2] Zeng, Zhen, Adrian Röfer, and Odest Chadwicke Jenkins. "Semantic linking maps for active visual object search." 2020 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2020. IEEE,
[3] Minzhao Zhu, Binglei Zhao, and Tao Kong. "Navigating to Objects in Unseen Environments by Distance Prediction." arXiv preprint arXiv:2202.03735 (20#arXiv preprint arXiv:2202.03735
(2022).#[4] Ramrakhya, Ram, et al. "Habitat-Web: Learning Embodied Object-Search Strategies from Human Demonstrations at Scale." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
#5. 關於我們
位元組跳動AI Lab NLP&Research 專注於人工智慧領域的前沿技術研究,涵蓋了自然語言處理、機器人等多個技術研究領域,同時致力於將研究成果落地,為本公司現有的產品和業務提供核心技術支援和服務。團隊技術能力正透過火山引擎對外開放,賦能 AI 創新。
位元組跳動AI-Lab NLP&Research 聯絡方式
- ##招募諮詢:fankaijing@bytedance.com
- 學術合作:luomanping@bytedance.com
- #
以上是位元組AI Lab核心技術贏得Habitat Challenge 2022主動導航冠軍,該技術將傳統方法與模仿學習相結合。的詳細內容。更多資訊請關注PHP中文網其他相關文章!

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

WebStorm Mac版
好用的JavaScript開發工具