位元組AI Lab核心技術贏得Habitat Challenge 2022主動導航冠軍，該技術將傳統方法與模仿學習相結合。-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

位元組AI Lab核心技術贏得Habitat Challenge 2022主動導航冠軍，該技術將傳統方法與模仿學習相結合。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 08, 2023 pm 11:37 PM

機器人ai lab

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

物件目標導航 (Object Navigation) 是智慧機器人的基本任務之一。在這個任務中，智慧機器人在一個未知的新環境中主動探索並找到人類指定的某一類物件。物體目標導航任務面向未來家庭服務機器人的應用需求，當人們需要機器人完成某些任務時，例如拿一杯水，機器人需要先尋找並移動到水杯的位置，進而幫人們取水杯。

Habitat Challenge 挑戰賽由 Meta AI 等機構共同舉辦，是物體目標導航領域的知名賽事之一，截至 2022 今年已連續舉辦４屆，本次比賽共有 54 支參賽隊伍參加。在比賽中，位元組跳動 AI Lab-Research 團隊的研究者針對現有方法的不足，提出了一個全新的物件目標導航框架。該框架巧妙地將模仿學習與傳統方法結合，從一眾方法中脫穎而出獲得冠軍。在關鍵指標 SPL 中大幅超過了第二名及其他參賽隊伍的結果。歷史上該賽事的冠軍隊伍一般是 CMU、UC Berkerly、Facebook 等知名研究機構。

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

Test-Standard 名單

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

Test-Challenge 名單

Habitat Challenge 競賽官網：https://aihabitat.org/challenge/2022/

Habitat Challenge 比賽LeaderBoard：https://eval.ai/web/challenges/challenge-page/1615/leaderboard

1 . 研究動機

目前的物件目標導航方法可以大致分為端到端的方法和基於地圖的方法兩大類。端到端的方法提取輸入的感測器資料的特徵，再送入一個深度學習模型中得到action，此類方法一般基於強化學習或模仿學習（如圖１Map-less methods）；基於地圖的方法一般會構建顯式或隱式地圖，然後透過強化學習等方法在地圖上選取一個目標點，最後規劃路徑並得到action（如圖１Map-based method）。

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

圖１端到端的方法(上)和基於地圖的方法（下）流程示意圖

在經過大量實驗在比較兩類方法後，研究者發現這兩類方法各有優劣：端到端的方法不需要建構環境的地圖，因此更簡潔，不同場景的泛化能力更強。但由於網路需要學習編碼環境的空間訊息，依賴大量的訓練數據，且難以同時學習一些簡單的行為，例如在目標物體附近停下來。而基於地圖的方法使用柵格來儲存特徵或語義，具有顯式空間訊息，因此這類行為的學習門檻較低。但它非常依賴準確的定位結果，而且在一些如樓梯等環境中，需要人工設計感知和路徑規劃策略。

基於上述結論，位元組跳動 AI Lab-Research 團隊的研究者們希望將兩類方法的優勢結合起來。然而這兩類方法的演算法流程差異很大，難以直接組合；此外也很難設計出一種策略直接融合兩種方法的輸出。因此研究者設計了一種簡單但有效的策略，使兩類方法根據機器人的狀態交替進行主動探索和物體搜索，從而將各自的優勢最大程度地發揮出來。

2. 競賽方法

演算法主要有兩個分支組成：基於機率地圖的分支和端到端的分支。演算法的輸入是第一視角的 RGB-D 影像和機器人位姿，以及需要尋找的目標物件類別，輸出是下一步動作 (action)。首先對 RGB 影像進行實例分割，並將其與其他原始輸入資料一起傳給兩個分支。兩個分支分別輸出各自的 action，並由一個切換策略決定最終輸出的 action。

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

圖2 演算法流程示意圖

基於機率地圖的分支

基於機率地圖的分支借鑒了Semantic linking map[2] 的思想，對作者原來發表在IROS 機器人頂會的論文[3]的方法進行了簡化。此分支根據輸入的實例分割結果、深度圖和機器人位姿，一方面建立 2D 語意地圖；另一方面基於預先學習的物件間關聯機率，對一張機率地圖進行更新。

機率地圖的更新方式包括以下幾種：當檢測到目標物體但沒有足夠把握時(置信機率confidence score 低於閾值)，此時應該繼續靠近觀察，因此機率地圖上相應區域的機率值應該提高（如圖3 上方所示）；同理，如果檢測到和目標物體有關聯的物體（例如桌子和椅子放在一起的機率比較高），則相應區域的機率值也會提高（如圖3 下方）。演算法透過選擇機率最高的區域作為目標點，鼓勵機器人靠近潛在目標物體以及關聯物體進一步觀察，直到找到置信機率高於閾值的目標物體。

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

圖3 機率地圖更新方式示意圖

端到端的分支

端對端分支的輸入包括RGB-D 影像、實例分割結果、機器人位姿，以及目標物件類別，並直接輸出action。端對端分支的主要作用是引導機器人像人類一樣尋找物體，因此採用了 Habitat-Web[4] 方法的模型和訓練流程。此方法基於模仿學習，透過在訓練集中收集人類尋找物體的範例樣本訓練網路。

切換策略

切換策略主要根據機率地圖和路徑規劃的結果，在機率圖分支和端對端分支輸出的兩個action 中選擇一個作為最終輸出。當機率地圖中沒有機率大於閾值的柵格，機器人需要對環境進行探索；當地圖上無法規劃出可行路徑時，此時機器人可能處於一些特殊環境（如樓梯），這兩種情況下會採用端到端分支，使機器人具備足夠的環境適應能力。其他情況則選擇機率圖分支，充分發揮其在尋找目標物體方面的優勢。

此切換策略的效果如影片所示，機器人一般情況下利用端到端分支高效地探索環境，一旦發現了可能的目標物體或關聯物體，則切換到機率地圖分支靠近觀察，如果目標物體的置信機率大於閾值，則在目標物體處停下來；否則該區域的機率值會不斷降低，直到沒有機率大於閾值的柵格，機器人重新切換回端到端繼續探索。

從影片中可以看出，這種方法兼具了端到端方法和基於地圖的方法的優勢。兩個分支各司其職，端到端方法主要負責探索環境；機率地圖分支負責靠近感興趣區域進行觀察。因此該方法不僅能夠在複雜場景中探索（如樓梯），還降低了端到端分支的訓練要求。

3. 總結

針對物體主動目標導航任務，位元組跳動 AI Lab-Research 團隊提出了一種結合經典機率地圖與現代模仿學習的框架。該框架是對傳統方法與端到端方法相結合的成功的嘗試。在 Habitat 競賽中，位元組跳動 AI Lab-Research 團隊提出的方法大幅超出了第二名及其他參賽隊伍的結果，證明了演算法的先進性。透過將傳統方法引入目前主流的 Embodied AI 端到端方法，來進一步彌補端到端方法的一些不足，從而使得智慧機器人在幫助人、服務人的道路上更進一步。

近期，位元組跳動AI Lab-Research 團隊在機器人領域的研究也被CoRL、IROS、ICRA 等機器人頂會收錄，其中包括物件位姿估計、物件抓取、目標導航、自動組裝、人機互動等機器人核心任務。

【CoRL 2022】Generative Category-Level Shape and Pose Estimation with Semantic Primitives

論文地址：https://arxiv.org/abs/2210.01112

【IROS 2022】3D Part Assembly Generation with Instance Encoded Transformer

論文網址：https://arxiv.org/abs/2207.01779

【IROS 2022 】Navigating to Objects in Unseen Environments by Distance Prediction

論文地址：https://arxiv.org/abs/2202.03735

【EMNLP 2022】Towards Unifying Reference Expression Generation and Comprehension

論文網址：https://arxiv.org/pdf/2210.13076

【ICRA 2022】Learning Design and Construction with Varying-Sized Materials via Prioritized Memory Resets

論文地址：https://arxiv.org/abs/2204.05509

#【IROS 2021】Simultaneous Semantic and Collision Learning for 6-DoF Grasp Pose Estimation

#論文網址：httpshttps ://arxiv.org/abs/2108.02425

【IROS 2021】Learning to Design and Construct Bridge without Blueprint

#論文網址：https://arxiv.org /abs/2108.02439

4. 參考文獻

[1] Yadav, Karmesh, et al. "Habitat-Matterport 3D Semantics Dataset." arXiv preprint arXiv:2210.05633 (202) .

[2] Zeng, Zhen, Adrian Röfer, and Odest Chadwicke Jenkins. "Semantic linking maps for active visual object search." 2020 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2020. IEEE,

[3] Minzhao Zhu, Binglei Zhao, and Tao Kong. "Navigating to Objects in Unseen Environments by Distance Prediction." arXiv preprint arXiv:2202.03735 (20#arXiv preprint arXiv:2202.03735

(2022).

#[4] Ramrakhya, Ram, et al. "Habitat-Web: Learning Embodied Object-Search Strategies from Human Demonstrations at Scale." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

#5. 關於我們

位元組跳動AI Lab NLP&Research 專注於人工智慧領域的前沿技術研究，涵蓋了自然語言處理、機器人等多個技術研究領域，同時致力於將研究成果落地，為本公司現有的產品和業務提供核心技術支援和服務。團隊技術能力正透過火山引擎對外開放，賦能 AI 創新。

位元組跳動AI-Lab NLP&Research 聯絡方式

學術合作：luomanping@bytedance.com
#

以上是位元組AI Lab核心技術贏得Habitat Challenge 2022主動導航冠軍，該技術將傳統方法與模仿學習相結合。的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞，但是在供應鏈行業中確實意味著什麼？供應鏈管理協會（ASCM）首席執行官安倍·埃什肯納齊（Abe Eshkenazi）表示，它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。本週五在德克薩斯州奧斯汀，Bittensor最終遊戲峰會標誌著一個關鍵時刻，將分散的AI（DEAI）從理論轉變為實際應用。與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰企業AI的應用面臨一項重大挑戰：構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題，允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。這個新推出的工具包包含五個關鍵微服務： NeMo Customizer 處理大型語言模型的微調，具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制，以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI：藝術與設計的未來畫卷人工智能(AI)正以前所未有的方式改變藝術與設計領域，其影響已不僅限於業餘愛好者，更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師，例如廣告、社交媒體圖片生成和網頁設計。然而，專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具，探索新的美學可能性，融合不同的風格，創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務，提出不同的設計元素並提供創意輸入。 AI支持風格遷移，即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作：從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名，它通過創新使用Agentic AI來引領工作場所革命。最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。定義代理AI 黃d

對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎？這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。正如科技Edvocate的馬修·林奇（Matthew Lynch）所指出的那樣

原型：美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰，這或許是由於預算削減導致的。據《自然》雜誌報導，2025年1月至3月期間，美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示，75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。過去幾個月，數百項NIH和NSF的撥款被終止，NIH今年的新撥款減少了約23億美元，下降幅度接近三分之一。洩露的預算提案顯示，特朗普政府正在考慮大幅削減科學機構的預算，削減幅度可能高達50%。基礎研究領域的動盪也影響了美國的一大優勢：吸引海外人才。 35