搜尋
首頁科技週邊人工智慧位元組AI Lab核心技術贏得Habitat Challenge 2022主動導航冠軍,該技術將傳統方法與模仿學習相結合。

Habitat Challenge 2022冠军技术:字节AI Lab提出融合传统和模仿学习的主动导航

物件目標導航 (Object Navigation) 是智慧機器人的基本任務之一。在這個任務中,智慧機器人在一個未知的新環境中主動探索並找到人類指定的某一類物件。物體目標導航任務面向未來家庭服務機器人的應用需求,當人們需要機器人完成某些任務時,例如拿一杯水,機器人需要先尋找並移動到水杯的位置,進而幫人們取水杯。

Habitat Challenge 挑戰賽由 Meta AI 等機構共同舉辦,是物體目標導航領域的知名賽事之一,截至 2022 今年已連續舉辦 4 屆,本次比賽共有 54 支參賽隊伍參加。在比賽中,位元組跳動 AI Lab-Research 團隊的研究者針對現有方法的不足,提出了一個全新的物件目標導航框架。該框架巧妙地將模仿學習與傳統方法結合,從一眾方法中脫穎而出獲得冠軍。在關鍵指標 SPL 中大幅超過了第二名及其他參賽隊伍的結果。歷史上該賽事的冠軍隊伍一般是 CMU、UC Berkerly、Facebook 等知名研究機構。

Habitat Challenge 2022冠军技术:字节AI Lab提出融合传统和模仿学习的主动导航

Test-Standard 名單

Habitat Challenge 2022冠军技术:字节AI Lab提出融合传统和模仿学习的主动导航

Test-Challenge 名單

Habitat Challenge 競賽官網:https://aihabitat.org/challenge/2022/

Habitat Challenge 比賽LeaderBoard:https://eval.ai/web/challenges/challenge-page/1615/leaderboard

1 .  研究動機

目前的物件目標導航方法可以大致分為端到端的方法和基於地圖的方法兩大類。端到端的方法提取輸入的感測器資料的特徵,再送入一個深度學習模型中得到action,此類方法一般基於強化學習或模仿學習(如圖1Map-less methods);基於地圖的方法一般會構建顯式或隱式地圖,然後透過強化學習等方法在地圖上選取一個目標點,最後規劃路徑並得到action(如圖1Map-based method)。

Habitat Challenge 2022冠军技术:字节AI Lab提出融合传统和模仿学习的主动导航

圖1端到端的方法(上)和基於地圖的方法(下)流程示意圖

在經過大量實驗在比較兩類方法後,研究者發現這兩類方法各有優劣:端到端的方法不需要建構環境的地圖,因此更簡潔,不同場景的泛化能力更強。但由於網路需要學習編碼環境的空間訊息,依賴大量的訓練數據,且難以同時學習一些簡單的行為,例如在目標物體附近停下來。而基於地圖的方法使用柵格來儲存特徵或語義,具有顯式空間訊息,因此這類行為的學習門檻較低。但它非常依賴準確的定位結果,而且在一些如樓梯等環境中,需要人工設計感知和路徑規劃策略。

基於上述結論,位元組跳動 AI Lab-Research 團隊的研究者們希望將兩類方法的優勢結合起來。然而這兩類方法的演算法流程差異很大,難以直接組合;此外也很難設計出一種策略直接融合兩種方法的輸出。因此研究者設計了一種簡單但有效的策略,使兩類方法根據機器人的狀態交替進行主動探索和物體搜索,從而將各自的優勢最大程度地發揮出來。

2. 競賽方法

演算法主要有兩個分支組成:基於機率地圖的分支和端到端的分支。演算法的輸入是第一視角的 RGB-D 影像和機器人位姿,以及需要尋找的目標物件類別,輸出是下一步動作 (action)。首先對 RGB 影像進行實例分割,並將其與其他原始輸入資料一起傳給兩個分支。兩個分支分別輸出各自的 action,並由一個切換策略決定最終輸出的 action。

Habitat Challenge 2022冠军技术:字节AI Lab提出融合传统和模仿学习的主动导航

圖2 演算法流程示意圖

#

基於機率地圖的分支

基於機率地圖的分支借鑒了Semantic linking map[2] 的思想,對作者原來發表在IROS 機器人頂會的論文[3]的方法進行了簡化。此分支根據輸入的實例分割結果、深度圖和機器人位姿,一方面建立 2D 語意地圖;另一方面基於預先學習的物件間關聯機率,對一張機率地圖進行更新。

機率地圖的更新方式包括以下幾種:當檢測到目標物體但沒有足夠把握時(置信機率confidence score 低於閾值),此時應該繼續靠近觀察,因此機率地圖上相應區域的機率值應該提高(如圖3 上方所示);同理,如果檢測到和目標物體有關聯的物體(例如桌子和椅子放在一起的機率比較高),則相應區域的機率值也會提高(如圖3 下方)。演算法透過選擇機率最高的區域作為目標點,鼓勵機器人靠近潛在目標物體以及關聯物體進一步觀察,直到找到置信機率高於閾值的目標物體。

Habitat Challenge 2022冠军技术:字节AI Lab提出融合传统和模仿学习的主动导航

圖3 機率地圖更新方式示意圖

端到端的分支

端對端分支的輸入包括RGB-D 影像、實例分割結果、機器人位姿,以及目標物件類別,並直接輸出action。端對端分支的主要作用是引導機器人像人類一樣尋找物體,因此採用了 Habitat-Web[4] 方法的模型和訓練流程。此方法基於模仿學習,透過在訓練集中收集人類尋找物體的範例樣本訓練網路。

切換策略

切換策略主要根據機率地圖和路徑規劃的結果,在機率圖分支和端對端分支輸出的兩個action 中選擇一個作為最終輸出。當機率地圖中沒有機率大於閾值的柵格,機器人需要對環境進行探索;當地圖上無法規劃出可行路徑時,此時機器人可能處於一些特殊環境(如樓梯),這兩種情況下會採用端到端分支,使機器人具備足夠的環境適應能力。其他情況則選擇機率圖分支,充分發揮其在尋找目標物體方面的優勢。

此切換策略的效果如影片所示,機器人一般情況下利用端到端分支高效地探索環境,一旦發現了可能的目標物體或關聯物體,則切換到機率地圖分支靠近觀察,如果目標物體的置信機率大於閾值,則在目標物體處停下來;否則該區域的機率值會不斷降低,直到沒有機率大於閾值的柵格,機器人重新切換回端到端繼續探索。

從影片中可以看出,這種方法兼具了端到端方法和基於地圖的方法的優勢。兩個分支各司其職,端到端方法主要負責探索環境;機率地圖分支負責靠近感興趣區域進行觀察。因此該方法不僅能夠在複雜場景中探索(如樓梯),還降低了端到端分支的訓練要求。

3.  總結

針對物體主動目標導航任務,位元組跳動 AI Lab-Research 團隊提出了一種結合經典機率地圖與現代模仿學習的框架。該框架是對傳統方法與端到端方法相結合的成功的嘗試。在 Habitat 競賽中,位元組跳動 AI Lab-Research 團隊提出的方法大幅超出了第二名及其他參賽隊伍的結果,證明了演算法的先進性。透過將傳統方法引入目前主流的 Embodied AI 端到端方法,來進一步彌補端到端方法的一些不足,從而使得智慧機器人在幫助人、服務人的道路上更進一步。

近期,位元組跳動AI Lab-Research 團隊在機器人領域的研究也被CoRL、IROS、ICRA 等機器人頂會收錄,其中包括物件位姿估計、物件抓取、目標導航、自動組裝、人機互動等機器人核心任務。

【CoRL 2022】Generative Category-Level Shape and Pose Estimation with Semantic Primitives

  • 論文地址:https://arxiv.org/abs/2210.01112

【IROS 2022】3D Part Assembly Generation with Instance Encoded Transformer

  • 論文網址:https://arxiv.org/abs/2207.01779

【IROS 2022 】Navigating to Objects in Unseen Environments by Distance Prediction

  • 論文地址:https://arxiv.org/abs/2202.03735

【EMNLP 2022】Towards Unifying Reference Expression Generation and Comprehension

  • 論文網址:https://arxiv.org/pdf/2210.13076

【ICRA 2022】Learning Design and Construction with Varying-Sized Materials via Prioritized Memory Resets

  • 論文地址:https://arxiv.org/abs/2204.05509

#【IROS 2021】Simultaneous Semantic and Collision Learning for 6-DoF Grasp Pose Estimation

  • #論文網址:httpshttps ://arxiv.org/abs/2108.02425

【IROS 2021】Learning to Design and Construct Bridge without Blueprint

  • #論文網址:https://arxiv.org /abs/2108.02439

4.  參考文獻

[1] Yadav, Karmesh, et al. "Habitat-Matterport 3D Semantics Dataset." arXiv preprint arXiv:2210.05633 (202) .

[2] Zeng, Zhen, Adrian Röfer, and Odest Chadwicke Jenkins. "Semantic linking maps for active visual object search." 2020 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2020. IEEE,

[3] Minzhao Zhu, Binglei Zhao, and Tao Kong. "Navigating to Objects in Unseen Environments by Distance Prediction." arXiv preprint arXiv:2202.03735 (20#arXiv preprint arXiv:2202.03735

(2022).

#[4] Ramrakhya, Ram, et al. "Habitat-Web: Learning Embodied Object-Search Strategies from Human Demonstrations at Scale." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

#5.  關於我們

位元組跳動AI Lab NLP&Research 專注於人工智慧領域的前沿技術研究,涵蓋了自然語言處理、機器人等多個技術研究領域,同時致力於將研究成果落地,為本公司現有的產品和業務提供核心技術支援和服務。團隊技術能力正透過火山引擎對外開放,賦能 AI 創新。

位元組跳動AI-Lab NLP&Research 聯絡方式

    ##招募諮詢:fankaijing@bytedance.com
  • 學術合作:luomanping@bytedance.com
  • #

以上是位元組AI Lab核心技術贏得Habitat Challenge 2022主動導航冠軍,該技術將傳統方法與模仿學習相結合。的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境