物体目标导航 (Object Navigation) 是智能机器人的基本任务之一。在此任务中,智能机器人在一个未知的新环境中主动探索并找到人指定的某类物体。物体目标导航任务面向未来家庭服务机器人的应用需求,当人们需要机器人完成某些任务时,例如拿一杯水,机器人需要先寻找并移动到水杯的位置,进而帮人们取到水杯。
Habitat Challenge 挑战赛由 Meta AI 等机构联合举办,是物体目标导航领域的知名赛事之一,截至 2022 今年已连续举办 4 届,本次比赛共有 54 支参赛队参加。在比赛中,字节跳动 AI Lab-Research 团队的研究者针对现有方法的不足,提出了一种全新的物体目标导航框架。该框架巧妙地将模仿学习与传统方法结合,从一众方法中脱颖而出获得冠军。在关键指标 SPL 中大幅度超过了第二名及其他参赛队伍的结果。历史上该赛事的冠军队伍一般是 CMU、UC Berkerly、Facebook 等知名研究机构。
Test-Standard 榜单
Test-Challenge 榜单
Habitat Challenge 比赛官网:https://aihabitat.org/challenge/2022/
栖息地挑战赛排行榜:https://eval.ai/web/challenges/challenge-page/1615/leaderboard
1. 研究动机
目前的物体目标导航方法可以大致分为端到端的方法和基于地图的方法两大类。端到端的方法提取输入的传感器数据的特征,再送入一个深度学习模型中得到 action,此类方法一般基于强化学习或模仿学习(如图1Map-less methods);基于地图的方法一般会构建显式或隐式地图,然后通过强化学习等方法在地图上选取一个目标点,最后规划路径并得到 action(如图1Map-based method)。
图1端到端的方法(上)和基于地图的方法(下)流程示意图
在经过大量实验对比两类方法后,研究者们发现这两类方法各有优劣:端到端的方法不需要构建环境的地图,因此更加简洁,且不同场景的泛化能力更强。但由于网络需要学习编码环境的空间信息,依赖大量的训练数据,且难以同时学习一些简单的行为,比如在目标物体附近停下。而基于地图的方法使用栅格来存储特征或语义,具有显式空间信息,因此这类行为的学习门槛较低。但它非常依赖准确的定位结果,而且在一些如楼梯等环境中,需要人工设计感知和路径规划策略。
基于上述结论,字节跳动 AI Lab-Research 团队的研究者们希望将两类方法的优势结合起来。然而这两类方法的算法流程差异很大,难以直接组合;此外也很难设计出一种策略直接融合两种方法的输出。因此研究者设计了一种简单但有效的策略,使两类方法根据机器人的状态交替进行主动探索和物体搜索,从而将各自的优势最大程度地发挥出来。
2. 竞赛方法
算法主要有两个分支组成:基于概率地图的分支和端到端的分支。算法的输入是第一视角的 RGB-D 图像和机器人位姿,以及需要寻找的目标物体类别,输出是下一步动作 (action)。首先对 RGB 图像进行实例分割,并将其与其他原始输入数据一起传给两个分支。两个分支分别输出各自的 action,并由一个切换策略决定最终输出的 action。
图2 算法流程示意图
基于概率地图的分支
基于概率地图的分支借鉴了 Semantic linking map[2] 的思想,对作者原来发表在 IROS 机器人顶会的论文[3]的方法进行了简化。该分支根据输入的实例分割结果、深度图和机器人位姿,一方面构建 2D 语义地图;另一方面基于预先学习的物体间关联概率,对一张概率地图进行更新。
概率地图的更新方式包括以下几种:当检测到目标物体但没有足够把握时(置信概率 confidence score 低于阈值),此时应该继续靠近观察,因此概率地图上相应区域的概率值应该提高(如图 3 上方所示);同理,如果检测到和目标物体有关联的物体(例如桌子和椅子放在一起的概率比较高),则相应区域的概率值也会提高(如图 3 下方所示)。算法通过选择概率最高的区域作为目标点,鼓励机器人靠近潜在目标物体以及关联物体进一步观察,直到找到置信概率高于阈值的目标物体。
图3 概率地图更新方式示意图
端到端的分支
端到端分支的输入包括 RGB-D 图像、实例分割结果、机器人位姿,以及目标物体类别,并直接输出 action。端到端分支的主要作用是引导机器人像人类一样寻找物体,因此采用了 Habitat-Web[4] 方法的模型和训练流程。该方法基于模仿学习,通过在训练集中收集人类寻找物体的示例样本训练网络。
切换策略
切换策略主要根据概率地图和路径规划的结果,在概率地图分支和端到端分支输出的两个 action 中选择一个作为最终输出。当概率地图中没有概率大于阈值的栅格,机器人需要对环境进行探索;当地图上无法规划出可行路径时,此时机器人可能处于一些特殊环境(如楼梯),这两种情况下会采用端到端分支,使机器人具备足够的环境适应能力。其他情况则选择概率地图分支,充分发挥其在寻找目标物体方面的优势。
该切换策略的效果如视频所示,机器人一般情况下利用端到端分支高效地探索环境,一旦发现了可能的目标物体或关联物体,则切换到概率地图分支靠近观察,如果目标物体的置信概率大于阈值,则在目标物体处停下;否则该区域的概率值会不断降低,直到没有概率大于阈值的栅格,机器人重新切换回端到端继续探索。
从视频中可以看出,这种方法兼具了端到端方法和基于地图的方法的优势。两个分支各司其职,端到端方法主要负责探索环境;概率地图分支负责靠近感兴趣区域进行观察。因此该方法不仅能够在复杂场景探索(如楼梯),还降低了端到端分支的训练要求。
3. 总结
针对物体主动目标导航任务,字节跳动 AI Lab-Research 团队提出了一种结合经典概率地图与现代模仿学习的框架。该框架是对传统方法与端到端方法相结合的一次成功的尝试。在 Habitat 竞赛中,字节跳动 AI Lab-Research 团队提出的方法大幅度超出了第二名及其他参赛队伍的结果,证明了算法的先进性。通过将传统方法引入目前主流的 Embodied AI 端到端方法,来进一步弥补端到端方法的一些不足,从而使得智能机器人在帮助人、服务人的道路上更进一步。
近期,字节跳动 AI Lab-Research 团队在机器人领域的研究还被 CoRL、IROS、ICRA 等机器人顶会收录,其中包括物体位姿估计、物体抓取、目标导航、自动装配、人机交互等机器人核心任务。
【CoRL 2022】利用语义原语生成类别级形状和姿势估计
- 论文地址:https://arxiv.org/abs/2210.01112
【IROS 2022】使用实例编码变压器生成3D零件装配
- 论文地址:https://arxiv.org/abs/2207.01779
【IROS 2022】通过距离预测导航到看不见的环境中的物体
- 论文地址:https://arxiv.org/abs/2202.03735
【EMNLP 2022】迈向统一参考表达式生成和理解
- 论文地址:https://arxiv.org/pdf/2210.13076
【ICRA 2022】通过优先内存重置学习不同大小材料的设计和构建
- 论文地址:https://arxiv.org/abs/2204.05509
【IROS 2021】同步语义和碰撞学习用于六自由度抓取姿势估计
- 论文地址:https://arxiv.org/abs/2108.02425
【IROS 2021】学习在没有蓝图的情况下设计和建造桥梁
- 论文地址:https://arxiv.org/abs/2108.02439
4. 参考文献
[1] Yadav、Karmesh 等人。 “Habitat-Matterport 3D 语义数据集。” arXiv 预印本 arXiv:2210.05633 (2022)。
[2] Zeng、Zhen、Adrian Röfer 和 Odest Chadwicke Jenkins。 “用于主动视觉对象搜索的语义链接图。” 2020 年 IEEE 机器人与自动化国际会议 (ICRA)。 IEEE,2020。
[3]朱敏照,赵冰雷,孔涛。 “通过距离预测导航到看不见的环境中的对象。” arXiv 预印本 arXiv:2202.03735 (2022)。
[4] Ramrakhya,Ram 等人。 “栖息地网络:从大规模的人类演示中学习具体的对象搜索策略。” IEEE/CVF 计算机视觉和模式识别会议论文集。 2022 年。
5. 关于我们
字节跳动 AI Lab NLP&Research 专注于人工智能领域的前沿技术研究,涵盖了自然语言处理、机器人等多个技术研究领域,同时致力于将研究成果落地,为公司现有的产品和业务提供核心技术支持和服务。团队技术能力正通过火山引擎对外开放,赋能 AI 创新。
字节跳动 AI-Lab NLP&Research 联系方式
- 招聘咨询:fankaijing@bytedance.com
- 学术合作:luomanping@bytedance.com
以上是字节AI Lab核心技术赢得Habitat Challenge 2022主动导航冠军,该技术将传统方法与模仿学习相结合。的详细内容。更多信息请关注PHP中文网其他相关文章!

由于AI的快速整合而加剧了工作场所的迅速危机危机,要求战略转变以外的增量调整。 WTI的调查结果强调了这一点:68%的员工在工作量上挣扎,导致BUR

约翰·塞尔(John Searle)的中国房间论点:对AI理解的挑战 Searle的思想实验直接质疑人工智能是否可以真正理解语言或具有真正意识。 想象一个人,对下巴一无所知

与西方同行相比,中国的科技巨头在AI开发方面的课程不同。 他们不专注于技术基准和API集成,而是优先考虑“屏幕感知” AI助手 - AI T

MCP:赋能AI系统访问外部工具 模型上下文协议(MCP)让AI应用能够通过标准化接口与外部工具和数据源交互。由Anthropic开发并得到主要AI提供商的支持,MCP允许语言模型和智能体发现可用工具并使用合适的参数调用它们。然而,实施MCP服务器存在一些挑战,包括环境冲突、安全漏洞以及跨平台行为不一致。 Forbes文章《Anthropic的模型上下文协议是AI智能体发展的一大步》作者:Janakiram MSVDocker通过容器化解决了这些问题。基于Docker Hub基础设施构建的Doc

有远见的企业家采用的六种策略,他们利用尖端技术和精明的商业敏锐度来创造高利润的可扩展公司,同时保持控制权。本指南是针对有抱负的企业家的,旨在建立一个

Google Photos的新型Ultra HDR工具:改变图像增强的游戏规则 Google Photos推出了一个功能强大的Ultra HDR转换工具,将标准照片转换为充满活力的高动态范围图像。这种增强功能受益于摄影师

技术架构解决了新兴的身份验证挑战 代理身份集线器解决了许多组织仅在开始AI代理实施后发现的问题,即传统身份验证方法不是为机器设计的

(注意:Google是我公司的咨询客户,Moor Insights&Strateging。) AI:从实验到企业基金会 Google Cloud Next 2025展示了AI从实验功能到企业技术的核心组成部分的演变,


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

WebStorm Mac版
好用的JavaScript开发工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

记事本++7.3.1
好用且免费的代码编辑器