物体目标导航 (Object Navigation) 是智能机器人的基本任务之一。在此任务中,智能机器人在一个未知的新环境中主动探索并找到人指定的某类物体。物体目标导航任务面向未来家庭服务机器人的应用需求,当人们需要机器人完成某些任务时,例如拿一杯水,机器人需要先寻找并移动到水杯的位置,进而帮人们取到水杯。
Habitat Challenge 挑战赛由 Meta AI 等机构联合举办,是物体目标导航领域的知名赛事之一,截至 2022 今年已连续举办 4 届,本次比赛共有 54 支参赛队参加。在比赛中,字节跳动 AI Lab-Research 团队的研究者针对现有方法的不足,提出了一种全新的物体目标导航框架。该框架巧妙地将模仿学习与传统方法结合,从一众方法中脱颖而出获得冠军。在关键指标 SPL 中大幅度超过了第二名及其他参赛队伍的结果。历史上该赛事的冠军队伍一般是 CMU、UC Berkerly、Facebook 等知名研究机构。
Test-Standard 榜单
Test-Challenge 榜单
Habitat Challenge 比赛官网:https://aihabitat.org/challenge/2022/
栖息地挑战赛排行榜:https://eval.ai/web/challenges/challenge-page/1615/leaderboard
1. 研究动机
目前的物体目标导航方法可以大致分为端到端的方法和基于地图的方法两大类。端到端的方法提取输入的传感器数据的特征,再送入一个深度学习模型中得到 action,此类方法一般基于强化学习或模仿学习(如图1Map-less methods);基于地图的方法一般会构建显式或隐式地图,然后通过强化学习等方法在地图上选取一个目标点,最后规划路径并得到 action(如图1Map-based method)。
图1端到端的方法(上)和基于地图的方法(下)流程示意图
在经过大量实验对比两类方法后,研究者们发现这两类方法各有优劣:端到端的方法不需要构建环境的地图,因此更加简洁,且不同场景的泛化能力更强。但由于网络需要学习编码环境的空间信息,依赖大量的训练数据,且难以同时学习一些简单的行为,比如在目标物体附近停下。而基于地图的方法使用栅格来存储特征或语义,具有显式空间信息,因此这类行为的学习门槛较低。但它非常依赖准确的定位结果,而且在一些如楼梯等环境中,需要人工设计感知和路径规划策略。
基于上述结论,字节跳动 AI Lab-Research 团队的研究者们希望将两类方法的优势结合起来。然而这两类方法的算法流程差异很大,难以直接组合;此外也很难设计出一种策略直接融合两种方法的输出。因此研究者设计了一种简单但有效的策略,使两类方法根据机器人的状态交替进行主动探索和物体搜索,从而将各自的优势最大程度地发挥出来。
2. 竞赛方法
算法主要有两个分支组成:基于概率地图的分支和端到端的分支。算法的输入是第一视角的 RGB-D 图像和机器人位姿,以及需要寻找的目标物体类别,输出是下一步动作 (action)。首先对 RGB 图像进行实例分割,并将其与其他原始输入数据一起传给两个分支。两个分支分别输出各自的 action,并由一个切换策略决定最终输出的 action。
图2 算法流程示意图
基于概率地图的分支
基于概率地图的分支借鉴了 Semantic linking map[2] 的思想,对作者原来发表在 IROS 机器人顶会的论文[3]的方法进行了简化。该分支根据输入的实例分割结果、深度图和机器人位姿,一方面构建 2D 语义地图;另一方面基于预先学习的物体间关联概率,对一张概率地图进行更新。
概率地图的更新方式包括以下几种:当检测到目标物体但没有足够把握时(置信概率 confidence score 低于阈值),此时应该继续靠近观察,因此概率地图上相应区域的概率值应该提高(如图 3 上方所示);同理,如果检测到和目标物体有关联的物体(例如桌子和椅子放在一起的概率比较高),则相应区域的概率值也会提高(如图 3 下方所示)。算法通过选择概率最高的区域作为目标点,鼓励机器人靠近潜在目标物体以及关联物体进一步观察,直到找到置信概率高于阈值的目标物体。
图3 概率地图更新方式示意图
端到端的分支
端到端分支的输入包括 RGB-D 图像、实例分割结果、机器人位姿,以及目标物体类别,并直接输出 action。端到端分支的主要作用是引导机器人像人类一样寻找物体,因此采用了 Habitat-Web[4] 方法的模型和训练流程。该方法基于模仿学习,通过在训练集中收集人类寻找物体的示例样本训练网络。
切换策略
切换策略主要根据概率地图和路径规划的结果,在概率地图分支和端到端分支输出的两个 action 中选择一个作为最终输出。当概率地图中没有概率大于阈值的栅格,机器人需要对环境进行探索;当地图上无法规划出可行路径时,此时机器人可能处于一些特殊环境(如楼梯),这两种情况下会采用端到端分支,使机器人具备足够的环境适应能力。其他情况则选择概率地图分支,充分发挥其在寻找目标物体方面的优势。
该切换策略的效果如视频所示,机器人一般情况下利用端到端分支高效地探索环境,一旦发现了可能的目标物体或关联物体,则切换到概率地图分支靠近观察,如果目标物体的置信概率大于阈值,则在目标物体处停下;否则该区域的概率值会不断降低,直到没有概率大于阈值的栅格,机器人重新切换回端到端继续探索。
从视频中可以看出,这种方法兼具了端到端方法和基于地图的方法的优势。两个分支各司其职,端到端方法主要负责探索环境;概率地图分支负责靠近感兴趣区域进行观察。因此该方法不仅能够在复杂场景探索(如楼梯),还降低了端到端分支的训练要求。
3. 总结
针对物体主动目标导航任务,字节跳动 AI Lab-Research 团队提出了一种结合经典概率地图与现代模仿学习的框架。该框架是对传统方法与端到端方法相结合的一次成功的尝试。在 Habitat 竞赛中,字节跳动 AI Lab-Research 团队提出的方法大幅度超出了第二名及其他参赛队伍的结果,证明了算法的先进性。通过将传统方法引入目前主流的 Embodied AI 端到端方法,来进一步弥补端到端方法的一些不足,从而使得智能机器人在帮助人、服务人的道路上更进一步。
近期,字节跳动 AI Lab-Research 团队在机器人领域的研究还被 CoRL、IROS、ICRA 等机器人顶会收录,其中包括物体位姿估计、物体抓取、目标导航、自动装配、人机交互等机器人核心任务。
【CoRL 2022】利用语义原语生成类别级形状和姿势估计
- 论文地址:https://arxiv.org/abs/2210.01112
【IROS 2022】使用实例编码变压器生成3D零件装配
- 论文地址:https://arxiv.org/abs/2207.01779
【IROS 2022】通过距离预测导航到看不见的环境中的物体
- 论文地址:https://arxiv.org/abs/2202.03735
【EMNLP 2022】迈向统一参考表达式生成和理解
- 论文地址:https://arxiv.org/pdf/2210.13076
【ICRA 2022】通过优先内存重置学习不同大小材料的设计和构建
- 论文地址:https://arxiv.org/abs/2204.05509
【IROS 2021】同步语义和碰撞学习用于六自由度抓取姿势估计
- 论文地址:https://arxiv.org/abs/2108.02425
【IROS 2021】学习在没有蓝图的情况下设计和建造桥梁
- 论文地址:https://arxiv.org/abs/2108.02439
4. 参考文献
[1] Yadav、Karmesh 等人。 “Habitat-Matterport 3D 语义数据集。” arXiv 预印本 arXiv:2210.05633 (2022)。
[2] Zeng、Zhen、Adrian Röfer 和 Odest Chadwicke Jenkins。 “用于主动视觉对象搜索的语义链接图。” 2020 年 IEEE 机器人与自动化国际会议 (ICRA)。 IEEE,2020。
[3]朱敏照,赵冰雷,孔涛。 “通过距离预测导航到看不见的环境中的对象。” arXiv 预印本 arXiv:2202.03735 (2022)。
[4] Ramrakhya,Ram 等人。 “栖息地网络:从大规模的人类演示中学习具体的对象搜索策略。” IEEE/CVF 计算机视觉和模式识别会议论文集。 2022 年。
5. 关于我们
字节跳动 AI Lab NLP&Research 专注于人工智能领域的前沿技术研究,涵盖了自然语言处理、机器人等多个技术研究领域,同时致力于将研究成果落地,为公司现有的产品和业务提供核心技术支持和服务。团队技术能力正通过火山引擎对外开放,赋能 AI 创新。
字节跳动 AI-Lab NLP&Research 联系方式
- 招聘咨询:fankaijing@bytedance.com
- 学术合作:luomanping@bytedance.com
以上是字节AI Lab核心技术赢得Habitat Challenge 2022主动导航冠军,该技术将传统方法与模仿学习相结合。的详细内容。更多信息请关注PHP中文网其他相关文章!

软AI(被定义为AI系统,旨在使用近似推理,模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。 但是这对业务意味着什么

答案很明确 - 只是云计算需要向云本地安全工具转变,AI需要专门为AI独特需求而设计的新型安全解决方案。 云计算和安全课程的兴起 在

企业家,并使用AI和Generative AI来改善其业务。同时,重要的是要记住生成的AI,就像所有技术一样,都是一个放大器 - 使得伟大和平庸,更糟。严格的2024研究O

解锁嵌入模型的力量:深入研究安德鲁·NG的新课程 想象一个未来,机器可以完全准确地理解和回答您的问题。 这不是科幻小说;多亏了AI的进步,它已成为R

大型语言模型(LLM)和不可避免的幻觉问题 您可能使用了诸如Chatgpt,Claude和Gemini之类的AI模型。 这些都是大型语言模型(LLM)的示例,在大规模文本数据集上训练的功能强大的AI系统

最近的研究表明,根据行业和搜索类型,AI概述可能导致有机交通下降15-64%。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。 新的

埃隆大学(Elon University)想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”,得出的结论是,大多数人担心AI系统加深的采用


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

PhpStorm Mac 版本
最新(2018.2.1 )专业的PHP集成开发工具

WebStorm Mac版
好用的JavaScript开发工具

Atom编辑器mac版下载
最流行的的开源编辑器

Dreamweaver Mac版
视觉化网页开发工具