搜索
首页科技周边人工智能上海数字大脑研究院发布国内首个多模态决策大模型DB1,可实现超复杂问题快速决策

近日,上海数字大脑研究院(以下简称“数研院”)推出首个数字大脑多模态决策大模型(简称DB1),填补了国内在此方面的空白,进一步验证了预训练模型在文本、图- 文、强化学习决策、运筹优化决策方面应用的潜力。目前,DB1代码我们已开源在Github,项目链接:https://github.com/Shanghai-Digital-Brain-Laboratory/BDM-DB1。

此前,数研院提出MADT(https://arxiv.org/abs/2112.02845)/MAT(https://arxiv.org/abs/2205.14953)等多智能体模型,在一些离线大模型通过序列建模,使用Transformer 模型在一些单/ 多智能体任务上取得了显着效果,并持续在该方向上进行研究探索。

过去几年,随着预训练大模型的兴起,学术界与产业界在预训练模型的参数量与多模态任务上不断取得新的进展,大规模预训练模型通过对海量数据和知识的深度建模,被认为是通往通用人工智能的重要路径之一。专注决策智能研究的数研院创新性地尝试将预训练模型的成功复制到决策任务上,并且取得了突破。

多模态决策大模型DB1

此前,DeepMind 推出Gato,将单智能体决策任务、多轮对话和图片- 文本生成任务统一到一个基于Transformer 的自回归问题上,并在604 个不同任务上取得了良好表现,显示出通过序列预测能够解决一些简单的强化学习决策问题,这在侧面验证了数研院在决策大模型研究方向的正确性。

此次,数研院推出的DB1,主要对Gato 进行了复现与验证,并从网络结构与参数量、任务类型与任务数量两方面尝试进行了改进:

  • 参数量与网络结构:DB1 参数量达12.1 亿。在参数量上尽量做到与 Gato 接近。整体来说,数研院使用了与Gato 类似的结构(相同的Decoder Block 数量、隐层大小等),但在FeedForwardNetwork 中,由于GeGLU 激活函数会额外引入1/3 的参数量,数研院为了接近Gato 的参数量,使用4 * n_embed 维的隐层状态经过GeGLU 激活函数后变成2 * n_embed 维的特征。在其他方面,我们与 Gato 的实现一样在输入输出编码端共享了 embedding 参数。不同于 Gato,在 layer normalization 的选择上我们采用了 PostNorm 的方案,同时我们在 Attention 上使用混合精度计算,提高了数值稳定性。
  • 任务类型与任务数量:DB1 的实验任务数量达870,较Gato 提升了44.04%,较Gato 在>=50%专家性能上提升2.23%。具体任务类型上,DB1 大部分继承了 Gato 的决策、图像和文本类任务,各类任务数量基本维持一致。但在决策类任务方面,DB1 另外引入了200 余个现实场景任务,即100 和200 节点规模的旅行商问题(TSP,此类任务在所有中国主要城市随机选择100-200 个地理位置作为结点表征)求解。

可以看到的是,DB1 整体表现已经与Gato 达到同一水平,并已经开始向更加贴近实际业务的需求领域体进化,很好地求解了NP-hard 的TSP 问题,而此前Gato 并未在此方向探索。

上海数字大脑研究院发布国内首个多模态决策大模型DB1,可实现超复杂问题快速决策DB1 (右) 与GATO (左)指标对比

上海数字大脑研究院发布国内首个多模态决策大模型DB1,可实现超复杂问题快速决策

DB1 在强化学习模拟环境上的多任务性能分布

相较于传统的决策算法,DB1 在跨任务决策能力和快速迁移能力上都有不错的表现。从跨任务决策能力和参数量来说,实现了从单一复杂任务的千万 - 亿级别参数量到多个复杂任务的十亿级别参数的跨越,并持续增长,并且具备解决复杂商业环境中的实际问题的充分能力。从迁移能力来说,DB1 完成了从智能预测到智能决策、从单智能体到多智能体的跨越,弥补传统方法在跨任务迁移方面的不足,使得在企业内部建立大模型成为可能。

不可否认的是,DB1 在开发过程也遇到了很多难点,数研院进行了大量尝试,可为业内在大规模模型训练及多任务训练数据存储方面提供一些标准解决路径。由于模型参数到达 10 亿参数规模且任务规模庞大,同时需要在超过 100T(300B Tokens)的专家数据上进行训练,普通的深度强化学习训练框架已无法满足在该种情况下的快速训练。为此,一方面,针对分布式训练,数研院充分考虑强化学习、运筹优化和大模型训练的计算结构,在单机多卡和多机多卡的环境下,极致利用硬件资源,巧妙设计模块间的通讯机制,尽可能提升模型的训练效率,将 870 个任务的训练时间缩短到了一周。另一方面,针对分布式随机采样,训练过程所需数据索引、存储、加载以及预处理也成为相应瓶颈,数研院在加载数据集时采用了延迟加载模式,以解决内存限制问题并尽可能充分利用可用内存。此外,在对加载数据进行预处理后,会将处理过的数据缓存至硬盘中,便于此后可直接加载预处理完成的数据,缩减重复预处理带来的时间和资源成本。

目前,国际国内头部企业与研究机构如 OpenAI、Google、Meta、华为、百度和达摩院等都已经进行了多模态大模型相关的研究并且有了一定商业化尝试,包括在自身产品中应用或者提供模型 API 和相关行业解决方案。相比之下,数研院更关注决策问题,同时支持游戏 AI 决策任务、运筹优化 TSP 求解任务、机器人决策控制任务、黑盒优化求解任务与多轮对话任务上进行应用尝试。

任务表现

运筹优化:TSP 问题求解

以中国部分城市为节点的 TSP 问题

强化学习任务视频演示

DB1 模型在完成 870 个不同决策任务的离线学习后,其评估结果显示有 76.67% 的任务达到或超过 50% 的专家水平。以下是一些任务的效果展示。

  • 电子游戏场景:DB1 可以接收 2D/3D 图像输入,并且很好地完成类如 Atari,Procgen 在内的 2D 像素游戏,同时对于 DMLab 这种与真实世界较为相似的 3D 图像输入任务,DB1 也表现出了良好的性能。

上海数字大脑研究院发布国内首个多模态决策大模型DB1,可实现超复杂问题快速决策

Atari Breakout

上海数字大脑研究院发布国内首个多模态决策大模型DB1,可实现超复杂问题快速决策


DMLab  Explore Object Locations

上海数字大脑研究院发布国内首个多模态决策大模型DB1,可实现超复杂问题快速决策

Procgen DogBall

  • 连续控制场景:在机器人领域的连续控制任务上,DB1 也能够建模连续动作的策略输出,并且良好地完成仿真任务上。

上海数字大脑研究院发布国内首个多模态决策大模型DB1,可实现超复杂问题快速决策

Metaworld PlateSlide

上海数字大脑研究院发布国内首个多模态决策大模型DB1,可实现超复杂问题快速决策

ModularRL Cheetah

文本 - 图像任务

  • 文本生成:给出一段文字提示,生成长文本描述
  • 输入提示:digital Brain Laboratory is a shanghai based
  • 生成结果:digital Brain Laboratory is a shanghai based company,我们正在寻找高技能和经验丰富的人才加入我们在中国上海的团队。
    我们是一个数字大脑实验室,我们正在寻找高技能和经验丰富的人才加入我们在中国上海的团队。
    这是一个为一家正在经历快速增长阶段的知名且成长中的公司工作并对市场产生影响的机会。
    这是一个全职、永久职位。
    我们正在寻找一位技术精湛、积极进取、经验丰富的软件工程师,能够在竞争激烈的环境中领导 5-10 人的团队
  • 图像描述生成:给定一张图片生成对应文本描述

上海数字大脑研究院发布国内首个多模态决策大模型DB1,可实现超复杂问题快速决策


当前决策大模型的限制与未来方向

虽然当前多模态决策预训练模型DB1取得了一定的效果,但仍存在一定的限制,如:跨域任务采样权重敏感、跨域知识迁移困难、长序列建模困难、专家数据强依赖等。虽然存在群体挑战,但目前阶段看来,多模态决策大模型是实现决策智能体从游戏走向更广泛的场景,从虚拟走向现实,在现实开放动态环境中进行自主与感觉决策,最终实现更加通用人工智能的关键探索方向之一。未来,数研院将持续迭代数字神经决策大模型,通过更大的参数量,更有效的序列表征,接入和支持更多任务,结合离线/线训练与定制,实现跨域、跨模态、跨任务的知识泛化与迁移最终,在现实应用场景下提供更通用、更高效、更美观的Decision智能决策解决方案。

以上是上海数字大脑研究院发布国内首个多模态决策大模型DB1,可实现超复杂问题快速决策的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
如何使用Huggingface Smollm建立个人AI助手如何使用Huggingface Smollm建立个人AI助手Apr 18, 2025 am 11:52 AM

利用“设备” AI的力量:建立个人聊天机器人CLI 在最近的过去,个人AI助手的概念似乎是科幻小说。 想象一下科技爱好者亚历克斯(Alex)梦见一个聪明的本地AI同伴 - 不依赖

通过斯坦福大学激动人心的新计划,精神健康的AI专心分析通过斯坦福大学激动人心的新计划,精神健康的AI专心分析Apr 18, 2025 am 11:49 AM

他们的首届AI4MH发射于2025年4月15日举行,著名的精神科医生兼神经科学家汤姆·因斯尔(Tom Insel)博士曾担任开幕式演讲者。 Insel博士因其在心理健康研究和技术方面的杰出工作而闻名

2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争Apr 18, 2025 am 11:44 AM

恩格伯特说:“我们要确保WNBA仍然是每个人,球员,粉丝和公司合作伙伴,感到安全,重视和授权的空间。” anno

Python内置数据结构的综合指南 - 分析VidhyaPython内置数据结构的综合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介绍 Python擅长使用编程语言,尤其是在数据科学和生成AI中。 在处理大型数据集时,有效的数据操作(存储,管理和访问)至关重要。 我们以前涵盖了数字和ST

与替代方案相比,Openai新型号的第一印象与替代方案相比,Openai新型号的第一印象Apr 18, 2025 am 11:41 AM

潜水之前,一个重要的警告:AI性能是非确定性的,并且特定于高度用法。简而言之,您的里程可能会有所不同。不要将此文章(或任何其他)文章作为最后一句话 - 目的是在您自己的情况下测试这些模型

AI投资组合|如何为AI职业建立投资组合?AI投资组合|如何为AI职业建立投资组合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投资组合:初学者和专业人士指南 创建引人注目的投资组合对于确保在人工智能(AI)和机器学习(ML)中的角色至关重要。 本指南为建立投资组合提供了建议

代理AI对安全操作可能意味着什么代理AI对安全操作可能意味着什么Apr 18, 2025 am 11:36 AM

结果?倦怠,效率低下以及检测和作用之间的差距扩大。这一切都不应该令任何从事网络安全工作的人感到震惊。 不过,代理AI的承诺已成为一个潜在的转折点。这个新课

Google与Openai:AI为学生打架Google与Openai:AI为学生打架Apr 18, 2025 am 11:31 AM

直接影响与长期伙伴关系? 两周前,Openai提出了强大的短期优惠,在2025年5月底之前授予美国和加拿大大学生免费访问Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境