搜索
首页科技周边人工智能Transformers+世界模型,竟能拯救深度强化学习?

Transformers+世界模型,竟能拯救深度强化学习?

May 04, 2023 am 09:19 AM
世界模型建模iris

​很多人都知道,当年打败李世石、柯洁等一众国际顶尖棋手的AlphaGo一共迭代了三个版本,分别是战胜李世石的一代目AlphaGo Lee、战胜柯洁的二代目AlphaGo Master,以及吊打前两代的三代目AlphaGo Zero。

AlphaGo的棋艺能够逐代递增,背后其实是在AI技术上一个出现了明显的变化趋势,就是强化学习的比重越来越大。

到了近几年,强化学习又发生了一次「进化」,人们把「进化」后的强化学习,称为深度强化学习。

但深度强化学习代理的样本效率低下,这极大地限制了它们在实际问题中的应用。

最近,许多基于模型的方法被设计来解决这个问题,在世界模型的想象中学习是最突出的方法之一。

然而,虽然与模拟环境几乎无限的交互听起来很吸引人,但世界模型必须在很长一段时间内保持准确。

受Transformer在序列建模任务中的成功启发,康奈尔大学的文森特·米凯利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷介绍了IRIS,这是一种数据高效代理,它在由离散自编码器和自回归Transformer组成的世界模型中学习。

在Atari 100k基准测试中,在仅相当于两个小时的游戏时间里,IRIS的平均人类标准化得分为1.046,并且在26场比赛中的10场比赛中表现优于人类。

此前,LeCun曾说,强化学习会走进死胡同。

Transformers+世界模型,竟能拯救深度强化学习?

现在看来,康奈尔大学的文森特·米凯利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷等人,正在将世界模型与强化学习(更准确地说是深度强化学习)融为一体,而连接两者的桥梁,便是Transformers。

深度强化学习有什么不一样

一提到人工智能技术,很多人能想到的,还是深度学习上。

其实,虽然深度学习还活跃在AI领域,但已经暴露出很多问题。

现在深度学习用得最多的就是有监督学习。有监督学习不妨理解成“有参考答案的学习”,它有一个特点,就是数据必须经过标识才能用于训练。但现在海量的数据是未标识数据,且标识成本很高。

以至于针对这种局面,有人调侃道「有多少人工,就有多少智能」。

很多研究人员,甚至包括有不少的大牛都在反思,琢磨深度学习是不是“错了”。

于是,强化学习开始崛起了。

强化学习和有监督学习、无监督学习都不太一样,它是用智能体不断地试错,并按试错结果奖惩AI。这是DeepMind家做各种棋牌AI、游戏AI的路数。这种路径的信徒认为,只要奖励激励设定对头,强化学习终将造出真正AGI。

但强化学习也有问题,用LeCun的话说,就是「强化学习要用巨量数据才能训练模型执行最简单任务」。

于是强化学习与深度学习进行了结合,成为深度强化学习。

深度强化学习,强化学习是骨架,深度学习是灵魂,这是什么意思呢?深度强化学习的主要运行机制,其实与强化学习是基本一致的,只不过使用了深度神经网络来完成这一过程。

更有甚者,有的深度强化学习算法,干脆直接在现成的强化学习算法上,通过添加深度神经网络来实现一套新的深度强化学习算法,非常有名的深度强化学习算法DQN就是典型的例子。

Transformers有什么神奇之处

Transformers首次亮相于2017年,是Google的论文《Attention is All You Need》中提出的。

在 Transformer出现之前,人工智能在语言任务上的进展一直落后于其他领域的发展。「在过去10年发生的这场深度学习革命中,自然语言处理在某种程度上是后来者,」马萨诸塞大学洛厄尔分校的计算机科学家Anna Rumshisky 说,「从某种意义上说,NLP曾落后于计算机视觉,而Transformer改变了这一点。」

近年来,Transformer机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。

Transformer很快成为专注于分析和预测文本的单词识别等应用程序的引领者。它引发了一波工具浪潮,比如OpenAI的GPT-3可以在数千亿个单词上进行训练并生成连贯的新文本。

目前,Transformer架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。比如,Transformer已被用于时间序列预测,同时也是DeepMind的蛋白质结构预测模型 AlphaFold背后的关键创新。

Transformer最近也进入了计算机视觉领域,在许多复杂任务中它们正在慢慢取代卷积神经网络(CNN)。

世界模型与Transformers联手,其他人怎么看

对于康奈尔大学的研究成果,有外国网友评论道:「请注意,这两个小时是来自环境的镜头长度,在GPU上进行训练需要一周的时间」。

还有人质疑:所以这个系统在一个特别精确的潜在世界模型上学习?该模型不需要预先训练吗?

另外,有人觉得,康奈尔大学的文森特·米凯利等人的成果并没有破天荒的突破:「似乎他们只是训练了世界模型,vqvae和演员评论家,所有这些都来自那2个小时的经验(和大约600个纪元)的重播缓冲区」。

参考资料:https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/​

以上是Transformers+世界模型,竟能拯救深度强化学习?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
10个生成AI编码扩展,在VS代码中,您必须探索10个生成AI编码扩展,在VS代码中,您必须探索Apr 13, 2025 am 01:14 AM

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

烹饪创新:人工智能如何改变食品服务烹饪创新:人工智能如何改变食品服务Apr 12, 2025 pm 12:09 PM

AI增强食物准备 在新生的使用中,AI系统越来越多地用于食品制备中。 AI驱动的机器人在厨房中用于自动化食物准备任务,例如翻转汉堡,制作披萨或组装SA

Python名称空间和可变范围的综合指南Python名称空间和可变范围的综合指南Apr 12, 2025 pm 12:00 PM

介绍 了解Python功能中变量的名称空间,范围和行为对于有效编写和避免运行时错误或异常至关重要。在本文中,我们将研究各种ASP

视觉语言模型(VLMS)的综合指南视觉语言模型(VLMS)的综合指南Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

联发科技与kompanio Ultra和Dimenty 9400增强优质阵容联发科技与kompanio Ultra和Dimenty 9400增强优质阵容Apr 12, 2025 am 11:52 AM

继续使用产品节奏,本月,Mediatek发表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。这些产品填补了Mediatek业务中更传统的部分,其中包括智能手机的芯片

本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:现在是星期一早上。作为AI驱动的招聘人员,您更聪明,而不是更努力。您在手机上登录公司的仪表板。它告诉您三个关键角色已被采购,审查和计划的FO

生成的AI遇到心理摩托车生成的AI遇到心理摩托车Apr 12, 2025 am 11:50 AM

我猜你一定是。 我们似乎都知道,心理障碍包括各种chat不休,这些chat不休,这些chat不休,混合了各种心理术语,并且常常是难以理解的或完全荒谬的。您需要做的一切才能喷出fo

原型:科学家将纸变成塑料原型:科学家将纸变成塑料Apr 12, 2025 am 11:49 AM

根据本周发表的一项新研究,只有在2022年制造的塑料中,只有9.5%的塑料是由回收材料制成的。同时,塑料在垃圾填埋场和生态系统中继续堆积。 但是有帮助。一支恩金团队

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用