搜索
首页科技周边人工智能来聊聊近期火爆的几个大模型和自动驾驶概念

近期大模型各种应用依然火爆,10月初前后出现了一系列颇有噱头的文章,试图把大模型应用于自动驾驶。和很多朋友最近也聊了很多相关的话题,写这篇文章,一方面是发现其实包括我在内,在过去其实都混淆了一些很相关但其实不同的概念,另一方面从这些概念延伸出来有一些有意思的思考,值得和大家一起分享和探讨。

大(语言)模型

这无疑是目前最为火爆的一个方向,也是论文最为集中的热点。那大语言模型究竟能怎么帮助到自动驾驶?一方面是像GPT-4V一样,通过和图像的对齐,提供极其强大的语义理解能力,这里暂时按下不表;另一方面便是把LLM作为agent去直接实现驾驶行为。后者其实也是目前最为sexy的研究方向,和embodied AI这一系列工作有着千丝万缕的联系。

目前看到的绝大部分后一类工作都是将LLM:1) 直接使用 2) 通过supervised learning的方式微调 3) 通过reinforcement learning的方式微调 用于驾驶任务。本质上并没有逃脱出之前基于learning方法去驾驶的范式框架。那其实很直接的一个问题就是,为什么用LLM做这件事情可能会更好?直觉上来说用语言去开车是一个很低效而啰嗦的事情。后来有一天突然想明白了LLM其实通过语言实现了一个对agent的pretrain!之前RL很难具有泛化性很重要的一个原因是难以统一起来各种不同的任务,去用各种通用的数据去pretrain,只能是每种任务from scratch训练,但是LLM很好解决了这样的问题。但其实也有几个并没有很好解决的问题:1) 完成pretrain之后,一定要保留语言作为输出的接口吗?这其实在很多任务中带来了很多的不便,也一定程度上造成了冗余的计算量。2) LLM as agent的做法上仍然没有克服现有RL类model free方法的本质问题,所有model free有的问题这样的方法仍然存在。最近也看到一些model based + LLM as agent的尝试,这可能会是一个有意思的方向。

最后想吐槽的一句各篇paper的是:并不是接上LLM,让LLM输出一个reason就能让你的模型变得可解释。这个reason仍然是可能胡说八道的。。。原先不会有保障的东西,并不会因为输出一句话就变得有保障了。

大(视觉)模型

纯粹的大视觉模型其实目前仍然没有看到那神奇的“涌现”时刻。谈到大视觉模型,一般有两个可能的所指:一个是基于CLIP或者DINO或者SAM这样海量的web data预训练实现的超强视觉信息特征提取器,这大大提升了模型的语义理解能力;另一个是指以GAIA为代表的world model实现的对(image, action,etc...)的联合模型。

前者其实我认为只是沿着传统的思路继续linear scale up的结果,目前很难看到对自动驾驶量变的可能性。后者其实在今年Wayve和Tesla的不断宣传之下,不断走入了研究者的视野。大家在聊world model的时候,往往夹杂着这个模型是端到端(直接输出action)且和LLM是相关联的。其实这样的假设是片面的。对于world model的我的理解也是非常有限,这里推荐一下Lecun的访谈和 @俞扬 老师的这篇model based RL的survey,就不展开了:

俞扬:关于环境模型(world model)的学习
https://www.php.cn/link/a2cdd86a458242d42a17c2bf4feff069

纯视觉自动驾驶

这其实很容易理解,是指仅依赖于视觉传感器的自动驾驶系统。这其实也是自动驾驶最美好的一个终极愿望:像人一样靠一双眼睛来开车。这样的概念一般都会和上述两个大模型联系起来,因为图像复杂的语义需要很强的抽象能力来提取有用的信息。在Tesla最近不断的宣传攻势下,这个概念也和下面要提到的端到端重合起来。但其实纯视觉驾驶有很多种实现的路径,端到端自然是其中的一条,但也不是仅有的一条。实现纯视觉自动驾驶最为困难的问题就是视觉天生对于3D信息的不敏感,大模型也并未本质上改变这一点。具体体现在:1) 被动接收电磁波的方式使得视觉不像其他传感器可以测量3D空间中的几何信息;2) 透视使得远处的物体对于误差的敏感程度极高。这对于下游默认在一个等误差的3D空间中实现的planning和control来说非常不友好。但是,人靠视觉开车等同于人能准确估计3D距离和速度吗?我觉得这才是纯视觉自动驾驶除了语义理解之外,值得深入研究的representation的问题。

端到端自动驾驶

这个概念是指从传感器到最终输出的控制信号(其实我认为也可以广义地包括到更上游一层planning的路点信息)使用一个联合优化的模型。这既可以是像早在80年代的ALVINN一样输入传感器数据,直接通过一个神经网络输出控制信号的直接端到端方法,也可以有像今年CVPR best paper UniAD这样的分阶段端到端方法。但是这些方法的一个共同要点都是通过下游的监督信号能够直接传递给到上游,而不是每个模块只有自己自定的优化目标。整体来说这是正确的一个思路,毕竟深度学习就是靠着这样的联合优化发家的。但是对于自动驾驶或者通用机器人这种往往复杂程度极高,且和物理世界打交道的系统来说,工程实现和数据组织和利用效率上都存在很多需要克服的难题。

Feed-Forward端到端自动驾驶

这个概念好像很少有人提到,但其实我发现端到端本身的存在是有价值的,但是问题在于对于观测这种Feed-Forward的使用方式。包括我在内,其实之前也都会默认端到端驾驶一定是Feed-Forward形式的,因为目前99%基于深度学习的方法都假设了这样的结构,也就是说最终关心的输出量(比如控制信号)u = f(x),x是传感器的各种观测。这里f可以是一个很复杂的函数。但其实,我们在某些问题里,我们希望能够使得最终的输出量满足或接近某些性质,这样Feed-Forward的形式便很难给出这样的保证。所以能还有一种方式我们可以写成u* = argmin g(u, x) s.t. h(u, x)

随着大模型的发展,这种直接式的Feed-Forward端到端自动驾驶的方案又迎来了一波复兴。大模型当然是非常强大的,但是我抛出一个问题希望大家来想想:如果大模型端到端是万能的,那是不是意味着大模型就应该可以端到端下围棋/五子棋呢?类似AlphaGo的范式就应该已经毫无意义了?相信大家也都知道这个答案是否定的。当然这种Feed-Forward的方式可以作为一个快速的近似求解器,在大部分场景下取得不错的结果。

以目前公开了自己使用了Neural Planner的各家方案来看,neural的部分只是为后续的优化方案提供了若干初始化的proposal去缓解后续优化高度非凸的问题。这本质上和AlphaGo里的fast rollout做的事情是一模一样的。但是AlphaGo不会把后续的MCTS搜索叫做一个“兜底”方案。。。

最后,希望这些能够帮助大家理清这些概念之间的区别与联系,大家在讨论问题的时候也能够明确在说的究竟是什么东西。。。

来聊聊近期火爆的几个大模型和自动驾驶概念

原文链接:https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A

以上是来聊聊近期火爆的几个大模型和自动驾驶概念的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介绍 假设有一个农民每天在几周内观察农作物的进展。他研究了增长率,并开始思考他的植物在几周内可以生长的高度。从Th

软AI的兴起及其对当今企业的意义软AI的兴起及其对当今企业的意义Apr 15, 2025 am 11:36 AM

软AI(被定义为AI系统,旨在使用近似推理,模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。 但是这对业务意味着什么

为AI前沿的不断发展的安全框架为AI前沿的不断发展的安全框架Apr 15, 2025 am 11:34 AM

答案很明确 - 只是云计算需要向云本地安全工具转变,AI需要专门为AI独特需求而设计的新型安全解决方案。 云计算和安全课程的兴起 在

生成AI的3种方法放大了企业家:当心平均值!生成AI的3种方法放大了企业家:当心平均值!Apr 15, 2025 am 11:33 AM

企业家,并使用AI和Generative AI来改善其业务。同时,重要的是要记住生成的AI,就像所有技术一样,都是一个放大器 - 使得伟大和平庸,更糟。严格的2024研究O

Andrew Ng的新简短课程Andrew Ng的新简短课程Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量:深入研究安德鲁·NG的新课程 想象一个未来,机器可以完全准确地理解和回答您的问题。 这不是科幻小说;多亏了AI的进步,它已成为R

大语言模型(LLM)中的幻觉是不可避免的吗?大语言模型(LLM)中的幻觉是不可避免的吗?Apr 15, 2025 am 11:31 AM

大型语言模型(LLM)和不可避免的幻觉问题 您可能使用了诸如Chatgpt,Claude和Gemini之类的AI模型。 这些都是大型语言模型(LLM)的示例,在大规模文本数据集上训练的功能强大的AI系统

60%的问题 -  AI搜索如何消耗您的流量60%的问题 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根据行业和搜索类型,AI概述可能导致有机交通下降15-64%。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。 新的

麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大学(Elon University)想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”,得出的结论是,大多数人担心AI系统加深的采用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具