Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积-人工智能-PHP中文网

首页

科技周边

人工智能

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2024 pm 01:25 PM

ai计算机视觉

在 Transformer 大一统的时代，计算机视觉的 CNN 方向还有研究的必要吗？

今年年初，OpenAI 视频大模型 Sora 带火了 Vision Transformer（ViT）架构。此后，关于 ViT 与传统卷积神经网络（CNN）谁更厉害的争论就没有断过。

近日，一直在社交媒体上活跃的图灵奖得主、Meta 首席科学家 Yann LeCun 也加入了 ViT 与 CNN 之争的讨论。

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

这件事的起因是Comma.ai的CTO Harald Schäfer在展示自家最新研究。他（像最近很多AI学者一样）cue了Yann LeCun表达，虽然图灵奖大佬认为纯ViT并不实用，但我们最近把自己的压缩器改成了纯ViT，没有捷积，需要更长时间的训练，但是效果非常不错。

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

比如左图，被压缩到了只有 224 字节，右边是原始图像。

只有 14×128，这对自动驾驶用的世界模型来说很大，意味着可以输入大量数据用于训练。在虚拟环境中训练相比真实环境成本更低，在这里 Agent 需要根据策略进行训练才能正常工作。虚拟训练更高的分辨率效果会更好，但模拟器就会变得速度很慢，因此目前压缩是必须的。

他的展示引发了 AI 圈的讨论，1X 人工智能副总裁 Eric Jang 回复道，是惊人的结果。

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

Harald 继续夸赞 ViT：这是非常美丽的架构。

此处有人就开始拱火了：大师如 LeCun，有时也无法赶上创新的步伐。

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

不过，Yann LeCun 很快回复辩驳称，他并不是说 ViT 不实用，现在大家都在使用它。他想表达的是，ViT 太慢、效率太低，导致不适合实时处理高分辨率图像和视频任务。

Yann LeCun 还 Cue 了纽约大学助理教授谢赛宁，后者参与的工作 ConvNext 证明了如果方法得当，CNN 也能和 ViT 一样好。

他接下来表示，在坚持自注意力循环之前，你至少需要几个具有池化和步幅的卷积层。

如果自注意力等同于排列（permutation），则完全对低级别图像或视频处理没有意义，在前端使用单个步幅进行修补（patchify）也没有意义。此外由于图像或视频中的相关性高度集中在局部，因而全局注意力也没有意义且不可扩展。

在更高级别上，一旦特征表征了对象，那么使用自注意力循环就有意义了：重要的是对象之间的关系和交互，而非它们的位置。这种混合架构是由 Meta 研究科学家 Nicolas Carion 及合著者完成的 DETR 系统开创的。

自 DETR 工作出现以后，Yann LeCun 表示自己最喜欢的架构是低级别的卷积 / 步幅 / 池化，以及高级别的自注意力循环。

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

Yann LeCun 在第二个帖子里总结到：在低级别使用带有步幅或池化的卷积，在高级别使用自注意力循环，并使用特征向量来表征对象。

他还打赌到，特斯拉全自动驾驶（FSD）在低级别使用卷积（或者更复杂的局部运算符），并在更高级别结合更多全局循环（可能使用自注意力）。因此，低级别 patch 嵌入上使用 Transformer 完全一种浪费。

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

我猜死对头马斯克还是用的卷积路线。

谢赛宁也发表了自己的看法，他认为 ViT 非常适合 224x224 的低分辨率图像，但如果图像分辨率达到了 100 万 x100 万，该怎么办呢？这时要么使用卷积，要么使用共享权重对 ViT 进行修补和处理，这在本质上还是卷积。

因此，谢赛宁表示，有那么一刻自己意识到卷积网络不是一种架构，而是一种思维方式。

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

这一观点得到了 Yann LeCun 的认可。

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

谷歌 DeepMind 研究者 Lucas Beyer 也表示，得益于常规卷积网络的零填充，自己很确定「卷积 ViT」（而不是 ViT + 卷积）会工作得很好。

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

可以预见，这场 ViT 与 CNN 之间的争论还将继续下去，直到未来另一种更强大架构的出现。

以上是Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

及时工程中的思想图是什么Apr 13, 2025 am 11:53 AM

介绍在迅速的工程中，“思想图”是指使用图理论来构建和指导AI的推理过程的新方法。与通常涉及线性S的传统方法不同

优化您的组织与Genai代理商的电子邮件营销Apr 13, 2025 am 11:44 AM

介绍恭喜！您经营一家成功的业务。通过您的网页，社交媒体活动，网络研讨会，会议，免费资源和其他来源，您每天收集5000个电子邮件ID。下一个明显的步骤是

Apache Pinot实时应用程序性能监视Apr 13, 2025 am 11:40 AM

介绍在当今快节奏的软件开发环境中，确保最佳应用程序性能至关重要。监视实时指标，例如响应时间，错误率和资源利用率可以帮助MAIN

Chatgpt击中了10亿用户？ Openai首席执行官说：'短短几周内翻了一番Apr 13, 2025 am 11:23 AM

“您有几个用户？”他扮演。阿尔特曼回答说：“我认为我们上次说的是每周5亿个活跃者，而且它正在迅速增长。” “你告诉我，就像在短短几周内翻了一番，”安德森继续说道。 “我说那个私人

pixtral -12b：Mistral AI＆＃039;第一个多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介绍 Mistral发布了其第一个多模式模型，即Pixtral-12b-2409。该模型建立在Mistral的120亿参数Nemo 12B之上。是什么设置了该模型？现在可以拍摄图像和Tex

生成AI应用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想象一下，拥有一个由AI驱动的助手，不仅可以响应您的查询，还可以自主收集信息，执行任务甚至处理多种类型的数据（TEXT，图像和代码）。听起来有未来派？在这个a

生成AI在金融部门的应用Apr 13, 2025 am 11:12 AM

介绍金融业是任何国家发展的基石，因为它通过促进有效的交易和信贷可用性来推动经济增长。交易的便利和信贷

在线学习和被动攻击算法指南Apr 13, 2025 am 11:09 AM

介绍数据是从社交媒体，金融交易和电子商务平台等来源的前所未有的速度生成的。处理这种连续的信息流是一个挑战，但它提供了

See all articles

热AI工具

热工具

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

Atom编辑器mac版下载

ZendStudio 13.5.1 Mac

SublimeText3汉化版

WebStorm Mac版

VSCode Windows 64位下载

热门话题

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

Atom编辑器mac版下载

ZendStudio 13.5.1 Mac

SublimeText3汉化版

WebStorm Mac版

VSCode Windows 64位 下载

热门话题

VSCode Windows 64位下载