搜索
首页科技周边人工智能马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?

基于Transformer的视觉基础模型在各种下游任务,如分割和检测中都展现出了非常强大的性能,并且DINO等模型经过自监督训练后已经涌现出了语义的分割属性。

视觉Transformer模型经过有监督分类训练后,并没有出现类似的涌现能力,这一点令人感到奇怪

最近,马毅教授的团队研究了基于Transformer架构的模型,以探索涌现分割能力是否仅仅是复杂的自监督学习机制所导致的结果,或者是否可以通过适当设计模型架构,在更通用的条件下实现相同的涌现

马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?

代码链接:https://github.com/Ma-Lab-Berkeley/CRATE

请点击以下链接查看论文:https://arxiv.org/abs/2308.16271

经过大量实验,研究人员证明了使用白盒Transformer模型CRATE时,其设计明确地模拟并追求数据分布中的低维结构,以最小化的监督训练配方出现整体和部分级别的分割属性

通过分层的细粒度分析,我们得出了一个重要结论:涌现属性有力地证实了白盒网络的设计数学功能。基于这一结果,我们提出了一种设计白盒基础模型的方法,该模型不仅具有高性能,而且在数学上完全可解释

马毅教授也表示,深度学习的研究将会逐渐从经验设计转向理论指导。

马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?

白盒CRATE的涌现属性

DINO的分割涌现能力指的是DINO模型在处理语言任务时,能够将输入的句子分割成更小的片段,并对每个片段进行独立的处理。这种能力使得DINO模型能够更好地理解复杂的句子结构和语义信息,从而提高其在自然语言处理领域的性能

智能系统中的表征学习旨在将世界的高维、多模态感官数据(图像、语言、语音)转换为更紧凑的形式,同时保留其基本的低维结构,实现高效的识别(比如分类)、分组(比如分割)和追踪。

马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?

深度学习模型的训练通常采用数据驱动的方式,通过输入大规模数据,以自监督的方式进行学习

在视觉基础模型中,DINO模型展现了令人惊讶的涌现能力,即使没有经过有监督分割训练,ViTs也能识别出显式的语义分割信息。自监督Transformer架构的DINO模型在这方面表现出色

后续有工作研究了如何在DINO模型中利用这种分割信息,并在下游任务中,如分割、检测等实现了最先进的性能,也有工作证明了用DINO训练的ViTs中的倒数第二层特征与视觉输入中的显著性信息强烈相关,如区分前景、背景和物体边界,从而提升图像分割和其他任务的性能。

为了让分割属性得以凸显,DINO需要在训练过程中巧妙地结合自监督学习、知识蒸馏和权重平均的方法

目前还不清楚DINO中引入的每个组件是否对于分割遮罩的涌现来说必不可缺,尽管DINO也采用ViT架构作为其主干,但在分类任务上训练的普通有监督ViT模型中,并没有观察到分割涌现行为。

CRATE的涌现

基于DINO的成功案例,研究人员想要探究,复杂的自监督学习管道对于获得类似Transformer的视觉模型中的涌现属性是否是必要的。

研究人员认为,在Transformer模型中促进分割属性的一种有前途的方法是,在考虑输入数据结构的情况下设计Transformer模型架构,也代表了表征学习经典方法与现代数据驱动的深度学习框架的结合。

马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?

与目前主流的Transformer模型对比,这种设计方法也可以叫做白盒Transformer模型。

基于马毅教授组之前的工作,研究人员对白盒架构的CRATE模型进行了广泛的实验,证明了CRATE的白盒设计是自注意力图中分割属性涌现的原因。

需要进行重新表述的内容是:定性评估

研究人员使用基于[CLS] token的注意力图方法对模型进行解释和可视化,发现CRATE中的查询-键-值矩阵都是相同的

马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?

可以观察到CRATE模型的自注意力图(self-attention map)可以对应到输入图像的语义上,模型的内部网络对每个图像都进行了清晰的语义分割,实现了类似DINO模型的效果。

普通的ViT在有监督分类任务上训练时,并没有展示出类似的分割属性

马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?

根据之前关于可视化图像学习逐块深度特征的研究,研究人员对CRATE和ViT模型的深度token表征进行了主成分分析(PCA)研究

马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?

可以发现,CRATE可以在没有分割监督训练的情况下,依然可以捕捉到图像中物体的边界。

而且,主要成分(principal components)还表明了token和物体之间相似部分的特征对齐,比如红色通道对应马腿

而有监督ViT模型的PCA可视化结构化程度相当低。

定量评估

研究人员对CRATE涌现的分割属性进行评估时,使用了现有的分割和对象检测技术

从自注意力图可以看到,CRATE用清晰的边界显式地捕获了对象级的语义,为了定量测量分割的质量,研究人员利用自注意力图生成分割遮罩(segmentation mask),对比其与真实遮罩之间的标准mIoU(平均交并比)。

马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?

通过实验结果可以看出,CRATE在视觉和mIOU评分方面明显优于ViT,这表明CRATE的内部表示对于生成分割遮罩任务更有效

对象检测和细粒度分割

为了进一步验证和评估CRATE捕获的丰富语义信息,研究人员采用了一种高效的对象检测和分割方法MaskCut,无需人工标注即可获得自动化评估模型,可以基于CRATE学到的token表征从图像中提取更细粒度的分割。

马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?

马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?

在COCO val2017上的分割结果中可以看到,有CRATE的内部表征在检测和分割指标上都要好于有监督ViT,有监督ViT特征的MaskCut在某些情况下甚至完全不能产生分割遮罩。

CRATE分割能力的白盒分析

CRATE中深度的作用

CRATE的每一层设计都遵循相同的概念目的:优化稀疏速率降低,并将token分布转换为紧凑和结构化的形式。 重写后:CRATE的每个层次的设计都遵循相同的理念:优化稀疏速率的降低,并将token的分布转化为紧凑且结构化的形式

假设CRATE中语义分割能力的涌现类似于「表征Z中属于相似语义类别token的聚类」,预期CRATE的分割性能可以随着深度的增加而提高。

为了测试这一点,研究人员利用MaskCut管道来定量评估跨不同层的内部表征的分割性能;同时应用PCA可视化来理解分割是如何随深度加深而涌现的。

马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?

从实验结果中可以观察到,当使用来自更深层的表征时,分割分数提高了,与CRATE的增量优化设计非常一致。

相比之下,即使ViT-B/8的性能在后面的层中略有提高,但其分割分数明显低于CRATE,PCA结果显示,从CRATE深层提取的表征会逐渐更关注前景对象,并且能够捕捉纹理级别的细节。

CRATE的熔化实验

CRATE中的注意力块(MSSA)和MLP块(ISTA)与ViT中的注意力块有所不同

为了研究每个组件对CRATE涌现分割属性的影响,研究人员选择了三个CRATE变体:CRATE,CRATE-MHSA,CRATE-MLP。这些变体分别代表了ViT中的注意块(MHSA)和MLP块

研究人员在ImageNet-21k数据集上应用相同的预训练设置,然后应用粗分割评估和遮罩分割评估来定量对比不同模型的性能。

马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?

根据实验结果显示,CRATE在所有任务中明显优于其他模型架构。值得注意的是,尽管MHSA和MSSA之间的架构差异很小,但只需简单地将ViT中的MHSA替换为CRATE中的MSSA,就能显著提升ViT在粗分割性能(即VOC Seg)方面的表现。这进一步证明了白盒设计的有效性

需要进行改写的内容是:注意头的语义属性的识别

[CLS] token和图像块token之间的自注意力图可以看到清晰的分段掩码,根据直觉,每个注意力头应该都可以捕捉到数据的部分特征。

研究人员首先将图像输入到CRATE模型,然后由人来检查、选择四个似乎具有语义含义的注意力头;然后在其他输入图像上在这些注意力头上进行自注意力图可视化。

马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?

观察可以发现,每个注意力头都能够捕捉到物体的不同部分,甚至是不同的语义。例如,第一列中的注意力头能够捕捉到不同动物的腿部,而最后一列中的注意力头则能够捕捉到耳朵和头部

自从可形变部件模型(deformable part model)和胶囊网络发布以来,这种将视觉输入解析为部分-整体层次结构的能力一直是识别架构的目标,白盒设计的CRATE模型也具有这种能力。

以上是马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介绍 假设有一个农民每天在几周内观察农作物的进展。他研究了增长率,并开始思考他的植物在几周内可以生长的高度。从Th

软AI的兴起及其对当今企业的意义软AI的兴起及其对当今企业的意义Apr 15, 2025 am 11:36 AM

软AI(被定义为AI系统,旨在使用近似推理,模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。 但是这对业务意味着什么

为AI前沿的不断发展的安全框架为AI前沿的不断发展的安全框架Apr 15, 2025 am 11:34 AM

答案很明确 - 只是云计算需要向云本地安全工具转变,AI需要专门为AI独特需求而设计的新型安全解决方案。 云计算和安全课程的兴起 在

生成AI的3种方法放大了企业家:当心平均值!生成AI的3种方法放大了企业家:当心平均值!Apr 15, 2025 am 11:33 AM

企业家,并使用AI和Generative AI来改善其业务。同时,重要的是要记住生成的AI,就像所有技术一样,都是一个放大器 - 使得伟大和平庸,更糟。严格的2024研究O

Andrew Ng的新简短课程Andrew Ng的新简短课程Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量:深入研究安德鲁·NG的新课程 想象一个未来,机器可以完全准确地理解和回答您的问题。 这不是科幻小说;多亏了AI的进步,它已成为R

大语言模型(LLM)中的幻觉是不可避免的吗?大语言模型(LLM)中的幻觉是不可避免的吗?Apr 15, 2025 am 11:31 AM

大型语言模型(LLM)和不可避免的幻觉问题 您可能使用了诸如Chatgpt,Claude和Gemini之类的AI模型。 这些都是大型语言模型(LLM)的示例,在大规模文本数据集上训练的功能强大的AI系统

60%的问题 -  AI搜索如何消耗您的流量60%的问题 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根据行业和搜索类型,AI概述可能导致有机交通下降15-64%。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。 新的

麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大学(Elon University)想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”,得出的结论是,大多数人担心AI系统加深的采用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。