马毅教授新作：白盒ViT成功实现「分割涌现」，经验深度学习时代即将结束？-人工智能-PHP中文网

首页

科技周边

人工智能

马毅教授新作：白盒ViT成功实现「分割涌现」，经验深度学习时代即将结束？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 14, 2023 pm 02:45 PM

模型监督

基于Transformer的视觉基础模型在各种下游任务，如分割和检测中都展现出了非常强大的性能，并且DINO等模型经过自监督训练后已经涌现出了语义的分割属性。

视觉Transformer模型经过有监督分类训练后，并没有出现类似的涌现能力，这一点令人感到奇怪

最近，马毅教授的团队研究了基于Transformer架构的模型，以探索涌现分割能力是否仅仅是复杂的自监督学习机制所导致的结果，或者是否可以通过适当设计模型架构，在更通用的条件下实现相同的涌现

马毅教授新作：白盒ViT成功实现「分割涌现」，经验深度学习时代即将结束？

代码链接：https://github.com/Ma-Lab-Berkeley/CRATE

请点击以下链接查看论文：https://arxiv.org/abs/2308.16271

经过大量实验，研究人员证明了使用白盒Transformer模型CRATE时，其设计明确地模拟并追求数据分布中的低维结构，以最小化的监督训练配方出现整体和部分级别的分割属性

通过分层的细粒度分析，我们得出了一个重要结论：涌现属性有力地证实了白盒网络的设计数学功能。基于这一结果，我们提出了一种设计白盒基础模型的方法，该模型不仅具有高性能，而且在数学上完全可解释

马毅教授也表示，深度学习的研究将会逐渐从经验设计转向理论指导。

马毅教授新作：白盒ViT成功实现「分割涌现」，经验深度学习时代即将结束？

白盒CRATE的涌现属性

DINO的分割涌现能力指的是DINO模型在处理语言任务时，能够将输入的句子分割成更小的片段，并对每个片段进行独立的处理。这种能力使得DINO模型能够更好地理解复杂的句子结构和语义信息，从而提高其在自然语言处理领域的性能

智能系统中的表征学习旨在将世界的高维、多模态感官数据（图像、语言、语音）转换为更紧凑的形式，同时保留其基本的低维结构，实现高效的识别（比如分类）、分组（比如分割）和追踪。

马毅教授新作：白盒ViT成功实现「分割涌现」，经验深度学习时代即将结束？

深度学习模型的训练通常采用数据驱动的方式，通过输入大规模数据，以自监督的方式进行学习

在视觉基础模型中，DINO模型展现了令人惊讶的涌现能力，即使没有经过有监督分割训练，ViTs也能识别出显式的语义分割信息。自监督Transformer架构的DINO模型在这方面表现出色

后续有工作研究了如何在DINO模型中利用这种分割信息，并在下游任务中，如分割、检测等实现了最先进的性能，也有工作证明了用DINO训练的ViTs中的倒数第二层特征与视觉输入中的显著性信息强烈相关，如区分前景、背景和物体边界，从而提升图像分割和其他任务的性能。

为了让分割属性得以凸显，DINO需要在训练过程中巧妙地结合自监督学习、知识蒸馏和权重平均的方法

目前还不清楚DINO中引入的每个组件是否对于分割遮罩的涌现来说必不可缺，尽管DINO也采用ViT架构作为其主干，但在分类任务上训练的普通有监督ViT模型中，并没有观察到分割涌现行为。

CRATE的涌现

基于DINO的成功案例，研究人员想要探究，复杂的自监督学习管道对于获得类似Transformer的视觉模型中的涌现属性是否是必要的。

研究人员认为，在Transformer模型中促进分割属性的一种有前途的方法是，在考虑输入数据结构的情况下设计Transformer模型架构，也代表了表征学习经典方法与现代数据驱动的深度学习框架的结合。

马毅教授新作：白盒ViT成功实现「分割涌现」，经验深度学习时代即将结束？

与目前主流的Transformer模型对比，这种设计方法也可以叫做白盒Transformer模型。

基于马毅教授组之前的工作，研究人员对白盒架构的CRATE模型进行了广泛的实验，证明了CRATE的白盒设计是自注意力图中分割属性涌现的原因。

需要进行重新表述的内容是：定性评估

研究人员使用基于[CLS] token的注意力图方法对模型进行解释和可视化，发现CRATE中的查询-键-值矩阵都是相同的

马毅教授新作：白盒ViT成功实现「分割涌现」，经验深度学习时代即将结束？

可以观察到CRATE模型的自注意力图（self-attention map）可以对应到输入图像的语义上，模型的内部网络对每个图像都进行了清晰的语义分割，实现了类似DINO模型的效果。

普通的ViT在有监督分类任务上训练时，并没有展示出类似的分割属性

马毅教授新作：白盒ViT成功实现「分割涌现」，经验深度学习时代即将结束？

根据之前关于可视化图像学习逐块深度特征的研究，研究人员对CRATE和ViT模型的深度token表征进行了主成分分析（PCA）研究

马毅教授新作：白盒ViT成功实现「分割涌现」，经验深度学习时代即将结束？

可以发现，CRATE可以在没有分割监督训练的情况下，依然可以捕捉到图像中物体的边界。

而且，主要成分（principal components）还表明了token和物体之间相似部分的特征对齐，比如红色通道对应马腿

而有监督ViT模型的PCA可视化结构化程度相当低。

定量评估

研究人员对CRATE涌现的分割属性进行评估时，使用了现有的分割和对象检测技术

从自注意力图可以看到，CRATE用清晰的边界显式地捕获了对象级的语义，为了定量测量分割的质量，研究人员利用自注意力图生成分割遮罩（segmentation mask），对比其与真实遮罩之间的标准mIoU（平均交并比）。

马毅教授新作：白盒ViT成功实现「分割涌现」，经验深度学习时代即将结束？

通过实验结果可以看出，CRATE在视觉和mIOU评分方面明显优于ViT，这表明CRATE的内部表示对于生成分割遮罩任务更有效

对象检测和细粒度分割

为了进一步验证和评估CRATE捕获的丰富语义信息，研究人员采用了一种高效的对象检测和分割方法MaskCut，无需人工标注即可获得自动化评估模型，可以基于CRATE学到的token表征从图像中提取更细粒度的分割。

马毅教授新作：白盒ViT成功实现「分割涌现」，经验深度学习时代即将结束？

在COCO val2017上的分割结果中可以看到，有CRATE的内部表征在检测和分割指标上都要好于有监督ViT，有监督ViT特征的MaskCut在某些情况下甚至完全不能产生分割遮罩。

CRATE分割能力的白盒分析

CRATE中深度的作用

CRATE的每一层设计都遵循相同的概念目的：优化稀疏速率降低，并将token分布转换为紧凑和结构化的形式。重写后：CRATE的每个层次的设计都遵循相同的理念：优化稀疏速率的降低，并将token的分布转化为紧凑且结构化的形式

假设CRATE中语义分割能力的涌现类似于「表征Z中属于相似语义类别token的聚类」，预期CRATE的分割性能可以随着深度的增加而提高。

为了测试这一点，研究人员利用MaskCut管道来定量评估跨不同层的内部表征的分割性能；同时应用PCA可视化来理解分割是如何随深度加深而涌现的。

马毅教授新作：白盒ViT成功实现「分割涌现」，经验深度学习时代即将结束？

从实验结果中可以观察到，当使用来自更深层的表征时，分割分数提高了，与CRATE的增量优化设计非常一致。

相比之下，即使ViT-B/8的性能在后面的层中略有提高，但其分割分数明显低于CRATE，PCA结果显示，从CRATE深层提取的表征会逐渐更关注前景对象，并且能够捕捉纹理级别的细节。

CRATE的熔化实验

CRATE中的注意力块（MSSA）和MLP块（ISTA）与ViT中的注意力块有所不同

为了研究每个组件对CRATE涌现分割属性的影响，研究人员选择了三个CRATE变体：CRATE，CRATE-MHSA，CRATE-MLP。这些变体分别代表了ViT中的注意块（MHSA）和MLP块

研究人员在ImageNet-21k数据集上应用相同的预训练设置，然后应用粗分割评估和遮罩分割评估来定量对比不同模型的性能。

马毅教授新作：白盒ViT成功实现「分割涌现」，经验深度学习时代即将结束？

根据实验结果显示，CRATE在所有任务中明显优于其他模型架构。值得注意的是，尽管MHSA和MSSA之间的架构差异很小，但只需简单地将ViT中的MHSA替换为CRATE中的MSSA，就能显著提升ViT在粗分割性能（即VOC Seg）方面的表现。这进一步证明了白盒设计的有效性

需要进行改写的内容是：注意头的语义属性的识别

[CLS] token和图像块token之间的自注意力图可以看到清晰的分段掩码，根据直觉，每个注意力头应该都可以捕捉到数据的部分特征。

研究人员首先将图像输入到CRATE模型，然后由人来检查、选择四个似乎具有语义含义的注意力头；然后在其他输入图像上在这些注意力头上进行自注意力图可视化。

马毅教授新作：白盒ViT成功实现「分割涌现」，经验深度学习时代即将结束？

观察可以发现，每个注意力头都能够捕捉到物体的不同部分，甚至是不同的语义。例如，第一列中的注意力头能够捕捉到不同动物的腿部，而最后一列中的注意力头则能够捕捉到耳朵和头部

自从可形变部件模型（deformable part model）和胶囊网络发布以来，这种将视觉输入解析为部分-整体层次结构的能力一直是识别架构的目标，白盒设计的CRATE模型也具有这种能力。

以上是马毅教授新作：白盒ViT成功实现「分割涌现」，经验深度学习时代即将结束？的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

个人黑客将是一只非常凶猛的熊May 11, 2025 am 11:09 AM

网络攻击正在发展。通用网络钓鱼电子邮件的日子已经一去不复返了。网络犯罪的未来是超个性化的，利用了容易获得的在线数据和AI来制作高度针对性的攻击。想象一个知道您的工作的骗子

教皇狮子座XIV揭示了AI如何影响他的名字选择May 11, 2025 am 11:07 AM

新当选的教皇狮子座（Leo Xiv）在对红衣主教学院的就职演讲中，讨论了他的同名人物教皇里奥XIII的影响，他的教皇（1878-1903）与汽车和汽车和汽车公司的黎明相吻合

Fastapi -MCP初学者和专家教程-Analytics VidhyaMay 11, 2025 am 10:56 AM

本教程演示了如何使用模型上下文协议（MCP）和FastAPI将大型语言模型（LLM）与外部工具集成在一起。我们将使用FastAPI构建一个简单的Web应用程序，并将其转换为MCP服务器，使您的L

dia-1.6b tts：最佳文本到二元格生成模型 - 分析vidhyaMay 11, 2025 am 10:27 AM

探索DIA-1.6B：由两个本科生开发的开创性的文本对语音模型，零资金！这个16亿个参数模型产生了非常现实的语音，包括诸如笑声和打喷嚏之类的非语言提示。本文指南

AI可以使指导比以往任何时候都更有意义May 10, 2025 am 11:17 AM

我完全同意。我的成功与导师的指导密不可分。他们的见解，尤其是关于业务管理，构成了我的信念和实践的基石。这种经验强调了我对导师的承诺

AI发掘了采矿业的新潜力May 10, 2025 am 11:16 AM

AI 增强型矿业设备矿业作业环境恶劣且危险重重。人工智能系统通过将人类从最危险的环境中移除并增强人类能力，帮助提高整体效率和安全性。人工智能越来越多地用于为矿业作业中使用的自动驾驶卡车、钻机和装载机提供动力。这些 AI 驱动的车辆能够在危险环境中精确作业，从而提高安全性和生产力。一些公司已经开发出用于大型矿业作业的自动驾驶采矿车辆。在挑战性环境中运行的设备需要持续维护。然而，维护会使关键设备离线并消耗资源。更精确的维护意味着昂贵且必要的设备的正常运行时间增加以及显着的成本节约。 AI 驱动