首页  >  文章  >  像素变形金刚 (PiT) 挑战视觉模型中局部偏差的需求

像素变形金刚 (PiT) 挑战视觉模型中局部偏差的需求

PHPz
PHPz原创
2024-06-15 09:31:28525浏览

Meta AI 和阿姆斯特丹大学的最新研究表明,变压器(一种流行的神经网络架构)可以直接对图像的各个像素进行操作,而不依赖于大多数现代计算机视觉模型中存在的局部归纳偏差。

Pixel Transformers (PiTs) Challenge the Need for Locality Bias in Vision Models

Meta AI 和阿姆斯特丹大学的研究人员证明,Transformers(一种流行的神经网络架构)可以直接对图像的各个像素进行操作,而不依赖于局部归纳大多数现代计算机视觉模型中都存在偏见。

他们的研究题为“单个像素上的变形金刚”,挑战了长期以来的信念,即局部性(相邻像素比远处像素更相关的概念)是一个基本概念

传统上,诸如卷积神经网络(ConvNet)和视觉变换器(ViT)之类的计算机视觉架构通过卷积核、池化操作和补丁化等技术合并了局部性偏差,假设相邻像素是

相比之下,研究人员引入了像素变换器(PiT),它将每个像素视为一个单独的标记,消除了有关图像 2D 网格结构的任何假设。令人惊讶的是,PiT 在各种任务中都取得了高性能的结果。

例如,当使用 VQGAN 的潜在标记空间将 PiT 应用于图像生成任务时,它们在 Fréchet Inception Distance 等质量指标上优于局部偏向的同行( FID)和初始分数(IS)。

虽然 PiT 在 Perceiver IO Transformer 上运行,由于序列较长,计算成本可能会很高,但它们挑战了视觉模型中对局部性偏差的需求。随着处理大序列长度方面的进步,PiT 可能会变得更加实用。

该研究最终强调了减少神经架构中归纳偏差的潜在好处,这可能会导致针对不同视觉任务的更通用、更强大的系统和数据模式。

新闻来源:https://www.kdj.com/cryptocurrencies-news/articles/pixel-transformers-pits-challenge-locality-bias-vision-models.html

以上是像素变形金刚 (PiT) 挑战视觉模型中局部偏差的需求的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn