首页 >web3.0 >像素变形金刚 (PiT) 挑战视觉模型中局部偏差的需求

像素变形金刚 (PiT) 挑战视觉模型中局部偏差的需求

Meta AI 和阿姆斯特丹大学的最新研究表明，变压器（一种流行的神经网络架构）可以直接对图像的各个像素进行操作，而不依赖于大多数现代计算机视觉模型中存在的局部归纳偏差。

Pixel Transformers (PiTs) Challenge the Need for Locality Bias in Vision Models

Meta AI 和阿姆斯特丹大学的研究人员证明，Transformers（一种流行的神经网络架构）可以直接对图像的各个像素进行操作，而不依赖于局部归纳大多数现代计算机视觉模型中都存在偏见。

他们的研究题为“单个像素上的变形金刚”，挑战了长期以来的信念，即局部性（相邻像素比远处像素更相关的概念）是一个基本概念

传统上，诸如卷积神经网络（ConvNet）和视觉变换器（ViT）之类的计算机视觉架构通过卷积核、池化操作和补丁化等技术合并了局部性偏差，假设相邻像素是

相比之下，研究人员引入了像素变换器（PiT），它将每个像素视为一个单独的标记，消除了有关图像 2D 网格结构的任何假设。令人惊讶的是，PiT 在各种任务中都取得了高性能的结果。

例如，当使用 VQGAN 的潜在标记空间将 PiT 应用于图像生成任务时，它们在 Fréchet Inception Distance 等质量指标上优于局部偏向的同行（ FID）和初始分数（IS）。

虽然 PiT 在 Perceiver IO Transformer 上运行，由于序列较长，计算成本可能会很高，但它们挑战了视觉模型中对局部性偏差的需求。随着处理大序列长度方面的进步，PiT 可能会变得更加实用。

该研究最终强调了减少神经架构中归纳偏差的潜在好处，这可能会导致针对不同视觉任务的更通用、更强大的系统和数据模式。

新闻来源：https://www.kdj.com/cryptocurrencies-news/articles/pixel-transformers-pits-challenge-locality-bias-vision-models.html

以上是像素变形金刚 (PiT) 挑战视觉模型中局部偏差的需求的详细内容。更多信息请关注PHP中文网其他相关文章！

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

查看更多