Meta AI 和阿姆斯特丹大學的最新研究表明,變壓器(一種流行的神經網路架構)可以直接對影像的各個像素進行操作,而不依賴大多數現代電腦視覺模型中存在的局部歸納偏差。
Meta AI 和阿姆斯特丹大學的研究人員證明,Transformers(一種流行的神經網路架構)可以直接對影像的各個像素進行操作,而不依賴局部歸納大多數現代電腦視覺模型中都存在偏見。更相關的概念)是一個基本概念
傳統上,諸如卷積神經網路(ConvNet)和視覺變換器(ViT)之類的電腦視覺架構透過卷積核、池化操作和修補化等技術合併了局部性偏差,假設相鄰像素是
相比之下,研究人員引入了像素變換器(PiT),它將每個像素視為單獨的標記,消除了有關影像2D 網格結構的任何假設。令人驚訝的是,PiT 在各種任務中都取得了高效能的結果。品質指標上優於局部偏向的同儕( FID)和初始分數(IS)。視覺模型中對局部性偏差的需求。隨著處理大序列長度方面的進步,PiT 可能會變得更加實用。 、更強大的系統和資料模式。
新聞來源:https://www.kdj.com/cryptocurrencies-news/articles/pixel-transformers-pits-challenge-locality-bias-vision-models.html
以上是像素變換器 (PiT) 挑戰視覺模型中局部偏差的需求的詳細內容。更多資訊請關注PHP中文網其他相關文章!