LeCun的評價：對ConvNet和Transformer進行Meta評測，哪一個比較強？-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

LeCun的評價：對ConvNet和Transformer進行Meta評測，哪一個比較強？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 18, 2024 pm 02:15 PM

ai數據

如何根據特定需求選擇視覺模型？

ConvNet/ViT、supervised/CLIP模型，在ImageNet以外的指標上如何相互比較？

來自MABZUAI和Meta的研究人員發表的最新研究，在「非標準」指標上全面比較了常見的視覺模型。

LeCun的評價：對ConvNet和Transformer進行Meta評測，哪一個比較強？

論文網址：https://arxiv.org/pdf/2311.09215.pdf

LeCun對這項研究給予高度讚揚，稱其為非常出色的研究。研究比較了相似大小的ConvNext和VIT架構，在監督模式和使用CLIP方法進行訓練時，對各種屬性進行了全面比較。

LeCun的評價：對ConvNet和Transformer進行Meta評測，哪一個比較強？

#超越ImageNet準確度

電腦視覺模型模式，變得越來越多元複雜。

從早期的ConvNets到Vision Transformers的演進，可用模型的種類不斷擴展。

類似地，訓練範式已經從ImageNet上的監督訓練，發展到自監督學習、像CLIP這樣的圖像文字對訓練。

LeCun的評價：對ConvNet和Transformer進行Meta評測，哪一個比較強？

在標誌著進步的同時，這種選擇的爆炸性增長給從業者帶來了重大挑戰：如何選擇適合自己的目標模型？

一直以來，ImageNet準確率一直是評估模型效能的主要指標。自從引發深度學習革命以來，它已經推動了人工智慧領域的顯著進步。

不過，但它無法衡量不同架構、訓練範式和資料而產生的細微差別的模型。

如果僅根據ImageNet的準確度來判斷，具有不同屬性的模型可能看起來很相似（圖 1）。隨著模型開始過度擬合ImageNet的特性，精度達到飽和，這種限制就會變得更加明顯。

LeCun的評價：對ConvNet和Transformer進行Meta評測，哪一個比較強？

為了彌補差距，研究人員對ImageNet準確性之外的模型行為進行了深入探索。

為了研究架構和訓練目標對模型表現的影響，具體比較了Vision Transformer (ViT)和ConvNeXt。這兩種現代架構的ImageNet-1K驗證精度和運算要求相當。

此外，研究比較了以DeiT3-Base/16和ConvNeXt-Base為代表的監督模型，以及OpenCLIP基於CLIP模型的視覺編碼器。

LeCun的評價：對ConvNet和Transformer進行Meta評測，哪一個比較強？

結果分析

#研究人員的分析旨在，研究無需進一步訓練或微調即可評估的模型行為。

這種方法對於計算資源有限的從業人員尤其重要，因為他們通常依賴預訓練模型。

具體分析中，雖然作者認識到物件偵測等下游任務的價值，但重點在於那些能以最小的運算需求提供洞察力的特性，以及反映對真實世界應用非常重要的行為的特性。

模型錯誤

#ImageNet-X是對ImageNet-1K進行了擴展的資料集，其中包含16個變化因素的詳細人工標註，從而能夠深入分析影像分類中的模型錯誤。

它採用錯誤率（越低越好）來量化模型在特定因素上，相對於整體準確性的表現，從而對模型錯誤進行細緻入微的分析。 ImageNet-X 的結果顯示：

1. 相對於其ImageNet準確性，CLIP模型比受監督的模型犯的錯誤更少。

2. 所有模型都主要受到遮蔽等複雜因素的影響。

3. 紋理是所有模型中最具挑戰性的因素。

LeCun的評價：對ConvNet和Transformer進行Meta評測，哪一個比較強？

#造型/紋理偏差

形狀/紋理偏差會檢驗模型，是否依賴紋理快捷方式，而不是高級形狀提示。

這種偏向可以透過結合不同類別的形狀和紋理的提示衝突圖像來研究。

這種方法有助於了解與紋理相比，模型的決策在多大程度上是基於形狀的。

研究人員對提示衝突資料集上的形狀-紋理偏差進行了評估，發現CLIP模型的紋理偏差小於監督模型，而ViT模型的形狀偏差高於ConvNets。

LeCun的評價：對ConvNet和Transformer進行Meta評測，哪一個比較強？

模型校準

#校準可量化模型的預測置信度與其實際準確度是否一致。

這可以透過預期校準誤差 (ECE) 等指標，以及可靠性圖和置信度直方圖等視覺化工具進行評估。

研究人員在ImageNet-1K和ImageNet-R上對校準進行了評估，將預測分為15個等級。在實驗中，觀察到以下幾點：

- CLIP模型置信度高，而監督模型則略顯不足。

- 監督的ConvNeXt比有監督的ViT校準得更好。

LeCun的評價：對ConvNet和Transformer進行Meta評測，哪一個比較強？

「健壯性與可移植性

##模型的健壯與可移植性，是適應資料分佈變化和新任務的關鍵。

研究人員使用不同的ImageNet變體評估了穩健性，發現雖然ViT和ConvNeXt模型具有類似的平均性能，但除了ImageNet-R和ImageNet-Sketch之外，監督模型在穩健性方面通常優於CLIP。

在可攜性方面，使用VTAB基準測試對19個資料集進行評估，監督ConvNeXt優於ViT，幾乎與CLIP模型的效能相當。

LeCun的評價：對ConvNet和Transformer進行Meta評測，哪一個比較強？

#合成資料

#像PUG-ImageNet這樣的合成資料集，可以精確控制相機角度和紋理等因素，成為一種很有前途的研究途徑，因此研究人員根據合成資料分析模型的性能。

PUG-ImageNet包含逼真的ImageNet影像，這些影像具有照明等因素的系統變化，效能以絕對最高準確率來衡量。

研究人員提供了PUG-ImageNet中不同因素的結果，發現ConvNeXt在幾乎所有因素上都優於ViT。

這表明ConvNeXt在合成資料上優於ViT，而CLIP模型的差距較小，因為CLIP模型的準確率低於監督模型，這可能與原始ImageNet的準確率較低有關。

LeCun的評價：對ConvNet和Transformer進行Meta評測，哪一個比較強？

特徵不變性

特徵不變性是指模型能夠產生一致的表徵，不受輸入轉換的影響，從而保留語義，如縮放或移動。

這個特性使模型能夠在不同但語意相似的輸入中很好地泛化。

Подход исследователей включает изменение размера изображений для достижения масштабной инвариантности, перемещение обрезки для достижения неизменности положения и настройку разрешения модели ViT с использованием интерполированных позиционных вложений.

В контролируемом обучении ConvNeXt превосходит ViT.

В целом модель более устойчива к преобразованиям масштаба/разрешения, чем к перемещениям. Результаты показывают, что для приложений, требующих высокой устойчивости к масштабированию, смещению и разрешению, контролируемый ConvNeXt может быть лучшим выбором.

LeCun的評價：對ConvNet和Transformer進行Meta評測，哪一個比較強？

Исследователи обнаружили, что каждая модель имеет свои уникальные преимущества.

Это говорит о том, что выбор модели должен зависеть от целевого варианта использования, поскольку стандартные показатели производительности могут не учитывать критически важные нюансы.

Кроме того, многие существующие тесты взяты из ImageNet, что искажает оценку. Разработка новых тестов с различным распределением данных имеет решающее значение для оценки моделей в более реалистичном репрезентативном контексте.

ConvNet vs Transformer

- Во многих тестах контролируемый ConvNeXt имеет лучшую производительность, чем контролируемый VIT. Лучшая производительность: он лучше калибруется, инвариантен к преобразованиям данных, демонстрирует лучшую переносимость и надежность.

- ConvNeXt превосходит ViT на синтетических данных.

- ViT имеет более высокий уклон формы.

Контролируемый или CLIP

- Хотя модель CLIP лучше с точки зрения возможности передачи, контролируемый ConvNeXt Продемонстрированная компетентность в эта задача. Это демонстрирует потенциал контролируемых моделей.

- Контролируемые модели лучше справляются с тестами надежности, вероятно, потому, что эти модели являются вариантами ImageNet.

- Модель CLIP имеет более высокую погрешность формы и меньше ошибок классификации по сравнению с точностью ImageNet.

以上是LeCun的評價：對ConvNet和Transformer進行Meta評測，哪一個比較強？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

AI內部部署的隱藏危險：治理差距和災難性風險Apr 28, 2025 am 11:12 AM

Apollo Research的一份新報告顯示，先進的AI系統的不受檢查的內部部署構成了重大風險。在大型人工智能公司中缺乏監督，普遍存在，允許潛在的災難性結果

構建AI測謊儀Apr 28, 2025 am 11:11 AM

傳統測謊儀已經過時了。依靠腕帶連接的指針，打印出受試者生命體徵和身體反應的測謊儀，在識破謊言方面並不精確。這就是為什麼測謊結果通常不被法庭採納的原因，儘管它曾導致許多無辜者入獄。相比之下，人工智能是一個強大的數據引擎，其工作原理是全方位觀察。這意味著科學家可以通過多種途徑將人工智能應用於尋求真相的應用中。一種方法是像測謊儀一樣分析被審問者的生命體徵反應，但採用更詳細、更精確的比較分析。另一種方法是利用語言標記來分析人們實際所說的話，並運用邏輯和推理。俗話說，一個謊言會滋生另一個謊言，最終

AI是否已清除航空航天行業的起飛？Apr 28, 2025 am 11:10 AM

航空航天業是創新的先驅，它利用AI應對其最複雜的挑戰。現代航空的越來越複雜性需要AI的自動化和實時智能功能，以提高安全性，降低操作

觀看北京的春季機器人比賽Apr 28, 2025 am 11:09 AM

機器人技術的飛速發展為我們帶來了一個引人入勝的案例研究。來自Noetix的N2機器人重達40多磅，身高3英尺，據說可以後空翻。 Unitree公司推出的G1機器人重量約為N2的兩倍，身高約4英尺。比賽中還有許多體型更小的類人機器人參賽，甚至還有一款由風扇驅動前進的機器人。數據解讀這場半程馬拉松吸引了超過12,000名觀眾，但只有21台類人機器人參賽。儘管政府指出參賽機器人賽前進行了“強化訓練”，但並非所有機器人均完成了全程比賽。冠軍——由北京類人機器人創新中心研發的Tiangong Ult

鏡子陷阱：人工智能倫理和人類想像力的崩潰Apr 28, 2025 am 11:08 AM

人工智能以目前的形式並不是真正智能的。它擅長模仿和完善現有數據。我們不是在創造人工智能，而是人工推斷 - 處理信息的機器，而人類則

新的Google洩漏揭示了方便的Google照片功能更新Apr 28, 2025 am 11:07 AM

一份報告發現，在谷歌相冊Android版7.26版本的代碼中隱藏了一個更新的界面，每次查看照片時，都會在屏幕底部顯示一行新檢測到的面孔縮略圖。新的面部縮略圖缺少姓名標籤，所以我懷疑您需要單獨點擊它們才能查看有關每個檢測到的人員的更多信息。就目前而言，此功能除了谷歌相冊已在您的圖像中找到這些人之外，不提供任何其他信息。此功能尚未上線，因此我們不知道谷歌將如何準確地使用它。谷歌可以使用縮略圖來加快查找所選人員的更多照片的速度，或者可能用於其他目的，例如選擇要編輯的個人。我們拭目以待。就目前而言