如何根據特定需求選擇視覺模型?
ConvNet/ViT、supervised/CLIP模型,在ImageNet以外的指標上如何相互比較?
來自MABZUAI和Meta的研究人員發表的最新研究,在「非標準」指標上全面比較了常見的視覺模型。
論文網址:https://arxiv.org/pdf/2311.09215.pdf
LeCun對這項研究給予高度讚揚,稱其為非常出色的研究。研究比較了相似大小的ConvNext和VIT架構,在監督模式和使用CLIP方法進行訓練時,對各種屬性進行了全面比較。
電腦視覺模型模式,變得越來越多元複雜。
從早期的ConvNets到Vision Transformers的演進,可用模型的種類不斷擴展。
類似地,訓練範式已經從ImageNet上的監督訓練,發展到自監督學習、像CLIP這樣的圖像文字對訓練。
在標誌著進步的同時,這種選擇的爆炸性增長給從業者帶來了重大挑戰:如何選擇適合自己的目標模型?
一直以來,ImageNet準確率一直是評估模型效能的主要指標。自從引發深度學習革命以來,它已經推動了人工智慧領域的顯著進步。
不過,但它無法衡量不同架構、訓練範式和資料而產生的細微差別的模型。
如果僅根據ImageNet的準確度來判斷,具有不同屬性的模型可能看起來很相似(圖 1)。隨著模型開始過度擬合ImageNet的特性,精度達到飽和,這種限制就會變得更加明顯。
為了彌補差距,研究人員對ImageNet準確性之外的模型行為進行了深入探索。
為了研究架構和訓練目標對模型表現的影響,具體比較了Vision Transformer (ViT)和ConvNeXt。這兩種現代架構的ImageNet-1K驗證精度和運算要求相當。
此外,研究比較了以DeiT3-Base/16和ConvNeXt-Base為代表的監督模型,以及OpenCLIP基於CLIP模型的視覺編碼器。
#研究人員的分析旨在,研究無需進一步訓練或微調即可評估的模型行為。
這種方法對於計算資源有限的從業人員尤其重要,因為他們通常依賴預訓練模型。
具體分析中,雖然作者認識到物件偵測等下游任務的價值,但重點在於那些能以最小的運算需求提供洞察力的特性,以及反映對真實世界應用非常重要的行為的特性。
模型錯誤
#ImageNet-X是對ImageNet-1K進行了擴展的資料集,其中包含16個變化因素的詳細人工標註,從而能夠深入分析影像分類中的模型錯誤。
它採用錯誤率(越低越好)來量化模型在特定因素上,相對於整體準確性的表現,從而對模型錯誤進行細緻入微的分析。 ImageNet-X 的結果顯示:
1. 相對於其ImageNet準確性,CLIP模型比受監督的模型犯的錯誤更少。
2. 所有模型都主要受到遮蔽等複雜因素的影響。
3. 紋理是所有模型中最具挑戰性的因素。
#造型/紋理偏差
形狀/紋理偏差會檢驗模型,是否依賴紋理快捷方式,而不是高級形狀提示。
這種偏向可以透過結合不同類別的形狀和紋理的提示衝突圖像來研究。
這種方法有助於了解與紋理相比,模型的決策在多大程度上是基於形狀的。
研究人員對提示衝突資料集上的形狀-紋理偏差進行了評估,發現CLIP模型的紋理偏差小於監督模型,而ViT模型的形狀偏差高於ConvNets。
模型校準
#校準可量化模型的預測置信度與其實際準確度是否一致。
這可以透過預期校準誤差 (ECE) 等指標,以及可靠性圖和置信度直方圖等視覺化工具進行評估。
研究人員在ImageNet-1K和ImageNet-R上對校準進行了評估,將預測分為15個等級。在實驗中,觀察到以下幾點:
- CLIP模型置信度高,而監督模型則略顯不足。
- 監督的ConvNeXt比有監督的ViT校準得更好。
「健壯性與可移植性
##模型的健壯與可移植性,是適應資料分佈變化和新任務的關鍵。
研究人員使用不同的ImageNet變體評估了穩健性,發現雖然ViT和ConvNeXt模型具有類似的平均性能,但除了ImageNet-R和ImageNet-Sketch之外,監督模型在穩健性方面通常優於CLIP。
在可攜性方面,使用VTAB基準測試對19個資料集進行評估,監督ConvNeXt優於ViT,幾乎與CLIP模型的效能相當。
#合成資料
#像PUG-ImageNet這樣的合成資料集,可以精確控制相機角度和紋理等因素,成為一種很有前途的研究途徑,因此研究人員根據合成資料分析模型的性能。
PUG-ImageNet包含逼真的ImageNet影像,這些影像具有照明等因素的系統變化,效能以絕對最高準確率來衡量。
研究人員提供了PUG-ImageNet中不同因素的結果,發現ConvNeXt在幾乎所有因素上都優於ViT。
這表明ConvNeXt在合成資料上優於ViT,而CLIP模型的差距較小,因為CLIP模型的準確率低於監督模型,這可能與原始ImageNet的準確率較低有關。
特徵不變性
特徵不變性是指模型能夠產生一致的表徵,不受輸入轉換的影響,從而保留語義,如縮放或移動。
這個特性使模型能夠在不同但語意相似的輸入中很好地泛化。
Подход исследователей включает изменение размера изображений для достижения масштабной инвариантности, перемещение обрезки для достижения неизменности положения и настройку разрешения модели ViT с использованием интерполированных позиционных вложений.
В контролируемом обучении ConvNeXt превосходит ViT.
В целом модель более устойчива к преобразованиям масштаба/разрешения, чем к перемещениям. Результаты показывают, что для приложений, требующих высокой устойчивости к масштабированию, смещению и разрешению, контролируемый ConvNeXt может быть лучшим выбором.
Исследователи обнаружили, что каждая модель имеет свои уникальные преимущества.
Это говорит о том, что выбор модели должен зависеть от целевого варианта использования, поскольку стандартные показатели производительности могут не учитывать критически важные нюансы.
Кроме того, многие существующие тесты взяты из ImageNet, что искажает оценку. Разработка новых тестов с различным распределением данных имеет решающее значение для оценки моделей в более реалистичном репрезентативном контексте.
ConvNet vs Transformer
- Во многих тестах контролируемый ConvNeXt имеет лучшую производительность, чем контролируемый VIT. Лучшая производительность: он лучше калибруется, инвариантен к преобразованиям данных, демонстрирует лучшую переносимость и надежность.
- ConvNeXt превосходит ViT на синтетических данных.
- ViT имеет более высокий уклон формы.
Контролируемый или CLIP
- Хотя модель CLIP лучше с точки зрения возможности передачи, контролируемый ConvNeXt Продемонстрированная компетентность в эта задача. Это демонстрирует потенциал контролируемых моделей.
- Контролируемые модели лучше справляются с тестами надежности, вероятно, потому, что эти модели являются вариантами ImageNet.
- Модель CLIP имеет более высокую погрешность формы и меньше ошибок классификации по сравнению с точностью ImageNet.
以上是LeCun的評價:對ConvNet和Transformer進行Meta評測,哪一個比較強?的詳細內容。更多資訊請關注PHP中文網其他相關文章!