搜尋
首頁科技週邊人工智慧LeCun的評價:對ConvNet和Transformer進行Meta評測,哪一個比較強?

如何根據特定需求選擇視覺模型?

ConvNet/ViT、supervised/CLIP模型,在ImageNet以外的指標上如何相互比較?

來自MABZUAI和Meta的研究人員發表的最新研究,在「非標準」指標上全面比較了常見的視覺模型。

LeCun的評價:對ConvNet和Transformer進行Meta評測,哪一個比較強?

論文網址:https://arxiv.org/pdf/2311.09215.pdf

LeCun對這項研究給予高度讚揚,稱其為非常出色的研究。研究比較了相似大小的ConvNext和VIT架構,在監督模式和使用CLIP方法進行訓練時,對各種屬性進行了全面比較。

LeCun的評價:對ConvNet和Transformer進行Meta評測,哪一個比較強?

#超越ImageNet準確度

電腦視覺模型模式,變得越來越多元複雜。

從早期的ConvNets到Vision Transformers的演進,可用模型的種類不斷擴展。

類似地,訓練範式已經從ImageNet上的監督訓練,發展到自監督學習、像CLIP這樣的圖像文字對訓練。

LeCun的評價:對ConvNet和Transformer進行Meta評測,哪一個比較強?

在標誌著進步的同時,這種選擇的爆炸性增長給從業者帶來了重大挑戰:如何選擇適合自己的目標模型?

一直以來,ImageNet準確率一直是評估模型效能的主要指標。自從引發深度學習革命以來,它已經推動了人工智慧領域的顯著進步。

不過,但它無法衡量不同架構、訓練範式和資料而產生的細微差別的模型。

如果僅根​​據ImageNet的準確度來判斷,具有不同屬性的模型可能看起來很相似(圖 1)。隨著模型開始過度擬合ImageNet的特性,精度達到飽和,這種限制就會變得更加明顯。

LeCun的評價:對ConvNet和Transformer進行Meta評測,哪一個比較強?

為了彌補差距,研究人員對ImageNet準確性之外的模型行為進行了深入探索。

為了研究架構和訓練目標對模型表現的影響,具體比較了Vision Transformer (ViT)和ConvNeXt。這兩種現代架構的ImageNet-1K驗證精度和運算要求相當。

此外,研究比較了以DeiT3-Base/16和ConvNeXt-Base為代表的監督模型,以及OpenCLIP基於CLIP模型的視覺編碼器。

LeCun的評價:對ConvNet和Transformer進行Meta評測,哪一個比較強?

結果分析

#研究人員的分析旨在,研究無需進一步訓練或微調即可評估的模型行為。

這種方法對於計算資源有限的從業人員尤其重要,因為他們通常依賴預訓練模型。

具體分析中,雖然作者認識到物件偵測等下游任務的價值,但重點在於那些能以最小的運算需求提供洞察力的特性,以及反映對真實世界應用非常重要的行為的特性。

模型錯誤

#ImageNet-X是對ImageNet-1K進行了擴展的資料集,其中包含16個變化因素的詳細人工標註,從而能夠深入分析影像分類中的模型錯誤。

它採用錯誤率(越低越好)來量化模型在特定因素上,相對於整體準確性的表現,從而對模型錯誤進行細緻入微的分析。 ImageNet-X 的結果顯示:

1. 相對於其ImageNet準確性,CLIP模型比受監督的模型犯的錯誤更少。

2. 所有模型都主要受到遮蔽等複雜因素的影響。

3. 紋理是所有模型中最具挑戰性的因素。

LeCun的評價:對ConvNet和Transformer進行Meta評測,哪一個比較強?

LeCun的評價:對ConvNet和Transformer進行Meta評測,哪一個比較強?

#造型/紋理偏差

形狀/紋理偏差會檢驗模型,是否依賴紋理快捷方式,而不是高級形狀提示。

這種偏向可以透過結合不同類別的形狀和紋理的提示衝突圖像來研究。

這種方法有助於了解與紋理相比,模型的決策在多大程度上是基於形狀的。

研究人員對提示衝突資料集上的形狀-紋理偏差進行了評估,發現CLIP模型的紋理偏差小於監督模型,而ViT模型的形狀偏差高於ConvNets。

LeCun的評價:對ConvNet和Transformer進行Meta評測,哪一個比較強?

模型校準

#校準可量化模型的預測置信度與其實際準確度是否一致。

這可以透過預期校準誤差 (ECE) 等指標,以及可靠性圖和置信度直方圖等視覺化工具進行評估。

研究人員在ImageNet-1K和ImageNet-R上對校準進行了評估,將預測分為15個等級。在實驗中,觀察到以下幾點:

- CLIP模型置信度高,而監督模型則略顯不足。

- 監督的ConvNeXt比有監督的ViT校準得更好。

LeCun的評價:對ConvNet和Transformer進行Meta評測,哪一個比較強?

「健壯性與可移植性

##模型的健壯與可移植性,是適應資料分佈變化和新任務的關鍵。

研究人員使用不同的ImageNet變體評估了穩健性,發現雖然ViT和ConvNeXt模型具有類似的平均性能,但除了ImageNet-R和ImageNet-Sketch之外,監督模型在穩健性方面通常優於CLIP。

在可攜性方面,使用VTAB基準測試對19個資料集進行評估,監督ConvNeXt優於ViT,幾乎與CLIP模型的效能相當。

LeCun的評價:對ConvNet和Transformer進行Meta評測,哪一個比較強?

#合成資料

#像PUG-ImageNet這樣的合成資料集,可以精確控制相機角度和紋理等因素,成為一種很有前途的研究途徑,因此研究人員根據合成資料分析模型的性能。

PUG-ImageNet包含逼真的ImageNet影像,這些影像具有照明等因素的系統變化,效能以絕對最高準確率來衡量。

研究人員提供了PUG-ImageNet中不同因素的結果,發現ConvNeXt在幾乎所有因素上都優於ViT。

這表明ConvNeXt在合成資料上優於ViT,而CLIP模型的差距較小,因為CLIP模型的準確率低於監督模型,這可能與原始ImageNet的準確率較低有關。

LeCun的評價:對ConvNet和Transformer進行Meta評測,哪一個比較強?

特徵不變性

特徵不變性是指模型能夠產生一致的表徵,不受輸入轉換的影響,從而保留語義,如縮放或移動。

這個特性使模型能夠在不同但語意相似的輸入中很好地泛化。

Подход исследователей включает изменение размера изображений для достижения масштабной инвариантности, перемещение обрезки для достижения неизменности положения и настройку разрешения модели ViT с использованием интерполированных позиционных вложений.

В контролируемом обучении ConvNeXt превосходит ViT.

В целом модель более устойчива к преобразованиям масштаба/разрешения, чем к перемещениям. Результаты показывают, что для приложений, требующих высокой устойчивости к масштабированию, смещению и разрешению, контролируемый ConvNeXt может быть лучшим выбором.

LeCun的評價:對ConvNet和Transformer進行Meta評測,哪一個比較強?

Исследователи обнаружили, что каждая модель имеет свои уникальные преимущества.

Это говорит о том, что выбор модели должен зависеть от целевого варианта использования, поскольку стандартные показатели производительности могут не учитывать критически важные нюансы.

Кроме того, многие существующие тесты взяты из ImageNet, что искажает оценку. Разработка новых тестов с различным распределением данных имеет решающее значение для оценки моделей в более реалистичном репрезентативном контексте.

ConvNet vs Transformer

- Во многих тестах контролируемый ConvNeXt имеет лучшую производительность, чем контролируемый VIT. Лучшая производительность: он лучше калибруется, инвариантен к преобразованиям данных, демонстрирует лучшую переносимость и надежность.

- ConvNeXt превосходит ViT на синтетических данных.

- ViT имеет более высокий уклон формы.

Контролируемый или CLIP

- Хотя модель CLIP лучше с точки зрения возможности передачи, контролируемый ConvNeXt Продемонстрированная компетентность в эта задача. Это демонстрирует потенциал контролируемых моделей.

- Контролируемые модели лучше справляются с тестами надежности, вероятно, потому, что эти модели являются вариантами ImageNet.

- Модель CLIP имеет более высокую погрешность формы и меньше ошибок классификации по сравнению с точностью ImageNet.

以上是LeCun的評價:對ConvNet和Transformer進行Meta評測,哪一個比較強?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
如何在Excel中刪除重複項? - 分析Vidhya如何在Excel中刪除重複項? - 分析VidhyaApr 15, 2025 am 09:20 AM

數據完整性:刪除Excel中的重複項以進行準確分析 乾淨的數據對於有效的決策至關重要。 Excel電子表格中的重複條目可能會導致錯誤和不可靠的分析。本指南向您展示瞭如何輕鬆刪除DUP

十大電話面試技巧 - 分析Vidhya十大電話面試技巧 - 分析VidhyaApr 15, 2025 am 09:19 AM

掌握電話採訪的藝術:成功指南 成功的電話面試可以大大增加進入工作申請過程下一階段的機會。 這種至關重要的第一印象,通常是唯一的前fac

如何成為統計學家?如何成為統計學家?Apr 15, 2025 am 09:15 AM

介紹 想像一下,有能力在醫療保健,金融或體育等領域為自己和您的公司做出明智的決定。那就是統計學家的角色。 隨著組織中數據的越來越多,對統計學家的需求

AI如何工作? - 分析VidhyaAI如何工作? - 分析VidhyaApr 15, 2025 am 09:14 AM

人工智能:綜合指南 技術使我們能夠設想一個世界,即機器了解我們的偏好,預測我們的需求,並從過去的互動中學習以提供更好的結果。這不是科幻小說;它是

什麼是像形圖? - 分析Vidhya什麼是像形圖? - 分析VidhyaApr 15, 2025 am 09:09 AM

介紹 在數據分析的世界中,有效的溝通是關鍵。 象形圖提供了一個強大的解決方案,以視覺上吸引人且易於消化的格式提供信息。與復雜的圖表和數字不同,象形文字 - 也

Llama-3.1-STORM-8B:8B LLM優於元和愛馬仕Llama-3.1-STORM-8B:8B LLM優於元和愛馬仕Apr 15, 2025 am 09:08 AM

Llama 3.1風暴8b:有效語言模型的突破 追求高效,準確的語言模型導致了Llama 3.1 Storm 8b的發展,這是80億個參數模型類別的顯著進步。 這是完善的

如何安裝git? - 分析Vidhya如何安裝git? - 分析VidhyaApr 15, 2025 am 09:07 AM

git:您的版本控制與協作的基本指南 Git是開發人員的關鍵工具,簡化了項目協作和版本控制。 本指南提供了在Linux,MacOS和Wind上安裝GIT的直接說明

在LLMS中調用工具在LLMS中調用工具Apr 14, 2025 am 11:28 AM

大型語言模型(LLMS)的流行激增,工具稱呼功能極大地擴展了其功能,而不是簡單的文本生成。 現在,LLM可以處理複雜的自動化任務,例如Dynamic UI創建和自主a

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具