Maison > Article > Périphériques technologiques > Évaluation de LeCun : Méta-évaluation de ConvNet et Transformer, laquelle est la plus forte ?
Comment choisir un modèle visuel en fonction de besoins spécifiques ?
Comment les modèles ConvNet/ViT et supervisés/CLIP se comparent-ils sur des indicateurs autres qu'ImageNet ?
La dernière recherche publiée par des chercheurs du MABZUAI et Meta compare de manière exhaustive les modèles visuels courants sur des indicateurs « non standards ».
Adresse papier : https://arxiv.org/pdf/2311.09215.pdf
LeCun a fait l'éloge de cette recherche et l'a qualifiée d'excellente recherche. L'étude compare des architectures ConvNext et VIT de taille similaire, fournissant une comparaison complète de diverses propriétés lors d'une formation en mode supervisé et à l'aide des méthodes CLIP.
Le paysage des modèles de vision par ordinateur devient de plus en plus diversifié et complexe.
Des premiers ConvNets à l'évolution des Vision Transformers, les types de modèles disponibles sont en constante expansion.
De même, les paradigmes de formation ont évolué de la formation supervisée sur ImageNet à l'apprentissage auto-supervisé et à la formation par paires image-texte comme CLIP.
Tout en marquant des progrès, cette explosion d'options pose un défi majeur aux praticiens : Comment choisir le modèle cible qui vous convient ?
La précision d'ImageNet a toujours été le principal indicateur pour évaluer les performances du modèle. Depuis qu’il a déclenché la révolution du deep learning, il a permis des avancées significatives dans le domaine de l’intelligence artificielle.
Cependant, il ne peut pas mesurer les nuances des modèles résultant de différentes architectures, paradigmes de formation et données.
Si on les juge uniquement par la précision d'ImageNet, les modèles avec des propriétés différentes peuvent se ressembler (Figure 1). Cette limitation devient plus apparente à mesure que le modèle commence à suradapter les fonctionnalités d'ImageNet et atteint la saturation en termes de précision.
Pour combler le fossé, les chercheurs ont mené une exploration approfondie du comportement du modèle au-delà de la précision d'ImageNet.
Afin d'étudier l'impact de l'architecture et des objectifs de formation sur les performances du modèle, Vision Transformer (ViT) et ConvNeXt ont été spécifiquement comparés. La précision de la validation ImageNet-1K et les exigences informatiques de ces deux architectures modernes sont comparables.
De plus, l'étude a comparé les modèles supervisés représentés par DeiT3-Base/16 et ConvNeXt-Base, ainsi que l'encodeur visuel d'OpenCLIP basé sur le modèle CLIP.
L'analyse des chercheurs a été conçue pour étudier le comportement d'un modèle qui peut être évalué sans formation ni ajustement supplémentaire.
Cette approche est particulièrement importante pour les praticiens disposant de ressources informatiques limitées, car ils s'appuient souvent sur des modèles pré-entraînés.
Dans l'analyse spécifique, bien que les auteurs reconnaissent la valeur des tâches en aval telles que la détection d'objets, l'accent est mis sur les fonctionnalités qui fournissent des informations avec des exigences de calcul minimales et reflètent des comportements importants pour les applications du monde réel.
Erreurs de modèle
ImageNet-X est un ensemble de données qui étend ImageNet-1K avec une annotation manuelle détaillée de 16 facteurs changeants, permettant une analyse approfondie des erreurs de modèle dans la classification des images.
Il utilise le taux d'erreur (le plus faible est le mieux) pour quantifier les performances du modèle sur des facteurs spécifiques par rapport à la précision globale, permettant une analyse nuancée des erreurs du modèle. Les résultats sur ImageNet-X montrent :
1 Par rapport à sa précision ImageNet, le modèle CLIP fait moins d'erreurs que le modèle supervisé.
2. Tous les modèles sont principalement affectés par des facteurs complexes tels que l'occlusion.
3. La texture est le facteur le plus difficile de tous les modèles.
Biais de forme/texture
Biais de forme/texture vérifie si le modèle s'appuie sur des raccourcis de texture plutôt que sur des astuces de forme avancées.
Ce biais peut être étudié en combinant des images contradictoires de différentes catégories de formes et de textures.
Cette approche permet de comprendre dans quelle mesure les décisions du modèle sont basées sur la forme par rapport à la texture.
Les chercheurs ont évalué le biais de forme-texture sur l'ensemble de données de conflit de signaux et ont découvert que le biais de texture du modèle CLIP était inférieur à celui du modèle supervisé, tandis que le biais de forme du modèle ViT était supérieur à celui des ConvNets. .
Calibrage du modèle
Le calibrage quantifie si la confiance de la prédiction d'un modèle est cohérente avec sa précision réelle.
Cela peut être évalué à l'aide de mesures telles que l'erreur d'étalonnage attendue (ECE), ainsi que d'outils de visualisation tels que des tracés de fiabilité et des histogrammes de confiance.
Les chercheurs ont évalué l'étalonnage sur ImageNet-1K et ImageNet-R, classant les prédictions en 15 niveaux. Dans l'expérience, les points suivants ont été observés :
- Le modèle CLIP a une confiance élevée, tandis que le modèle supervisé est légèrement insuffisant.
- ConvNeXt supervisé est mieux calibré que ViT supervisé.
Robustesse et portabilité
La robustesse et la portabilité du modèle sont la clé pour s'adapter aux changements de répartition des données et aux nouvelles tâches.
Les chercheurs ont évalué la robustesse en utilisant différentes variantes d'ImageNet et ont constaté que même si les modèles ViT et ConvNeXt avaient des performances moyennes similaires, à l'exception d'ImageNet-R et ImageNet-Sketch, les modèles supervisés surpassaient généralement en termes de robustesse.
En termes de portabilité, évalué sur 19 jeux de données à l'aide du benchmark VTAB, ConvNeXt supervisé surpasse ViT et est presque à égalité avec les performances du modèle CLIP.
Les données synthétiques
Les ensembles de données synthétiques comme PUG-ImageNet, qui peuvent contrôler avec précision des facteurs tels que l'angle et la texture de la caméra, sont devenus une voie de recherche prometteuse, c'est pourquoi les chercheurs se basent sur les performances synthétiques de l'analyse des données des modèles.
PUG-ImageNet contient des images ImageNet photoréalistes avec des variations systématiques d'éclairage et d'autres facteurs, avec des performances mesurées comme la plus haute précision absolue.
Les chercheurs fournissent des résultats pour différents facteurs dans PUG-ImageNet et constatent que ConvNeXt surpasse ViT dans presque tous les facteurs.
Cela montre que ConvNeXt surpasse ViT sur les données synthétiques, tandis que l'écart du modèle CLIP est plus petit, car la précision du modèle CLIP est inférieure à celle du modèle supervisé, ce qui peut être lié à la moindre précision de l'ImageNet d'origine. . L'invariance des caractéristiques fait référence à la capacité du modèle à produire des représentations cohérentes qui ne sont pas affectées par les transformations d'entrée, préservant ainsi la sémantique, telle que la mise à l'échelle ou le mouvement.
Cette fonctionnalité permet au modèle de bien généraliser à travers des entrées différentes mais sémantiquement similaires.
L’approche des chercheurs comprend le redimensionnement des images pour l’invariance d’échelle, le déplacement des recadrages pour l’invariance de position et l’ajustement de la résolution du modèle ViT à l’aide d’intégrations positionnelles interpolées.
ConvNeXt surpasse ViT en entraînement supervisé.
Dans l'ensemble, le modèle est plus robuste aux transformations d'échelle/résolution qu'aux mouvements. Pour les applications qui nécessitent une grande robustesse en matière de mise à l’échelle, de déplacement et de résolution, les résultats suggèrent que ConvNeXt supervisé peut être le meilleur choix.
Les chercheurs ont découvert que chaque modèle possède ses propres avantages.
Cela suggère que la sélection du modèle devrait dépendre du cas d'utilisation cible, car les mesures de performances standard peuvent négliger les nuances critiques pour la mission.
De plus, de nombreux benchmarks existants sont dérivés d'ImageNet, ce qui biaise l'évaluation. Le développement de nouveaux benchmarks avec différentes distributions de données est crucial pour évaluer les modèles dans un contexte représentatif plus réaliste.
ConvNet vs Transformer
- Dans de nombreux benchmarks, ConvNeXt supervisé a de meilleures performances que VIT supervisé : il est mieux calibré, invariant aux transformations de données, montre de meilleures performances Bonne transférabilité et robustesse.
- ConvNeXt surpasse ViT sur les données synthétiques.
- ViT a un biais de forme plus élevé.
Supervisé vs CLIP
- Bien que le modèle CLIP soit meilleur en termes de transférabilité, ConvNeXt supervisé a montré des performances compétitives sur cette tâche. Cela démontre le potentiel des modèles supervisés.
- Les modèles supervisés sont meilleurs pour les tests de robustesse, probablement parce que ces modèles sont des variantes d'ImageNet.
- Le modèle CLIP a un biais de forme plus élevé et moins d'erreurs de classification par rapport à sa précision ImageNet.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!