Maison >Périphériques technologiques >IA >Nouveau progrès dans la série « Spatial Intelligence » de Li Feifei, la nouvelle suite « BVS » de l'équipe de Wu Jiajun évalue les modèles de vision par ordinateur
Dans le discours TED de 2024 il n'y a pas si longtemps, Li Feifei a expliqué en détail le concept de Intelligence spatiale. Elle est ravie et extrêmement enthousiaste du développement rapide du domaine de la vision par ordinateur au cours des dernières années et crée une start-up à cet effet
Dans ce discours, elle a mentionné BEHAVIOR, un résultat de recherche de l'équipe de Stanford, qui est un ensemble de données comportementales et de mouvement qu'ils ont « créé » pour former des ordinateurs et des robots à la façon d'agir dans un monde tridimensionnel. BEHAVIOR est un énorme ensemble de données qui contient les comportements et les actions humaines dans divers scénarios. Le but de cet ensemble de données est de permettre aux ordinateurs et aux robots de mieux comprendre et imiter le comportement humain. En analysant une grande quantité de données dans BEHAVIOR, les chercheurs peuvent obtenir
Maintenant, Wu Jiajun a conduit l'équipe à publier une étude de suivi - "BEHAVIOR Vision Suite (BVS) ". Le journal a également reçu le CVPR 2024 Highlight.
Dans le domaine de la vision par ordinateur, l'évaluation et la compréhension systématiques des performances des modèles dans différentes conditions nécessitent des données quantitatives et des étiquettes complètes et personnalisées. Cependant, les ensembles de données visuelles du monde réel ont souvent du mal à répondre à ces besoins. Bien que des alternatives prometteuses telles que les tâches d’IA offrent des alternatives prometteuses, il existe encore de nombreuses lacunes en termes de ressources et de qualité de rendu, de diversité des données et de réalisme des propriétés physiques.
Afin de résoudre ces problèmes, l'équipe de recherche a lancé "BEHAVIOR Vision Suite (BVS)".
BVS est un ensemble d'outils et de ressources conçus pour l'évaluation systématique des modèles de vision par ordinateur. Basé sur le nouveau benchmark d'IA BEHAVIOR-1K, BVS peut ajuster les paramètres, couvrant le niveau de la scène (tel que l'éclairage, le placement de l'objet) et le niveau de l'objet (tel que la configuration commune, les attributs) et le niveau de la caméra (tel que le champ de vision, la distance focale). ). Les chercheurs peuvent ajuster ces paramètres lors de la collecte de données pour contrôler plus précisément les expériences.
Ce modèle démontre également les avantages du BVS dans différentes applications d'évaluation et de formation de modèles, y compris l'évaluation contrôlée par paramètres des modèles visuels dans la robustesse aux changements continus des paramètres environnementaux. , évaluation systématique des modèles de compréhension de scène (riches annotations visuelles) et formation de modèles pour de nouvelles tâches de vision
BVS comprend deux parties : la partie données et la partie basée sur ce générateur de données personnalisable
.
La partie données de BVS est étendue sur la base des actifs de BEHAVIOR-1K, comprenant un total de 8841 modèles d'objets 3D et scènes d'intérieur conçus par 51 artistes, étendus à 1000 instances de scène. L'équipe de recherche fournit également un script qui permet aux utilisateurs de générer automatiquement des instances de scène plus améliorées
Extension des actifs de BEHAVIOR-1K
Générateur de données personnalisables
Générateur de données personnalisable. permet aux utilisateurs d'utiliser facilement la partie données de BVS pour répondre à leurs besoins Ensemble de données d'images, telles que des scènes d'intérieur sous une lumière sombre
.BVS peut donner à l'ensemble de données généré une grande diversité sémantique tout en répondant aux exigences, tout en garantissant sa fidélité et sa rationalité physique. Plus précisément, les utilisateurs peuvent contrôler les cinq aspects suivants : la position de la caméra, l'éclairage, les propriétés des objets (telles que la taille), l'état de l'objet (tel que activé, désactivé) et les relations spatiales entre les objets.
Les chercheurs ont démontré le fonctionnement des données générées par BVS dans trois scénarios d'application, notamment :
Les paramètres évaluent de manière contrôlable la robustesse du modèle visuel lorsque les paramètres environnementaux changent continuellement
En générant des données qui changent continuellement dans une certaine dimension, les chercheurs évaluent systématiquement ici la robustesse du modèle visuel en cas de changement. Par exemple, des données avec des degrés d'occlusion d'objet progressivement croissants dans la même scène sont générées pour évaluer les performances du modèle visuel sous des objets partiellement obstrués.
En évaluant différents modèles SOTA, les chercheurs ont constaté que les modèles existants fonctionnent toujours mal sur les données en dehors des distributions courantes. Étant donné que ces données sont difficiles à obtenir ou à étiqueter dans le monde réel, ces conclusions sont difficiles à tirer directement à partir d’ensembles de données d’images réelles. Par conséquent, BVS peut aider les chercheurs à évaluer la robustesse du modèle dans les conditions qui les intéressent, afin de mieux développer et améliorer le modèle.
Le modèle SOTA existant peut encore être amélioré en termes de robustesse dans des conditions changeantes (telles que l'élévation de la caméra)
Performances de différents modèles de détection lorsque cinq paramètres environnementaux changent continuellement
Évaluation des modèles de compréhension de scène
Une autre caractéristique de l'ensemble de données formé par BVS est qu'il contient des étiquettes réelles multimodales, telles que la profondeur, la segmentation sémantique et les limites cibles, etc. Cela permet aux chercheurs d’utiliser les données générées par BVS pour évaluer des modèles de prédiction pour différentes tâches sur la même image.
L'équipe de recherche a évalué le modèle SOTA pour quatre tâches : détection et segmentation de mots ouverts, estimation de la profondeur et reconstruction de nuages de points, et a constaté que les performances du modèle sur l'ensemble de données BVS étaient cohérentes avec ses performances sur le benchmark de données réelles. de la tâche correspondante. Cela montre que les données de haute qualité générées par BVS reflètent et représentent véritablement les données du monde réel, et les chercheurs espèrent que de tels ensembles de données pourront promouvoir le développement de modèles de prédiction multitâches.
Dans le code open source, l'équipe de recherche fournit également un script pour permettre aux utilisateurs d'échantillonner des trajectoires dans la scène.
Les chercheurs ont collecté de nombreuses vidéos de navigation dans les scènes ⽤ pour évaluer le modèle de compréhension de la scène
ensemble de données global de compréhension de la scène. Les chercheurs ont généré un grand nombre de vidéos traversantes dans des scènes représentatives, chacune contenant plus de 10 trajectoires de caméra. Pour chaque image, BVS génère diverses étiquettes (par exemple, carte de scène, masque de segmentation, carte de profondeur)
L'ordre de performance relatif du modèle SOTA sur les données BVS est cohérent avec le benchmark de tâches réelles
Formation de nouveaux modèles de tâches de vision
La contribution des données de BVS ne se limite pas seulement à l'évaluation du modèle , mais aussi pour ceux qui sont difficiles à utiliser dans des scénarios réels. Pour la tâche de collecte ou d'étiquetage des données, les données BVS peuvent également être utilisées pour la formation de modèles.
L'auteur a utilisé BVS pour générer 12,5 000 images et ne l'a utilisé que pour entraîner une relation spatiale d'objet et un modèle de prédiction d'état. Ce modèle a obtenu un score F1 de 0,839 dans des scénarios réels sans utiliser de données réelles pour la formation, démontrant ainsi d'excellentes capacités de transfert de la simulation au réel.
Exemple de diagramme de l'ensemble de données de formation simulé et de l'ensemble de données de test réel
Utilisation des données générées par BVS pour former la relation spatiale de l'objet et le modèle de prédiction d'état
BVS fournit un ensemble puissant d'outils et de ressources, offrant aux chercheurs en vision par ordinateur de nouvelles façons de générer des ensembles de données synthétiques personnalisés.
En contrôlant et en ajustant systématiquement divers paramètres dans le processus de génération de données, les chercheurs peuvent évaluer et améliorer de manière plus complète les performances des modèles de vision par ordinateur, jetant ainsi une base solide pour les recherches et applications futures.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!