Maison  >  Article  >  Périphériques technologiques  >  Nouveau progrès dans la série « Spatial Intelligence » de Li Feifei, la nouvelle suite « BVS » de l'équipe de Wu Jiajun évalue les modèles de vision par ordinateur

Nouveau progrès dans la série « Spatial Intelligence » de Li Feifei, la nouvelle suite « BVS » de l'équipe de Wu Jiajun évalue les modèles de vision par ordinateur

PHPz
PHPzoriginal
2024-06-10 14:04:571107parcourir

Dans le discours TED de 2024 il n'y a pas si longtemps, Li Feifei a expliqué en détail le concept de Intelligence spatiale. Elle est ravie et extrêmement enthousiaste du développement rapide du domaine de la vision par ordinateur au cours des dernières années et crée une start-up à cet effet

Dans ce discours, elle a mentionné BEHAVIOR, un résultat de recherche de l'équipe de Stanford, qui est un ensemble de données comportementales et de mouvement qu'ils ont « créé » pour former des ordinateurs et des robots à la façon d'agir dans un monde tridimensionnel. BEHAVIOR est un énorme ensemble de données qui contient les comportements et les actions humaines dans divers scénarios. Le but de cet ensemble de données est de permettre aux ordinateurs et aux robots de mieux comprendre et imiter le comportement humain. En analysant une grande quantité de données dans BEHAVIOR, les chercheurs peuvent obtenir

Maintenant, Wu Jiajun a conduit l'équipe à publier une étude de suivi - "BEHAVIOR Vision Suite (BVS) ". Le journal a également reçu le CVPR 2024 Highlight.

Nouveau progrès dans la série « Spatial Intelligence » de Li Feifei, la nouvelle suite « BVS » de léquipe de Wu Jiajun évalue les modèles de vision par ordinateur

Dans le domaine de la vision par ordinateur, l'évaluation et la compréhension systématiques des performances des modèles dans différentes conditions nécessitent des données quantitatives et des étiquettes complètes et personnalisées. Cependant, les ensembles de données visuelles du monde réel ont souvent du mal à répondre à ces besoins. Bien que des alternatives prometteuses telles que les tâches d’IA offrent des alternatives prometteuses, il existe encore de nombreuses lacunes en termes de ressources et de qualité de rendu, de diversité des données et de réalisme des propriétés physiques.

Afin de résoudre ces problèmes, l'équipe de recherche a lancé "BEHAVIOR Vision Suite (BVS)".

BVS est un ensemble d'outils et de ressources conçus pour l'évaluation systématique des modèles de vision par ordinateur. Basé sur le nouveau benchmark d'IA BEHAVIOR-1K, BVS peut ajuster les paramètres, couvrant le niveau de la scène (tel que l'éclairage, le placement de l'objet) et le niveau de l'objet (tel que la configuration commune, les attributs) et le niveau de la caméra (tel que le champ de vision, la distance focale). ). Les chercheurs peuvent ajuster ces paramètres lors de la collecte de données pour contrôler plus précisément les expériences.

Ce modèle démontre également les avantages du BVS dans différentes applications d'évaluation et de formation de modèles, y compris l'évaluation contrôlée par paramètres des modèles visuels dans la robustesse aux changements continus des paramètres environnementaux. , évaluation systématique des modèles de compréhension de scène (riches annotations visuelles) et formation de modèles pour de nouvelles tâches de vision

Nouveau progrès dans la série « Spatial Intelligence » de Li Feifei, la nouvelle suite « BVS » de léquipe de Wu Jiajun évalue les modèles de vision par ordinateur


  • Lien du projet : https://behaviour-vision-suite.github. io/
  • Lien papier : https://arxiv.org/pdf/2405.09546
  • Lien code : https://github.com/behavior- vue -suite/behaviour-vision-suite.github.io

Nouveau progrès dans la série « Spatial Intelligence » de Li Feifei, la nouvelle suite « BVS » de léquipe de Wu Jiajun évalue les modèles de vision par ordinateur

BEHAVIOR Vision Suite

BVS comprend deux parties : la partie données et la partie basée sur ce générateur de données personnalisable

.

La partie données de BVS est étendue sur la base des actifs de BEHAVIOR-1K, comprenant un total de 8841 modèles d'objets 3D et scènes d'intérieur conçus par 51 artistes, étendus à 1000 instances de scène. L'équipe de recherche fournit également un script qui permet aux utilisateurs de générer automatiquement des instances de scène plus améliorées

Extension des actifs de BEHAVIOR-1KNouveau progrès dans la série « Spatial Intelligence » de Li Feifei, la nouvelle suite « BVS » de léquipe de Wu Jiajun évalue les modèles de vision par ordinateur

Générateur de données personnalisables

Générateur de données personnalisable. permet aux utilisateurs d'utiliser facilement la partie données de BVS pour répondre à leurs besoins Ensemble de données d'images, telles que des scènes d'intérieur sous une lumière sombre

.

BVS peut donner à l'ensemble de données généré une grande diversité sémantique tout en répondant aux exigences, tout en garantissant sa fidélité et sa rationalité physique. Plus précisément, les utilisateurs peuvent contrôler les cinq aspects suivants : la position de la caméra, l'éclairage, les propriétés des objets (telles que la taille), l'état de l'objet (tel que activé, désactivé) et les relations spatiales entre les objets.

Scénarios d'application

Les chercheurs ont démontré le fonctionnement des données générées par BVS dans trois scénarios d'application, notamment :

  • Évaluation paramétrable des modèles visuels dans les paramètres environnementaux Robustesse lors de changements continus : Explorez les performances du modèle sous des changements continus dans différents paramètres environnementaux (degré d'occlusion, luminosité ambiante, angle de prise de vue, mouvement des articulations de l'objet, champ de vision), comme l'évaluation du modèle de détection d'objet lorsque la porte du réfrigérateur passe de complètement fermée à pendant le processus d'ouverture complète , le modèle peut détecter correctement la présence d'un réfrigérateur, garantissant ainsi que le modèle peut faire face à divers changements environnementaux dans les applications réelles. Les limites de capacité du modèle dans différentes conditions de paramètres limites peuvent également être explorées.
  • Évaluer les modèles de compréhension de scène : à l'aide d'images entièrement annotées, les performances de divers modèles de compréhension de scène sont systématiquement évaluées.
  • Former un nouveau modèle de tâche de vision : Former un nouveau modèle de tâche de vision pour la prédiction de l'état des objets et des relations sur des données synthétiques, et évaluer sa transférabilité de la simulation aux applications réelles pour garantir que le modèle est efficace dans des environnements réels.

Les paramètres évaluent de manière contrôlable la robustesse du modèle visuel lorsque les paramètres environnementaux changent continuellement

En générant des données qui changent continuellement dans une certaine dimension, les chercheurs évaluent systématiquement ici la robustesse du modèle visuel en cas de changement. Par exemple, des données avec des degrés d'occlusion d'objet progressivement croissants dans la même scène sont générées pour évaluer les performances du modèle visuel sous des objets partiellement obstrués.

En évaluant différents modèles SOTA, les chercheurs ont constaté que les modèles existants fonctionnent toujours mal sur les données en dehors des distributions courantes. Étant donné que ces données sont difficiles à obtenir ou à étiqueter dans le monde réel, ces conclusions sont difficiles à tirer directement à partir d’ensembles de données d’images réelles. Par conséquent, BVS peut aider les chercheurs à évaluer la robustesse du modèle dans les conditions qui les intéressent, afin de mieux développer et améliorer le modèle.

Nouveau progrès dans la série « Spatial Intelligence » de Li Feifei, la nouvelle suite « BVS » de léquipe de Wu Jiajun évalue les modèles de vision par ordinateur

Le modèle SOTA existant peut encore être amélioré en termes de robustesse dans des conditions changeantes (telles que l'élévation de la caméra)

Nouveau progrès dans la série « Spatial Intelligence » de Li Feifei, la nouvelle suite « BVS » de léquipe de Wu Jiajun évalue les modèles de vision par ordinateur

Performances de différents modèles de détection lorsque cinq paramètres environnementaux changent continuellement

Évaluation des modèles de compréhension de scène

Une autre caractéristique de l'ensemble de données formé par BVS est qu'il contient des étiquettes réelles multimodales, telles que la profondeur, la segmentation sémantique et les limites cibles, etc. Cela permet aux chercheurs d’utiliser les données générées par BVS pour évaluer des modèles de prédiction pour différentes tâches sur la même image.

L'équipe de recherche a évalué le modèle SOTA pour quatre tâches : détection et segmentation de mots ouverts, estimation de la profondeur et reconstruction de nuages ​​de points, et a constaté que les performances du modèle sur l'ensemble de données BVS étaient cohérentes avec ses performances sur le benchmark de données réelles. de la tâche correspondante. Cela montre que les données de haute qualité générées par BVS reflètent et représentent véritablement les données du monde réel, et les chercheurs espèrent que de tels ensembles de données pourront promouvoir le développement de modèles de prédiction multitâches.

Dans le code open source, l'équipe de recherche fournit également un script pour permettre aux utilisateurs d'échantillonner des trajectoires dans la scène.

Nouveau progrès dans la série « Spatial Intelligence » de Li Feifei, la nouvelle suite « BVS » de léquipe de Wu Jiajun évalue les modèles de vision par ordinateur

Les chercheurs ont collecté de nombreuses vidéos de navigation dans les scènes ⽤ pour évaluer le modèle de compréhension de la scène

Nouveau progrès dans la série « Spatial Intelligence » de Li Feifei, la nouvelle suite « BVS » de léquipe de Wu Jiajun évalue les modèles de vision par ordinateur

ensemble de données global de compréhension de la scène. Les chercheurs ont généré un grand nombre de vidéos traversantes dans des scènes représentatives, chacune contenant plus de 10 trajectoires de caméra. Pour chaque image, BVS génère diverses étiquettes (par exemple, carte de scène, masque de segmentation, carte de profondeur)

Nouveau progrès dans la série « Spatial Intelligence » de Li Feifei, la nouvelle suite « BVS » de léquipe de Wu Jiajun évalue les modèles de vision par ordinateur

L'ordre de performance relatif du modèle SOTA sur les données BVS est cohérent avec le benchmark de tâches réelles

Formation de nouveaux modèles de tâches de vision

La contribution des données de BVS ne se limite pas seulement à l'évaluation du modèle , mais aussi pour ceux qui sont difficiles à utiliser dans des scénarios réels. Pour la tâche de collecte ou d'étiquetage des données, les données BVS peuvent également être utilisées pour la formation de modèles.

L'auteur a utilisé BVS pour générer 12,5 000 images et ne l'a utilisé que pour entraîner une relation spatiale d'objet et un modèle de prédiction d'état. Ce modèle a obtenu un score F1 de 0,839 dans des scénarios réels sans utiliser de données réelles pour la formation, démontrant ainsi d'excellentes capacités de transfert de la simulation au réel.

Nouveau progrès dans la série « Spatial Intelligence » de Li Feifei, la nouvelle suite « BVS » de léquipe de Wu Jiajun évalue les modèles de vision par ordinateur

Exemple de diagramme de l'ensemble de données de formation simulé et de l'ensemble de données de test réel

Nouveau progrès dans la série « Spatial Intelligence » de Li Feifei, la nouvelle suite « BVS » de léquipe de Wu Jiajun évalue les modèles de vision par ordinateur

Utilisation des données générées par BVS pour former la relation spatiale de l'objet et le modèle de prédiction d'état

summary

BVS fournit un ensemble puissant d'outils et de ressources, offrant aux chercheurs en vision par ordinateur de nouvelles façons de générer des ensembles de données synthétiques personnalisés.

En contrôlant et en ajustant systématiquement divers paramètres dans le processus de génération de données, les chercheurs peuvent évaluer et améliorer de manière plus complète les performances des modèles de vision par ordinateur, jetant ainsi une base solide pour les recherches et applications futures.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn