Maison > Article > Périphériques technologiques > Nouveau titre : L'Université de Pékin ouvre une nouvelle ère : un nouveau paradigme d'estimation de la pose d'objets 6D au niveau de la catégorie obtient les derniers et meilleurs résultats au NeurIPS 2023
Des chercheurs de l'Université de Pékin ont proposé une nouvelle méthode d'estimation de la pose d'objets 6D au niveau de la catégorie, qui est un problème fondamental et important largement utilisé dans des domaines tels que la robotique, la réalité virtuelle et la réalité augmentée. Ils ont obtenu de nouveaux résultats SOTA dans cet article, et ils ont été acceptés par NeurIPS 2023, la plus grande conférence dans le domaine de l'apprentissage automatique
L'estimation de la pose d'objets 6D est une tâche importante dans le domaine de la vision par ordinateur, en robotique, virtuelle réalité et augmentation Il existe de nombreuses applications dans la réalité et dans d'autres domaines. Bien que des progrès significatifs aient été réalisés dans l'estimation de la pose d'objet au niveau de l'instance, cela nécessite une connaissance préalable des caractéristiques de l'objet et ne peut donc pas être facilement appliqué à de nouveaux objets, ce qui limite son application pratique. Pour résoudre ce problème, ces dernières années, de plus en plus d’efforts de recherche se sont concentrés sur l’estimation de la pose d’objet au niveau catégorie. L'estimation de pose au niveau de la catégorie nécessite des algorithmes qui ne s'appuient pas sur le modèle CAO de l'objet et peuvent être directement appliqués à de nouveaux objets de la même catégorie que ceux des données d'entraînement.
À l'heure actuelle, les méthodes d'estimation de pose d'objet 6D actuellement largement utilisées peuvent être divisées en deux catégories principales : l'une est la méthode de régression directe de bout en bout et l'autre est la méthode en deux étapes basée sur la catégorie d'objet précédente. . Cependant, ces méthodes modélisent toutes le problème comme une tâche de régression, des conceptions spéciales sont donc nécessaires pour traiter des problèmes multi-solutions lorsqu'il s'agit d'objets symétriques et d'objets partiellement visibles.
Pour surmonter ces défis, une équipe de recherche de l'Université de Pékin a proposé une nouvelle Le paradigme d'estimation de la pose d'objet 6D au niveau de la catégorie redéfinit le problème comme un problème de modélisation de distribution conditionnelle, obtenant ainsi les dernières performances optimales. Ils ont également appliqué avec succès cette méthode à des tâches de manipulation de robots telles que verser de l'eau, comme le montre la vidéo.
Veuillez cliquer sur le lien suivant pour consulter l'article : https://arxiv.org/abs/2306.10531
En 6D estimation de la pose de l'objet Au niveau de la catégorie, un problème à solutions multiples signifie qu'il peut y avoir plusieurs estimations d'attitude raisonnables dans les mêmes conditions d'observation. Cette situation est principalement due à deux facteurs, comme le montre la figure 1 : les objets symétriques et les observations partielles. Pour les objets symétriques, tels que les objets sphériques ou cylindriques, ils peuvent être exactement les mêmes lorsqu'ils sont vus dans des directions différentes, donc théoriquement ils ont un nombre infini de vraies valeurs possibles pour leur attitude. Dans le même temps, une observation complète d'un objet ne peut pas être obtenue à partir d'une seule perspective, comme une tasse. Lorsque l'anse de la tasse n'est pas observée, il existe une infinité de vraies valeurs possibles de l'attitude
Figure. 1. Source de problèmes à solutions multiples : Objets symétriques et observations partielles
Introduction aux méthodes
Comment traiter les problèmes à solutions multiples ci-dessus ? Les auteurs considèrent ce problème comme un problème de modélisation de distribution conditionnelle et proposent une méthode appelée GenPose, qui utilise un modèle de diffusion pour estimer la distribution conditionnelle des poses d'objets. Le procédé utilise d'abord un modèle de diffusion basé sur des scores pour générer des candidats à la pose d'objets. Les candidats sont ensuite regroupés en deux étapes : d'abord, les valeurs aberrantes sont filtrées par estimation de vraisemblance, puis les poses de candidats restantes sont agrégées par regroupement moyen. Afin d'éviter le recours à des calculs intégraux fastidieux lors de l'estimation de la vraisemblance, les auteurs de l'étude ont également introduit une méthode de formation de modèle de diffusion basée sur l'énergie pour obtenir une estimation de la vraisemblance de bout en bout
réexprimée comme suit : Image 2 Démonstration de la structure du cadre de GenPose
Le modèle de diffusion basé sur les scores est utilisé pour générer des candidats à la pose d'objets
Contenu réécrit : Le but de cette étape est de résoudre le problème multi-solutions, alors comment modéliser la distribution de probabilité conditionnelle de la pose de l'objet ? Les auteurs ont adopté un modèle de diffusion basé sur les fractions et ont construit un processus de diffusion continue à l'aide de VE SDE (équations différentielles stochastiques variationnelles d'Euler). Au cours du processus de formation du modèle, l'objectif est d'estimer la fonction fractionnaire de la distribution d'attitude conditionnelle perturbée, et enfin d'échantillonner l'attitude de l'objet candidat à partir de la distribution conditionnelle via l'ODE de flux de probabilité (équation différentielle ordinaire)
en fonction du score, le modèle de diffusion génère des candidats à la pose d'objet, comme le montre la figure 3. Il est appliqué pour améliorer la précision de la reconnaissance des objets. Grâce à la distribution conditionnelle entraînée, un nombre illimité de candidats à la pose d'objet peuvent être générés. A partir de ces candidats, comment déduire la pose d'objet finale ? La méthode la plus simple est l’échantillonnage aléatoire, mais cette méthode ne garantit pas la stabilité des résultats de prédiction. Est-il possible d'agréger ces candidats à la pose via une mutualisation moyenne ? Cependant, cette méthode d’agrégation ne prend pas en compte la qualité des poses candidates et est facilement affectée par les valeurs aberrantes. L'auteur estime que la qualité des poses candidates peut être prise en compte et agrégée grâce à l'estimation de la vraisemblance. Plus précisément, sur la base des résultats de l'estimation de vraisemblance, les poses d'objet candidates sont triées, les valeurs aberrantes ayant des estimations de vraisemblance plus faibles sont filtrées, puis les poses candidates restantes sont regroupées en moyenne pour obtenir les résultats d'estimation de pose agrégés. Cependant, l’utilisation du modèle de diffusion pour l’estimation de la vraisemblance nécessite des calculs intégraux complexes, ce qui affecte sérieusement la vitesse d’inférence et limite son application pratique. Afin de résoudre ce problème, l'auteur a proposé de former un modèle de diffusion basé sur l'énergie, qui est directement utilisé pour l'estimation de la vraisemblance de bout en bout, permettant ainsi une agrégation rapide des candidats
Figure 4. Énergie- un modèle de diffusion basé sur l'estimation de la similarité est utilisé pour l'estimation aléatoire et l'agrégation des candidats à la pose d'objet Expériences et résultats
L'auteur a vérifié les performances de GenPose sur l'ensemble de données REAL275. On peut voir que GenPose est nettement meilleur que le. méthode précédente dans tous les indicateurs, même Par rapport aux méthodes qui utilisent davantage d'informations modales, GenPose a toujours une grande avance. Le tableau 1 montre les avantages du paradigme d'estimation de pose d'objet génératif proposé par l'auteur. La figure 5 est le résultat de la visualisation.
Le contenu qui doit être réécrit est : comparaison avec d'autres méthodes
La cinquième image montre l'effet de visualisation de prédiction de différentes méthodes
L'auteur a également étudié différentes agrégations Influence des méthodes (échantillonnage aléatoire, tri et agrégation aléatoires, tri et agrégation énergétiques, tri et agrégation GT). Les résultats montrent que le classement utilisant des modèles énergétiques surpasse largement les méthodes d’échantillonnage aléatoire. De plus, le modèle de diffusion basé sur l'énergie proposé par l'auteur pour agréger les candidats à la pose d'objets est également nettement meilleur que la méthode de pooling moyenne après échantillonnage aléatoire et tri aléatoire. Tableau 2. Comparaison des différentes méthodes d'agrégation
Pour mieux analyser l'impact. du modèle énergétique, les auteurs ont étudié plus en détail la corrélation entre l'erreur de pose estimée et l'énergie prédite. Comme le montre la figure 4, il existe une corrélation négative générale entre l’erreur de pose prévue et l’énergie. Le modèle énergétique fonctionne mieux lors de l'identification des postures avec des erreurs plus importantes, mais fonctionne moins bien lors de l'identification des postures avec des erreurs plus petites, ce qui explique pourquoi l'énergie prédite est utilisée pour supprimer les valeurs aberrantes au lieu de sélectionner directement celle avec la plus grande énergie
. Figure 6. Analyse de corrélation d'erreurs d'énergie et de prédictionLes auteurs ont également démontré la capacité de cette méthode en généralisation inter-catégories, qui ne repose pas sur des connaissances préalables de catégorie et fonctionne bien dans toutes les catégories. également nettement meilleure que la méthode précédente
Le tableau 3 montre l'effet de généralisation inter-catégories. La barre oblique de gauche représente la performance lorsque la catégorie de test est incluse dans l'ensemble de données d'entraînement, et la barre oblique de droite représente la performance après la suppression de la catégorie de test pendant l'entraînement
En même temps, en raison de la fermeture -processus de génération de boucles du modèle de diffusion, l'unité unique de l'article. Le cadre d'estimation de la pose du cadre peut également être directement utilisé pour les tâches de suivi de la pose d'objets 6D sans aucune conception particulière. Cette méthode surpasse la pose d'objets 6D de pointe. méthodes de suivi dans plusieurs indicateurs, et les résultats sont présentés dans le tableau 4.
Tableau 4. Comparaison des performances de suivi de pose d'objet 6D au niveau de la catégorie
Résumé et perspectives
Ce travail propose un nouveau paradigme pour l'estimation de la pose d'objet 6D au niveau de la catégorie, et le processus de formation le fait pas besoin d'être symétrique Aucune conception spéciale n'est nécessaire pour résoudre les problèmes multi-solutions causés par l'observation d'objets et partielle, et de nouvelles performances SOTA sont obtenues. Les travaux futurs tireront parti des progrès récents dans les modèles de diffusion pour accélérer le processus d'inférence et envisageront d'incorporer l'apprentissage par renforcement pour obtenir une estimation active de la pose d'objets 6D.
Présentation de l'équipe de recherche :
L'auteur correspondant de cette étude, Dong Hao, est professeur adjoint, directeur de doctorat, jeune chercheur en arts libéraux et chercheur Chi Yuan à l'Université de Pékin. Il a fondé et dirige l'Hyperplane Lab. à l'Université de Pékin.
Les co-auteurs de l'article Zhang Jiyao et Wu Mingdong sont des doctorants à l'Université de Pékin et leur superviseur est le professeur Dong Hao. Pour plus de détails, veuillez consulter leur page d'accueil personnelle. Le contenu qui doit être réécrit est le suivant : Zhang Jiyao et Wu Mingdong sont des doctorants à l'Université de Pékin. Ils ont co-écrit un article et M. Dong Hao est leur superviseur. Veuillez consulter leur page d'accueil personnelle pour des informations spécifiques
Ce qui doit être réécrit est : https://jiyao06.github.io/
https://aaronanima.github.io/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!