Maison  >  Article  >  Périphériques technologiques  >  CVPR 2024 | L'ensemble de données vidéo synthétiques contient-il uniquement des données sur une seule personne ? M3Act résout le problème de l'étiquetage du comportement des foules

CVPR 2024 | L'ensemble de données vidéo synthétiques contient-il uniquement des données sur une seule personne ? M3Act résout le problème de l'étiquetage du comportement des foules

王林
王林original
2024-06-03 22:02:59558parcourir
CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题
La rubrique AIxiv est une rubrique où des contenus académiques et techniques sont publiés sur ce site. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. E-mail de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

  • Lien papier : https://arxiv.org/abs/2306.16772
  • Lien du projet : https://cjerry1243. github.io/M3Act/
  • Titre de l'article : M3Act : Apprendre des activités de groupe humain synthétiques

Introduction

Reconnaître et comprendre le comportement des foules grâce à l'information visuelle est un domaine de la surveillance vidéo, des robots interactifs et de la conduite autonome , etc. est l'une des technologies clés, mais l'obtention de données d'annotation du comportement des foules à grande échelle est devenue un goulot d'étranglement dans le développement de recherches connexes. De nos jours, les ensembles de données synthétiques deviennent une méthode émergente pour remplacer les données du monde réel, mais les ensembles de données synthétiques dans les recherches existantes se concentrent principalement sur l'estimation de la pose et de la forme humaines. Ils ne fournissent souvent que des vidéos d'animation synthétiques d'une une seule personne, ce qui ne convient pas aux tâches de reconnaissance vidéo de foules.

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

Dans cet article, l'auteur propose M3Act, un framework de génération de données synthétiques adapté au comportement des foules multi-groupes. Les expériences montrent que cet ensemble de données synthétiques peut grandement améliorer les performances des modèles en aval en matière de suivi de plusieurs personnes et de reconnaissance d'activités de groupe, et peut remplacer plus de 62,5 % des données réelles sur la tâche DanceTrack, réduisant ainsi les coûts d'annotation des données dans les applications réelles. scénarios. De plus, ce cadre de données synthétiques propose une nouvelle classe de tâches : la génération d'activité d'essaim 3D contrôlable. Cette tâche vise à contrôler directement les résultats de génération d'activité d'essaim en utilisant plusieurs entrées (catégorie d'activité, taille de l'essaim, trajectoire, densité, vitesse et saisie de texte). Les auteurs définissent rigoureusement les tâches et les mesures et fournissent des références et des résultats compétitifs.

Génération de données
Développé sur la base du moteur Unity, M3Act couvre les données de foule de plusieurs types de comportement, fournit des images vidéo très diverses et réalistes et un étiquetage complet des données. Comparé à d'autres ensembles de données synthétiques, M3Act fournit des données étiquetées plus complètes, comprenant des marqueurs 2D et 3D ainsi que des étiquettes fines au niveau individuel et au niveau du groupe, ce qui en fait une synthèse idéale pour prendre en charge les tâches de recherche multi-personnes et multi-groupes. Générateur de jeux de données.

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

Le générateur de données comprend 25 scènes 3D, 104 images panoramiques à plage dynamique élevée, 5 réglages d'éclairage, 2 200 modèles de personnages, 384 animations (14 catégories d'actions) et 6 types d'activités de groupe. Le processus de génération de données est le suivant. Tout d'abord, tous les paramètres d'un scénario de simulation sont déterminés via un processus de randomisation, puis une scène 3D avec des objets d'arrière-plan, des lumières et des caméras, ainsi qu'un groupe de modèles de personnages avec animation sont générés en fonction des paramètres. . Enfin, les images RVB sont rendues à partir de plusieurs points de vue et les résultats étiquetés sont exportés.

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

Pour garantir un haut degré de diversité dans les données simulées, M3Act fournit une randomisation pour presque tous les aspects du processus de génération de données. Cela inclut le nombre de groupes dans la scène, le nombre de personnes dans chaque groupe, la position du groupe, la disposition des personnes dans le groupe, la position des individus, les textures des personnages instanciés, ainsi que la scène. , conditions d'éclairage, position de la caméra, personnages, activité de groupe, atomes Sélection de clips d'action et d'animation. Chaque activité de groupe est également construite sous forme de module paramétré. Ces paramètres incluent le nombre d'individus dans l'essaim et les actions atomiques spécifiques autorisées dans le cadre de l'activité de l'essaim.

L'ensemble de données final généré est divisé en deux parties. La première partie "M3ActRGB" contient 6 000 simulations d'activités de groupe uniques mais multiples et 9 000 simulations de plusieurs groupes et types multiples, avec un total de 6 millions d'images RVB et 48 millions de cadres de délimitation. La deuxième partie "M3Act3D" contient uniquement des données 3D. Il se compose de plus de 65 000 simulations de 150 images d’une seule activité de groupe multi-type, totalisant 87,6 heures. À la connaissance des auteurs, la taille du groupe et la complexité des interactions de M3Act3D sont nettement supérieures aux précédents ensembles de données sportives multijoueurs, ce qui en fait le premier ensemble de données 3D à grande échelle pour les activités de grands groupes.

Résultats expérimentaux

L'effet réel de M3Act est démontré à travers trois expériences principales : le suivi de plusieurs personnes, la reconnaissance d'activité de groupe et la génération d'activité de groupe contrôlable.

Expérience 1 : Suivi multi-personnes

L'étude a révélé qu'après avoir ajouté des données synthétiques à la formation du modèle existant MOTRv2 [1], le modèle était significatif dans les 5 indicateurs Amélioration , notamment de la 10ème à la 2ème place du classement sur l'indicateur HOTA. Dans le même temps, lorsque 62,5 % des données réelles de l’ensemble d’apprentissage étaient remplacées par des données synthétiques, le modèle pouvait toujours atteindre des performances similaires. De plus, par rapport à d'autres sources de données synthétiques, telles que BEDLAM et GTA-Humans, M3Act offre de plus grandes améliorations de performances pour la formation de modèles, indiquant qu'il est plus adapté aux tâches d'activité de groupe à plusieurs personnes. Enfin, le tableau ci-dessous présente les résultats de formation des différents modèles sous M3Act. Les résultats montrent que M3Act est efficace dans différents modèles.

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

Expérience 2 : Reconnaissance des activités de groupe

De même, M3Act a également amélioré les performances de deux modèles de reconnaissance d'activités de groupe existants, comme le montre le tableau suivant : Avec la synthèse utilisée pour la pré-formation À mesure que la quantité de données augmente, la précision de la reconnaissance continue de s'améliorer. En utilisant des données 100 % synthétiques, la précision du modèle de reconnaissance d'activité de groupe Composer [2] a augmenté en moyenne de 4,87 % au niveau du groupe et de 7,43 % au niveau individuel, tandis qu'un autre modèle de reconnaissance d'activité de groupe Actor Transformer [3] s'est amélioré. au niveau du groupe, une augmentation de 5,59 % de la précision a été observée et une augmentation de 5,43 % au niveau individuel.

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

Le tableau ci-dessous montre la précision de la reconnaissance de groupe sur CAD2 et Volleyball (VD) en utilisant différentes modalités de saisie. Les gains de performances lors des expériences démontrent que les données synthétiques de M3Act peuvent bénéficier efficacement aux tâches en aval et couvrir différents modèles, modalités d'entrée et ensembles de données.

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

Expérience 3 : Génération d'activités de groupe 3D contrôlables

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

L'auteur propose un nouveau type de tâche : la génération d'activités de groupe 3D contrôlables. La tâche vise à synthétiser un ensemble d'actions humaines 3D à partir d'un bruit gaussien basé sur une étiquette de classe d'activité donnée et une taille de population arbitraire. Bien que les études existantes puissent générer des actions multi-acteurs, elles se limitent à des scénarios à deux ou à des groupes avec un nombre fixe de personnes. Par conséquent, les auteurs proposent deux méthodes de base. Dans la première approche de base, l’activité de groupe est mise en œuvre en invoquant à plusieurs reprises le modèle de diffusion de mouvement pour une seule personne MDM [4], de sorte que le processus de génération pour chaque individu est indépendant. La deuxième méthode ajoute un transformateur interactif (IFormer) basé sur MDM. Grâce à sa modélisation des interactions humaines, MDM+IFormer est capable de produire des activités de groupe coordonnées en un seul passage.

L'auteur considère les indicateurs d'évaluation suivants aux niveaux collectif et individuel : précision de la reconnaissance, distance initiale de Fréchette (FID), diversité et multimodalité. De plus, sur la base du modèle de force sociale, l'auteur ajoute quatre indicateurs basés sur la localisation au niveau du groupe : la fréquence des collisions, la force d'interaction répulsive, la force répulsive de contact et la force répulsive totale. Les résultats montrent :

  • MDM+IFormer est capable de générer des activités de groupe avec des positions de personnages bien alignées. Voir graphique qualitatif ci-dessous.
  • Les deux méthodes de base peuvent générer diverses activités correspondant aux conditions d'entrée, mais MDM+IFormer obtient de meilleurs scores FID.
  • Les transformateurs interactifs dans MDM+IFormer réduisent considérablement la fréquence des collisions au sein des activités de groupe générées.

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

Conclusion

Les auteurs de l'article ont démontré les avantages de M3Act à travers trois expériences principales sur la multimodalité et les performances améliorées, ainsi que l'introduction d'une tâche de nouvelle génération . Dans des expériences sur le suivi de plusieurs personnes et la reconnaissance des activités de groupe, ils ont observé que la capacité de généralisation du modèle aux cas de test invisibles s'améliorait à mesure que davantage de données synthétiques étaient ajoutées.

De plus, les données synthétiques dans M3Act peuvent remplacer certaines des données réelles dans le champ cible sans affecter les performances, ce qui devrait réduire le besoin d'une grande quantité de données réelles pendant le processus de formation, réduisant ainsi le coût de la collecte et de l’annotation des données. Cette découverte démontre le potentiel de petits échantillons, voire de zéro, pour migrer des données simulées vers des données réelles.

Dans la génération d'activités de groupe 3D contrôlables, bien que MDM+IFormer ne soit qu'un modèle de base pour cette tâche, il apprend toujours les règles d'interaction du mouvement des personnages et génère des activités de groupe bien alignées sous contrôle. Notamment, bien que les approches génératives surpassent actuellement les approches procédurales, elles démontrent le potentiel de contrôler les actions de groupe directement à partir d'une variété de signaux (catégorie d'activité, taille du groupe, trajectoire, densité, vitesse et saisie de texte). À mesure que la disponibilité des données augmente et que les capacités des modèles génératifs s’améliorent à l’avenir, les auteurs prédisent que les méthodes génératives finiront par prendre le relais et seront plus largement utilisées dans les interactions sociales et les activités humaines collectives.

Bien que la complexité du comportement de groupe dans l'ensemble de données M3Act puisse être limitée par les règles heuristiques du processus de génération de données, M3Act offre une flexibilité significative dans l'intégration de nouvelles activités de groupe pour s'adapter à toute tâche spécifique en aval. Ces nouveaux groupes peuvent provenir de règles heuristiques guidées par des experts, de règles générées par de grands modèles de langage ou du résultat d'un modèle génératif d'activité de groupe 3D contrôlable. En outre, les auteurs de l'article reconnaissent les différences de domaine qui existent entre les données synthétiques et réelles. Avec l'ajout d'actifs dans le générateur de données dans les versions futures, il sera possible d'améliorer les capacités de généralisation du modèle et d'atténuer ces différences.

[1] Yuang Zhang, Tiancai Wang et Xiangyu Zhang Motrv2 : Amorçage du suivi multi-objets de bout en bout par des détecteurs d'objets pré-entraînés. Dans les actes de la conférence IEEE/CVF sur la vision par ordinateur et les modèles. Reconnaissance, pages 22056-22065, 2023.
[2] Honglu Zhou, Asim Kadav, Aviv Shamsian, Shijie Geng, Farley Lai, Long Zhao, Ting Liu, Mubbasir Kapadia et Hans Peter Graf Compositeur : Compositional. raisonnement de l'activité de groupe dans des vidéos avec une modalité de points clés uniquement Actes de la 17e Conférence européenne sur la vision par ordinateur (ECCV 2022), 2022.
[3] Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan et Cees GM Snoek. . Acteurs-transformateurs pour la reconnaissance des activités de groupe. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, pages 839-848, 2020.
[4] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan. Shafir, Daniel Cohen-Or et Amit H Bermano. Modèle de diffusion du mouvement humain.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn