Maison  >  Article  >  Périphériques technologiques  >  L'efficacité de la production d'animation a augmenté de 80 % ! Ce logiciel d'IA réalise une capture de mouvement vidéo de haute précision en un seul clic

L'efficacité de la production d'animation a augmenté de 80 % ! Ce logiciel d'IA réalise une capture de mouvement vidéo de haute précision en un seul clic

WBOY
WBOYavant
2023-04-11 21:04:111764parcourir

AIGC a une nouvelle magie !

Aucune main d'animateur, une capture d'habitude ou une capture de lumière n'est nécessaire. Fournissez simplement une vidéo et ce logiciel de capture de mouvement AI peut automatiquement produire l'action. En quelques minutes seulement, l’animation de l’humain virtuel est terminée.

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

Non seulement les mouvements des membres à grande échelle, mais aussi les détails des mains peuvent être capturés avec précision.

En plus de la vidéo à vue unique, il peut également prendre en charge les vidéos à vues multiples. Comparé à d'autres logiciels de capture de mouvement qui ne prennent en charge que la reconnaissance monoculaire, ce logiciel peut fournir une qualité de capture de mouvement supérieure.

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

En même temps, le logiciel prend également en charge l'édition et la modification des points clés reconnus du corps humain, de la douceur, des détails des pas, etc. Il peut tout satisfaire, de l'expérience d'intérêt des joueurs ordinaires aux besoins professionnels des joueurs inconditionnels.

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

Il s'agit du logiciel de capture de mouvement vidéo AIxPose développé par NetEase Interactive Entertainment AI Lab depuis de nombreuses années, optimisé de manière itérative et discrète sur la base de commentaires artistiques professionnels. Il est rapporté que le logiciel a traité plus de dizaines d'heures de ressources vidéo et a été utilisé dans le processus de production d'animations d'intrigues de jeux, d'animations de danse populaire et d'autres ressources. Il a été vérifié par des projets réels qu'une animation de danse d'une minute peut prendre plus de 20 jours pour être produite à la main, mais qu'elle ne prend que 3 jours pour être produite avec l'aide d'AIxPose, et l'ensemble du processus est raccourci de plus de 80 %.

Récemment, NetEase Interactive Entertainment AI Lab a compilé l'expérience basée sur le développement de ce logiciel et les travaux de recherche connexes dans le domaine de la capture de mouvement. L'article « Learning Analytical Posterior Probability for Human Mesh Recovery » rédigé par lui a été publié par. Acceptation de la vision par ordinateur du CVPR 2023.

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

  • Adresse de la page d'accueil : https://netease-gameai.github.io/ProPose/
  • Adresse papier : https://netease-gameai.github.io/ProPose/static /assets/CVPR2023_ProPose.pdf

Cet article propose de manière innovante une technologie de capture de mouvement vidéo ProPose basée sur la probabilité postérieure, qui peut obtenir des images tridimensionnelles précises dans différents paramètres tels qu'une image unique et une fusion multi-capteurs. estimation. La précision technique est 19 % supérieure aux méthodes probabilistes de base utilisant des priorités et surpasse les méthodes précédentes sur les ensembles de données publics 3DPW, Human3.6M et AGORA. De plus, pour les tâches de fusion multi-capteurs, cette technologie peut également atteindre une précision supérieure à celle du modèle de base sans modifier l’épine dorsale du réseau neuronal en raison de l’introduction de nouveaux capteurs.

Contexte technique

La tâche de cette recherche est de prédire la récupération du maillage humain (hmr) à partir d'images RVB. Les méthodes existantes peuvent être résumées en deux catégories : les méthodes directes et les méthodes indirectes. La méthode directe utilise un réseau neuronal pour régresser la représentation rotationnelle des articulations humaines de bout en bout (telle que l'angle de l'axe, la matrice de rotation, le vecteur 6D, etc.), tandis que la méthode indirecte prédit d'abord certaines représentations intermédiaires (telles que trois- points clés dimensionnels, segmentation, etc.), puis passe ces intermédiaires représente la rotation articulaire.

Cependant, les deux types de méthodes présentent quelques problèmes. Pour les méthodes directes, puisque ce type de méthode nécessite que le réseau apprenne directement des représentations abstraites telles que la rotation, par rapport à l'apprentissage des points clés et de la segmentation, l'apprentissage de la rotation est relativement difficile, de sorte que les résultats produits par le réseau sont parfois difficiles à aligner sur l'image. et ne peut pas être effectué. Certains mouvements importants, comme le pied droit dans la première rangée de l'image ci-dessous (a), ne peuvent pas être complètement étendus vers l'arrière. En revanche, les méthodes indirectes produisent généralement une plus grande précision, mais les performances de ce type de méthode dépendent fortement de la précision de la représentation intermédiaire. Lorsque la représentation intermédiaire produit des erreurs dues au bruit, il est facile que la rotation finale apparaisse assez évidente. erreur, comme indiqué dans le côté gauche de la deuxième ligne en (b) ci-dessous.

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

En plus des méthodes déterministes susmentionnées, il existe également des méthodes pour modéliser l'incertitude de la posture humaine en apprenant certaines distributions de probabilité, prenant ainsi en compte le bruit et améliorant la robustesse du système. Actuellement, les principales méthodes de modélisation probabiliste incluent la distribution gaussienne multivariée, le flux normalisé, la modélisation implicite du réseau neuronal, etc., mais ces distributions de probabilité sur les non-SO (3) ne peuvent pas véritablement refléter l'incertitude de la rotation des articulations. Par exemple, lorsque l’incertitude est grande, l’hypothèse de linéarité locale de la distribution gaussienne sur SO (3) ne tient pas. Un travail récent utilise directement le réseau pour apprendre les paramètres de la distribution matricielle de Fisher Bien qu'il s'agisse d'une distribution sur SO (3), la méthode d'apprentissage de cette méthode est similaire à la méthode directe, et les performances de convergence ne peuvent être comparées à celles de la méthode directe. méthode indirecte existante.

Afin de prendre en compte à la fois une grande précision et robustesse et d'améliorer les performances des méthodes probabilistes, ProPose dérive la probabilité analytique a posteriori de rotation articulaire, qui peut non seulement bénéficier de la haute précision apportée par différentes variables d'observation, mais aussi mesurer l'incertitude et réduire autant que possible l'impact du bruit sur l'algorithme. Comme le montre la figure ci-dessous, pour l'image d'entrée, ProPose peut mesurer dans une certaine mesure l'incertitude de la rotation de l'articulation dans diverses directions à travers la distribution de probabilité de sortie, comme la rotation de la main droite le long de l'axe du bras, la direction de le bras gauche se balançant de haut en bas, et le mollet gauche Le degré de distance, etc.

Mise en œuvre technique

Modélisation du corps humain

Cette étude réalise une modélisation probabiliste de la posture humaine. L'objectif est de trouver la partie postérieure de la rotation articulaire R sous certaines variables observées (telles que l'orientation des os d, etc. .) Probabilité p (R|d,⋯).

Plus précisément, puisque la rotation articulaire du corps humain est située sur SO (3) et que l'orientation osseuse unitaire de l'articulation enfant par rapport à l'articulation parent est située sur S^2, elle peut être basée sur la probabilité analyse de la distribution sur ces deux variétés.

Tout d'abord, la distribution matricielle de Fisher MF (⋅) sur SO (3) peut être utilisée comme distribution a priori de la rotation articulaire R, comme le montre la formule suivante, F∈R^(3×3) est le paramètre de cette distribution, c (F) est une constante de normalisation, et tr représente la trace de la matrice.

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

Comme le montre la formule suivante, F peut être directement résolu pour la moyenne M et un terme d'agrégation K qui caractérise le degré d'agrégation de la distribution par décomposition SVD. Parmi eux, Δ=diag (1,1,|UV|) est une matrice orthogonale diagonale, qui est utilisée pour garantir que le déterminant de M est 1, afin qu'il puisse tomber dans le groupe orthogonal spécial.

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

Deuxièmement, étant donné que l'orientation de l'os peut être calculée par rotation articulaire, la rotation articulaire R peut être considérée comme une variable cachée et l'orientation osseuse d comme une variable observée sous la condition. de R, S^ donné L'orientation unitaire d sur 2 obéit à la distribution de von Mises-Fisher :

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

où, κ∈R et d∈S^2 sont respectivement le terme agrégé et la moyenne de la distribution , et l est l'attitude de référence (telle que l'orientation osseuse unitaire de la pose en T) satisfait théoriquement à Rl = d, c'est-à-dire que l'orientation osseuse de référence est transférée à l'orientation osseuse actuelle par rotation de l'articulation.

En utilisant la théorie bayésienne, étant donné la distribution a priori p (R) et la fonction de vraisemblance p (d|R), la probabilité postérieure p (R|d) de rotation articulaire conditionnelle à l'orientation de l'os peut être calculée. La forme analytique de .

La probabilité a posteriori ci-dessus ne considère que l'orientation du squelette humain comme une grandeur d'observation. De même, elle peut également être étendue à d'autres grandeurs d'observation de direction d_i ou grandeurs d'observation de rotation D_j (peuvent être générées par d'autres capteurs, tels que les IMU. , etc.), et s'obtient comme suit Forme générale de probabilité analytique a posteriori : Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

où κ_i et K_j sont des termes d'agrégation. g (⋅) est une cartographie sous forme de IK, qui peut convertir les observations de direction en estimations de rotation. Elle peut prendre la forme la plus simple telle que g (d_i)=dl^T. Z_1 et Z_3 représentent respectivement l'ensemble des observations de direction et des observations de rotation.

Caractéristiques

Cette section explique en outre que la distribution de probabilité a posteriori a un degré d'agrégation plus élevé que la distribution de probabilité antérieure.

La section précédente a introduit la forme analytique de la probabilité a posteriori de rotation des articulations humaines, qui est caractérisée par un nouveau paramètre F'. Le paramètre postérieur F^' peut être compris sous un autre angle, c'est-à-dire que F^' est le produit du terme moyen M qui est le même que F et d'un nouveau terme d'agrégation K^' :

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

où M^T dl^ T=ll^T est une matrice symétrique réelle de rang 1, et K est également une matrice symétrique réelle, c'est-à-dire que le terme d'agrégation postérieur K' est également une matrice symétrique réelle. D'après le théorème échelonné sur les matrices symétriques réelles en analyse matricielle, on peut obtenir que les valeurs propres λ_i' de K' et les valeurs propres λ_i de K ont la relation d'inégalité suivante :

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

Considérant que les valeurs propres des termes d'agrégation sont équivalentes à la distribution. Les valeurs singulières des paramètres peuvent refléter la confiance de la distribution. On peut donc conclure que lorsque le terme de vraisemblance est non nul, l'estimation a posteriori est plus. concentrée que l’estimation précédente et peut rapidement converger vers le mode de préférence de fonction de vraisemblance afin de pouvoir l’apprendre plus facilement.

En plus de la méthode de probabilité a priori, une autre méthode de référence majeure consiste à utiliser la cinématique inverse (IK) pour calculer la rotation directement à travers l'orientation de l'os. L'image suivante peut montrer intuitivement la différence entre la méthode de probabilité a posteriori et la méthode déterministe. Méthode IK. contraste entre.

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

L'image ci-dessus prend l'articulation du coude humain comme exemple. L'axe de coordonnées tridimensionnel réel représente la vraie valeur et l'axe de coordonnées tridimensionnel transparent représente la valeur estimée. La première ligne représente la méthode IK déterministe. La méthode de modélisation derrière ce type de méthode est un vecteur représentant l'orientation de l'os. Lorsque l'orientation de l'os est estimée avec précision, le degré de liberté restant (torsion) peut être réduit à un cercle (en). la figure Le cercle pointillé sur la balle); lorsque l'orientation de l'os est estimée de manière inexacte, toutes les estimations possibles s'écartent de la valeur réelle. La deuxième ligne représente le modèle de probabilité postérieur de cette étude, qui est une fusion de plusieurs types de modèles différents. La zone rouge sur la sphère représente la probabilité d'une certaine rotation même s'il y a une erreur dans l'estimation de l'orientation de l'os. , cette méthode peut le ramener à la valeur réelle, car le bruit de l'orientation des os peut être atténué autant que possible par des observations a priori ou autres.

Diagramme-cadre de réseau et fonction de perte

Sur la base de la théorie et de la dérivation susmentionnées, le diagramme-cadre présenté dans la figure ci-dessous peut être directement construit. Un réseau multibranches est utilisé pour estimer le paramètre de distribution a priori F, le point clé tridimensionnel J (à partir duquel l'orientation osseuse d est calculée) et le paramètre de forme β à partir d'une seule image. La probabilité a posteriori est calculée selon la règle de Bayes, et enfin l'estimation de la posture peut être obtenue à partir de la distribution a posteriori pour produire le maillage humain.

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

La sélection de la fonction de perte est relativement simple et est la somme pondérée des quatre contraintes suivantes, où L_J représente la contrainte du point clé, L_β représente la contrainte du paramètre de forme, L_θ représente la contrainte du paramètre d'attitude dans la matrice forme, et L_s représente la distribution des contraintes de pose de post-échantillonnage. Concernant les contraintes sur la distribution, MAP n'est pas utilisé directement ici car la stabilité numérique des paramètres de normalisation est considérée. Concernant la stratégie d'échantillonnage, similaire aux travaux précédents, la distribution matricielle de Fisher est convertie en distribution équivalente de Bingham sous forme de quaternion, puis obtenue par échantillonnage par rejet, où la distribution recommandée pour l'échantillonnage par rejet adopte la distribution gaussienne centrale angulaire.

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

Résultats expérimentaux

Dans la partie expérimentale, cette étude a mené une comparaison quantitative avec des méthodes antérieures sur les ensembles de données publiques Human3.6M, 3DPW, AGORA et TotalCapture. On peut constater que la méthode de cette étude surpasse de nombreuses méthodes précédentes. Les deux dernières lignes grises du tableau en bas à droite sont l'œuvre de la même période, et sont répertoriées ici pour être complet.

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

La figure suivante montre une comparaison qualitative avec les méthodes SOTA existantes HybrIK, PARE et CLIFF. On peut voir que ProPose peut obtenir de meilleurs résultats dans certaines situations d'occlusion.

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

Le tableau ci-dessous présente une série d'expériences d'ablation, démontrant principalement la précision et la robustesse de ProPose. Les méthodes de référence incluent la non-utilisation de points clés tridimensionnels, la non-utilisation de priors, la non-utilisation de priors pendant les tests, la sélection de fonctionnalités à différents emplacements du réseau fédérateur, etc. Le tableau de gauche ci-dessous vérifie pleinement que la distribution de probabilité a posteriori proposée a une distribution de probabilité a posteriori plus élevée. précision. Le tableau de droite ci-dessous montre la comparaison de la robustesse au bruit entre la méthode a posteriori et la méthode IK déterministe. On peut voir que la méthode a posteriori peut résister dans une plus grande mesure aux interférences du bruit.

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

Lefficacité de la production danimation a augmenté de 80 % ! Ce logiciel dIA réalise une capture de mouvement vidéo de haute précision en un seul clic

En plus de la tâche hmr ci-dessus, cette étude a également évalué la tâche de fusion multi-capteurs. L'effet d'une fusion à vue unique et d'IMU est indiqué ci-dessous.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer