Une vidéo fluide est générée sur la base du GAN, et l'effet est très impressionnant : pas d'adhérence de texture, réduction de la gigue-IA-php.cn

Une vidéo fluide est générée sur la base du GAN, et l'effet est très impressionnant : pas d'adhérence de texture, réduction de la gigue

PHPz

Apr 12, 2023 am 09:58 AM

视频方法

Ces dernières années, la recherche sur la génération d'images basée sur le Generative Adversarial Network (GAN) a fait des progrès significatifs. En plus de pouvoir générer des images réalistes de haute résolution, de nombreuses applications innovantes ont également vu le jour, telles que l'édition d'images personnalisées, l'animation d'images, etc. Cependant, comment utiliser le GAN pour la génération de vidéos reste un problème difficile.

En plus de modéliser des images à image unique, la génération vidéo nécessite également l'apprentissage de relations temporelles complexes. Récemment, des chercheurs de l'Université chinoise de Hong Kong, du Laboratoire d'intelligence artificielle de Shanghai, de l'Ant Technology Research Institute et de l'Université de Californie à Los Angeles ont proposé une nouvelle méthode de génération vidéo (Towards Smooth Video Composition). Dans l’article, ils ont effectué une modélisation détaillée et amélioré les relations des séries chronologiques de différentes durées (court terme, modéré, long terme) et ont obtenu des améliorations significatives par rapport aux travaux antérieurs sur plusieurs ensembles de données. Ce travail fournit une nouvelle référence simple et efficace pour la génération vidéo basée sur le GAN.

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Adresse papier : https://arxiv.org/pdf/2212.07413.pdf
Lien du code du projet : https://github.com/genforce/StyleSV

Architecture du modèle

Le réseau de génération d'images basé sur GAN peut être exprimé comme suit : I=G(Z), où Z est une variable aléatoire, G est le réseau de génération et I est l'image générée. Nous pouvons simplement étendre ce cadre à la catégorie de génération vidéo : I_i=G(z_i), i=[1,...,N], où nous échantillonnons N variables aléatoires z_i à la fois, et chaque variable aléatoire z_i génère un correspondant Un cadre d'image I_i. La vidéo générée peut être obtenue en empilant les images générées dans la dimension temporelle.

MoCoGAN, StyleGAN-V et d'autres travaux ont proposé une expression découplée sur cette base : I_i=G(u, v_i), i=[1,...,N], où u représente le contenu du contrôle. variable, v_i représente la variable aléatoire qui contrôle l'action. Cette représentation considère que toutes les images partagent le même contenu et ont un mouvement unique. Grâce à cette expression découplée, nous pouvons mieux générer des vidéos d’action avec des styles de contenu cohérents et un réalisme variable. Le nouveau travail adopte la conception de StyleGAN-V et l'utilise comme base de référence.

Difficultés en génération vidéo : Comment modéliser efficacement et raisonnablement les relations temporelles ?

Le nouveau travail se concentre sur les relations temporelles de différentes durées (courte plage de temps, moyenne portée, longue portée) et effectue respectivement une modélisation et une amélioration détaillées :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Courte durée (~ 5 images. ) Relation temporelle

Considérons d'abord une vidéo comportant seulement quelques images. Ces courtes images vidéo contiennent souvent un contenu très similaire, ne montrant que des mouvements très subtils. Il est donc crucial de générer de manière réaliste des mouvements subtils entre les images. Cependant, de sérieux problèmes de texture se produisent dans les vidéos générées par StyleGAN-V.

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

L'adhésion de texture fait référence au fait qu'une partie du contenu généré dépend de coordonnées précises, provoquant le phénomène de "collage" à une zone fixe. Dans le domaine de la génération d'images, StyleGAN3 atténue le problème de l'adhésion des textures grâce à un traitement détaillé du signal, une plage de remplissage étendue et d'autres opérations. Ce travail vérifie que la même technique est toujours efficace pour la génération vidéo.

Dans la visualisation ci-dessous, nous suivons les pixels au même endroit dans chaque image de la vidéo. Il est facile de constater que dans la vidéo StyleGAN-V, certains contenus sont restés « collants » à des coordonnées fixes pendant une longue période et n'ont pas bougé au fil du temps, produisant ainsi un « phénomène de pinceau » dans la visualisation. Dans les vidéos générées par la nouvelle œuvre, tous les pixels présentent un mouvement naturel.

Cependant, les chercheurs ont découvert que le référencement à l'épine dorsale de StyleGAN3 réduirait la qualité de la génération d'images. Pour atténuer ce problème, ils ont introduit une pré-formation au niveau de l’image. Au cours de la phase de pré-formation, le réseau n'a besoin que de prendre en compte la qualité de génération d'une certaine image dans la vidéo et n'a pas besoin d'apprendre la modélisation de la plage temporelle, ce qui facilite l'apprentissage des connaissances sur la distribution des images.

2. Relation temporelle de durée moyenne (~ 5 secondes)

Comme la vidéo générée comporte plus d'images, elle pourra afficher des actions plus spécifiques. Par conséquent, il est important de s’assurer que la vidéo générée présente un mouvement réaliste. Par exemple, si nous voulons générer une vidéo de conduite à la première personne, nous devons générer une scène de sol et de rue qui s'éloigne progressivement, et la voiture qui s'approche doit également suivre une trajectoire de conduite naturelle.

Dans la formation contradictoire, afin de garantir que le réseau génératif bénéficie d'un encadrement suffisant de la formation, le réseau discriminant est crucial. Par conséquent, lors de la génération vidéo, afin de garantir que le réseau génératif puisse générer des actions réalistes, le réseau discriminant doit modéliser les relations temporelles dans plusieurs images et capturer le mouvement irréaliste généré. Cependant, dans des travaux antérieurs, le réseau discriminant utilisait uniquement une simple opération de concaténation pour effectuer une modélisation temporelle : y = cat (y_i), où y_i représente la caractéristique à image unique et y représente la caractéristique après la fusion du domaine temporel.

Pour le réseau discriminant, le nouveau travail propose une modélisation temporelle explicite, c'est-à-dire l'introduction du module de décalage temporel (TSM) à chaque couche du réseau discriminant. TSM vient du domaine de la reconnaissance d'actions et réalise l'échange d'informations temporelles grâce à de simples opérations de décalage :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Les expériences montrent qu'après l'introduction de TSM, FVD16 et FVD128 sur les trois ensembles de données ont été considérablement réduits.

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

3. Génération de vidéos illimitées

Les améliorations introduites précédemment se concentrent principalement sur la génération de vidéos de courte et moyenne durée, et le nouveau travail explore plus en détail comment générer des vidéos de haute qualité. vidéos vidéos de n'importe quelle longueur (y compris une durée illimitée). Les travaux antérieurs (StyleGAN-V) peuvent générer des vidéos infiniment longues, mais la vidéo contient une gigue périodique très évidente :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Comme le montre la figure, la vidéo générée dans StyleGAN-V Dans la vidéo, comme le véhicule avance, le passage piéton s'est initialement déplacé vers l'arrière normalement, mais a ensuite soudainement changé pour avancer. Ce travail a révélé que la discontinuité des caractéristiques du mouvement (intégration du mouvement) était à l'origine de ce phénomène de gigue.

Les travaux précédents utilisaient l'interpolation linéaire pour calculer les caractéristiques d'action. Cependant, l'interpolation linéaire conduira à une discontinuité de premier ordre, comme le montre la figure suivante (la gauche est le diagramme d'interpolation, la droite est la visualisation des caractéristiques T-SNE). :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Ce travail propose les caractéristiques de mouvement du contrôle B-spline (B-Spline based motion embedding). L'interpolation via B-spline peut obtenir des caractéristiques d'action plus fluides par rapport au temps, comme le montre la figure (la gauche est le diagramme d'interpolation, la droite est la visualisation des caractéristiques T-SNE) :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

En introduisant les caractéristiques d'action du contrôle B-spline, le nouveau travail atténue le phénomène de gigue :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Comme le montre la figure, dans la vidéo générée par StyleGAN-V, les lampadaires et le le sol changera soudainement la direction du mouvement. Dans les vidéos générées par la nouvelle œuvre, la direction du mouvement est cohérente et naturelle.

Dans le même temps, le nouveau travail propose également une contrainte de faible rang sur les fonctionnalités d'action pour atténuer davantage l'apparition de contenu répétitif périodique.

Expériences

Le travail a été entièrement expérimenté sur trois ensembles de données (YouTube Driving, Timelapse, Taichi-HD) et entièrement comparé aux travaux précédents. Les résultats montrent que le nouveau travail a de meilleures performances en qualité d'image (FID). et la qualité vidéo (FVD) a été entièrement améliorée.

SkyTimelapse Résultats expérimentaux :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Taichi-HD Résultats expérimentaux :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Résultats des expériences de conduite YouTube :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Résumé

Le nouveau travail propose un nouveau benchmark de génération vidéo basé sur le modèle GAN À partir de la relation temporelle de différentes échelles, il propose des améliorations nouvelles et efficaces. Des expériences sur plusieurs ensembles de données montrent que le nouveau travail atteint avec succès une qualité vidéo qui dépasse largement les travaux précédents.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semainesByDDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semainesByDDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semainesByDDD

Économie dans R.E.P.O. Expliqué (et enregistrer des fichiers)

1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows - Comment trouver le forgeron et déverrouiller les armes et la personnalisation des armes

4 Il y a quelques semainesByDDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.