recherche
MaisonPériphériques technologiquesIAUne vidéo fluide est générée sur la base du GAN, et l'effet est très impressionnant : pas d'adhérence de texture, réduction de la gigue

Ces dernières années, la recherche sur la génération d'images basée sur le Generative Adversarial Network (GAN) a fait des progrès significatifs. En plus de pouvoir générer des images réalistes de haute résolution, de nombreuses applications innovantes ont également vu le jour, telles que l'édition d'images personnalisées, l'animation d'images, etc. Cependant, comment utiliser le GAN pour la génération de vidéos reste un problème difficile.

En plus de modéliser des images à image unique, la génération vidéo nécessite également l'apprentissage de relations temporelles complexes. Récemment, des chercheurs de l'Université chinoise de Hong Kong, du Laboratoire d'intelligence artificielle de Shanghai, de l'Ant Technology Research Institute et de l'Université de Californie à Los Angeles ont proposé une nouvelle méthode de génération vidéo (Towards Smooth Video Composition). Dans l’article, ils ont effectué une modélisation détaillée et amélioré les relations des séries chronologiques de différentes durées (court terme, modéré, long terme) et ont obtenu des améliorations significatives par rapport aux travaux antérieurs sur plusieurs ensembles de données. Ce travail fournit une nouvelle référence simple et efficace pour la génération vidéo basée sur le GAN.

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

  • Adresse papier : https://arxiv.org/pdf/2212.07413.pdf
  • Lien du code du projet : https://github.com/genforce/StyleSV

Architecture du modèle

Le réseau de génération d'images basé sur GAN peut être exprimé comme suit : I=G(Z), où Z est une variable aléatoire, G est le réseau de génération et I est l'image générée. Nous pouvons simplement étendre ce cadre à la catégorie de génération vidéo : I_i=G(z_i), i=[1,...,N], où nous échantillonnons N variables aléatoires z_i à la fois, et chaque variable aléatoire z_i génère un correspondant Un cadre d'image I_i. La vidéo générée peut être obtenue en empilant les images générées dans la dimension temporelle.

MoCoGAN, StyleGAN-V et d'autres travaux ont proposé une expression découplée sur cette base : I_i=G(u, v_i), i=[1,...,N], où u représente le contenu du contrôle. variable, v_i représente la variable aléatoire qui contrôle l'action. Cette représentation considère que toutes les images partagent le même contenu et ont un mouvement unique. Grâce à cette expression découplée, nous pouvons mieux générer des vidéos d’action avec des styles de contenu cohérents et un réalisme variable. Le nouveau travail adopte la conception de StyleGAN-V et l'utilise comme base de référence.

Difficultés en génération vidéo : Comment modéliser efficacement et raisonnablement les relations temporelles ?

Le nouveau travail se concentre sur les relations temporelles de différentes durées (courte plage de temps, moyenne portée, longue portée) et effectue respectivement une modélisation et une amélioration détaillées :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Courte durée (~ 5 images. ) Relation temporelle

Considérons d'abord une vidéo comportant seulement quelques images. Ces courtes images vidéo contiennent souvent un contenu très similaire, ne montrant que des mouvements très subtils. Il est donc crucial de générer de manière réaliste des mouvements subtils entre les images. Cependant, de sérieux problèmes de texture se produisent dans les vidéos générées par StyleGAN-V.

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

L'adhésion de texture fait référence au fait qu'une partie du contenu généré dépend de coordonnées précises, provoquant le phénomène de "collage" à une zone fixe. Dans le domaine de la génération d'images, StyleGAN3 atténue le problème de l'adhésion des textures grâce à un traitement détaillé du signal, une plage de remplissage étendue et d'autres opérations. Ce travail vérifie que la même technique est toujours efficace pour la génération vidéo.

Dans la visualisation ci-dessous, nous suivons les pixels au même endroit dans chaque image de la vidéo. Il est facile de constater que dans la vidéo StyleGAN-V, certains contenus sont restés « collants » à des coordonnées fixes pendant une longue période et n'ont pas bougé au fil du temps, produisant ainsi un « phénomène de pinceau » dans la visualisation. Dans les vidéos générées par la nouvelle œuvre, tous les pixels présentent un mouvement naturel.

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Cependant, les chercheurs ont découvert que le référencement à l'épine dorsale de StyleGAN3 réduirait la qualité de la génération d'images. Pour atténuer ce problème, ils ont introduit une pré-formation au niveau de l’image. Au cours de la phase de pré-formation, le réseau n'a besoin que de prendre en compte la qualité de génération d'une certaine image dans la vidéo et n'a pas besoin d'apprendre la modélisation de la plage temporelle, ce qui facilite l'apprentissage des connaissances sur la distribution des images.

2. Relation temporelle de durée moyenne (~ 5 secondes)

Comme la vidéo générée comporte plus d'images, elle pourra afficher des actions plus spécifiques. Par conséquent, il est important de s’assurer que la vidéo générée présente un mouvement réaliste. Par exemple, si nous voulons générer une vidéo de conduite à la première personne, nous devons générer une scène de sol et de rue qui s'éloigne progressivement, et la voiture qui s'approche doit également suivre une trajectoire de conduite naturelle.

Dans la formation contradictoire, afin de garantir que le réseau génératif bénéficie d'un encadrement suffisant de la formation, le réseau discriminant est crucial. Par conséquent, lors de la génération vidéo, afin de garantir que le réseau génératif puisse générer des actions réalistes, le réseau discriminant doit modéliser les relations temporelles dans plusieurs images et capturer le mouvement irréaliste généré. Cependant, dans des travaux antérieurs, le réseau discriminant utilisait uniquement une simple opération de concaténation pour effectuer une modélisation temporelle : y = cat (y_i), où y_i représente la caractéristique à image unique et y représente la caractéristique après la fusion du domaine temporel.

Pour le réseau discriminant, le nouveau travail propose une modélisation temporelle explicite, c'est-à-dire l'introduction du module de décalage temporel (TSM) à chaque couche du réseau discriminant. TSM vient du domaine de la reconnaissance d'actions et réalise l'échange d'informations temporelles grâce à de simples opérations de décalage :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Les expériences montrent qu'après l'introduction de TSM, FVD16 et FVD128 sur les trois ensembles de données ont été considérablement réduits.

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

3. Génération de vidéos illimitées

Les améliorations introduites précédemment se concentrent principalement sur la génération de vidéos de courte et moyenne durée, et le nouveau travail explore plus en détail comment générer des vidéos de haute qualité. vidéos vidéos de n'importe quelle longueur (y compris une durée illimitée). Les travaux antérieurs (StyleGAN-V) peuvent générer des vidéos infiniment longues, mais la vidéo contient une gigue périodique très évidente :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Comme le montre la figure, la vidéo générée dans StyleGAN-V Dans la vidéo, comme le véhicule avance, le passage piéton s'est initialement déplacé vers l'arrière normalement, mais a ensuite soudainement changé pour avancer. Ce travail a révélé que la discontinuité des caractéristiques du mouvement (intégration du mouvement) était à l'origine de ce phénomène de gigue.

Les travaux précédents utilisaient l'interpolation linéaire pour calculer les caractéristiques d'action. Cependant, l'interpolation linéaire conduira à une discontinuité de premier ordre, comme le montre la figure suivante (la gauche est le diagramme d'interpolation, la droite est la visualisation des caractéristiques T-SNE). :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Ce travail propose les caractéristiques de mouvement du contrôle B-spline (B-Spline based motion embedding). L'interpolation via B-spline peut obtenir des caractéristiques d'action plus fluides par rapport au temps, comme le montre la figure (la gauche est le diagramme d'interpolation, la droite est la visualisation des caractéristiques T-SNE) :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

En introduisant les caractéristiques d'action du contrôle B-spline, le nouveau travail atténue le phénomène de gigue :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Comme le montre la figure, dans la vidéo générée par StyleGAN-V, les lampadaires et le le sol changera soudainement la direction du mouvement. Dans les vidéos générées par la nouvelle œuvre, la direction du mouvement est cohérente et naturelle.

Dans le même temps, le nouveau travail propose également une contrainte de faible rang sur les fonctionnalités d'action pour atténuer davantage l'apparition de contenu répétitif périodique.

Expériences

Le travail a été entièrement expérimenté sur trois ensembles de données (YouTube Driving, Timelapse, Taichi-HD) et entièrement comparé aux travaux précédents. Les résultats montrent que le nouveau travail a de meilleures performances en qualité d'image (FID). et la qualité vidéo (FVD) a été entièrement améliorée.

SkyTimelapse Résultats expérimentaux :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Taichi-HD Résultats expérimentaux :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Résultats des expériences de conduite YouTube :

Une vidéo fluide est générée sur la base du GAN, et leffet est très impressionnant : pas dadhérence de texture, réduction de la gigue

Résumé

Le nouveau travail propose un nouveau benchmark de génération vidéo basé sur le modèle GAN À partir de la relation temporelle de différentes échelles, il propose des améliorations nouvelles et efficaces. Des expériences sur plusieurs ensembles de données montrent que le nouveau travail atteint avec succès une qualité vidéo qui dépasse largement les travaux précédents.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer
Comment construire votre assistant d'IA personnel avec HuggingFace SmollmComment construire votre assistant d'IA personnel avec HuggingFace SmollmApr 18, 2025 am 11:52 AM

Exploiter la puissance de l'IA sur disvise: construire une CLI de chatbot personnelle Dans un passé récent, le concept d'un assistant d'IA personnel semblait être une science-fiction. Imaginez Alex, un passionné de technologie, rêvant d'un compagnon d'IA intelligent et local - celui qui ne dépend pas

L'IA pour la santé mentale est attentivement analysée via une nouvelle initiative passionnante à l'Université de StanfordL'IA pour la santé mentale est attentivement analysée via une nouvelle initiative passionnante à l'Université de StanfordApr 18, 2025 am 11:49 AM

Leur lancement inaugural de l'AI4MH a eu lieu le 15 avril 2025, et le Dr Tom Insel, M.D., célèbre psychiatre et neuroscientifique, a été le conférencier de lancement. Le Dr Insel est réputé pour son travail exceptionnel dans la recherche en santé mentale et la techno

La classe de draft de la WNBA 2025 entre dans une ligue qui grandit et luttant sur le harcèlement en ligneLa classe de draft de la WNBA 2025 entre dans une ligue qui grandit et luttant sur le harcèlement en ligneApr 18, 2025 am 11:44 AM

"Nous voulons nous assurer que la WNBA reste un espace où tout le monde, les joueurs, les fans et les partenaires d'entreprise, se sentent en sécurité, appréciés et autonomes", a déclaré Engelbert, abordé ce qui est devenu l'un des défis les plus dommageables des sports féminins. L'anno

Guide complet des structures de données intégrées Python - Analytics VidhyaGuide complet des structures de données intégrées Python - Analytics VidhyaApr 18, 2025 am 11:43 AM

Introduction Python excelle comme un langage de programmation, en particulier dans la science des données et l'IA générative. La manipulation efficace des données (stockage, gestion et accès) est cruciale lorsqu'il s'agit de grands ensembles de données. Nous avons déjà couvert les nombres et ST

Premières impressions des nouveaux modèles d'Openai par rapport aux alternativesPremières impressions des nouveaux modèles d'Openai par rapport aux alternativesApr 18, 2025 am 11:41 AM

Avant de plonger, une mise en garde importante: les performances de l'IA sont non déterministes et très usagées. En termes plus simples, votre kilométrage peut varier. Ne prenez pas cet article (ou aucun autre) article comme le dernier mot - au lieu, testez ces modèles sur votre propre scénario

Portfolio AI | Comment construire un portefeuille pour une carrière en IA?Portfolio AI | Comment construire un portefeuille pour une carrière en IA?Apr 18, 2025 am 11:40 AM

Construire un portefeuille AI / ML hors concours: un guide pour les débutants et les professionnels La création d'un portefeuille convaincant est cruciale pour sécuriser les rôles dans l'intelligence artificielle (IA) et l'apprentissage automatique (ML). Ce guide fournit des conseils pour construire un portefeuille

Ce que l'IA agentique pourrait signifier pour les opérations de sécuritéCe que l'IA agentique pourrait signifier pour les opérations de sécuritéApr 18, 2025 am 11:36 AM

Le résultat? L'épuisement professionnel, l'inefficacité et un écart d'élargissement entre la détection et l'action. Rien de tout cela ne devrait être un choc pour quiconque travaille en cybersécurité. La promesse d'une IA agentique est devenue un tournant potentiel, cependant. Cette nouvelle classe

Google contre Openai: la lutte contre l'IA pour les étudiantsGoogle contre Openai: la lutte contre l'IA pour les étudiantsApr 18, 2025 am 11:31 AM

Impact immédiat contre partenariat à long terme? Il y a deux semaines, Openai s'est avancé avec une puissante offre à court terme, accordant aux étudiants des États-Unis et canadiens d'accès gratuit à Chatgpt Plus jusqu'à la fin mai 2025. Cet outil comprend GPT - 4O, un A

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

Listes Sec

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

PhpStorm version Mac

PhpStorm version Mac

Le dernier (2018.2.1) outil de développement intégré PHP professionnel

Télécharger la version Mac de l'éditeur Atom

Télécharger la version Mac de l'éditeur Atom

L'éditeur open source le plus populaire

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Puissant environnement de développement intégré PHP