Maison  >  Article  >  Périphériques technologiques  >  Donnez-moi une photo et générez une vidéo de 30 secondes !

Donnez-moi une photo et générez une vidéo de 30 secondes !

WBOY
WBOYavant
2023-04-13 08:43:121753parcourir

L'IA a-t-elle encore progressé ?

Et c'est le genre qui génère une vidéo continue de 30 secondes à partir d'une image.

Donnez-moi une photo et générez une vidéo de 30 secondes !

emm....La qualité n'est-elle pas un peu trop floue

Sachez que celle-ci n'est générée qu'à partir d'une seule image (la première image) et n'en a aucune affichée informations géométriques.

Il s'agit d'un cadre général pour les tâches de modélisation d'images et de vision basé sur la prédiction de trame probabiliste récemment proposée par DeepMind - Transframer.

Pour faire simple, Transframer est utilisé pour prédire la probabilité de n'importe quelle image.

Ces images peuvent être conditionnées sur une ou plusieurs images contextuelles annotées, qui peuvent être des images vidéo précédentes, des horodatages ou des scènes de vue étiquetées par une caméra.

Architecture Transframer

Voyons d'abord comment fonctionne cette architecture magique Transframer.

Donnez-moi une photo et générez une vidéo de 30 secondes !

L'adresse papier est affichée ci-dessous, les enfants intéressés peuvent y jeter un oeil ~ https://arxiv.org/abs/2203.09494

Afin d'estimer la répartition des prédictions sur la cible image , nous avons besoin d’un modèle de génération d’expression capable de produire une sortie diversifiée et de haute qualité.

Bien que les résultats de DC Transformer sur un seul domaine d'image puissent répondre aux besoins, ils ne sont pas conditionnés à l'ensemble de textes multi-images {(In,an)} dont nous avons besoin.

Nous avons donc étendu DC Transformer pour permettre la prédiction conditionnelle d'images et d'annotations.

Nous remplaçons DC Transformer par un encodeur de style Vision-Transformer qui fonctionne sur une seule image DCT en utilisant une architecture U-Net multi-images pour traiter un ensemble d'images annotées ainsi qu'une image DCT cible partiellement cachée.

Voyons comment fonctionne l'architecture Transframer.

(a) Transframer prend en entrée les images DCT (a1 et a2) ainsi que l'image DCT cible partiellement cachée (aT) et des annotations supplémentaires, qui sont traitées par l'encodeur multi-trame U-Net. Ensuite, la sortie U-Net est transmise au décodeur DC-Transformer via une attention croisée, qui régresse automatiquement pour générer une séquence de jetons DCT (lettres vertes) correspondant à la partie cachée de l'image cible. (b) Le bloc U-Net multi-trame est composé d'un bloc de convolution NF-Net et d'un bloc d'auto-attention multi-trame, qui échangent des informations entre les trames d'entrée et le MLP résiduel de style transformateur.

Donnez-moi une photo et générez une vidéo de 30 secondes !

Jetons un coup d'œil à Multi-Frame U-Net qui traite la saisie d'images.

L'entrée dans U-Net est une séquence composée de N trames DCT et de trames DCT cibles partiellement cachées, et les informations d'annotation sont fournies sous forme de vecteurs associés à chaque trame d'entrée.

Le composant principal d'U-Net est un bloc de calcul qui applique d'abord un bloc convolutionnel NF-ResNet partagé à chaque trame d'entrée, puis applique un bloc d'auto-attention de style Transformer pour agréger les informations entre les trames. (Figure 2 b)

Le bloc NF-ResNet est constitué de convolutions groupées et de couches de compression et d'excitation, visant à améliorer les performances du TPU.

Ci-dessous, la figure (a) compare la rareté des représentations DCT absolues et résiduelles des vidéos RoboNet (128x128) et KITTI.

Étant donné que RoboNet est constitué de vidéos statiques avec seulement quelques éléments mobiles, la rareté de la représentation de l'image résiduelle augmente considérablement.

Et les vidéos KITTI ont généralement une caméra en mouvement, ce qui entraîne des écarts presque partout dans les images consécutives.

Mais dans ce cas, les bénéfices d'une petite parcimonie sont également affaiblis.

Donnez-moi une photo et générez une vidéo de 30 secondes !

Puissant dans plusieurs tâches de vision

Grâce à des tests sur une série d'ensembles de données et de tâches, les résultats montrent que Transframer peut être appliqué à un large éventail de tâches.

Y compris la modélisation vidéo, la synthèse de nouvelles vues, la segmentation sémantique, la reconnaissance d'objets, l'estimation de la profondeur, la prédiction du flux optique, etc.

Donnez-moi une photo et générez une vidéo de 30 secondes !

Modélisation vidéo

Prédisez l'image suivante à partir d'une séquence d'images vidéo d'entrée via Transframer.

Les chercheurs ont entraîné les performances de Transframer en matière de génération vidéo sur deux ensembles de données : KITTI et RoboNet respectivement.

Donnez-moi une photo et générez une vidéo de 30 secondes !

Pour KITTI, étant donné 5 cadres contextuels et 25 cadres d'échantillonnage, les résultats montrent que les performances du modèle Transframer s'améliorent sur toutes les métriques, parmi lesquelles les améliorations de LPIPS et FVD sont les plus évidentes.

Donnez-moi une photo et générez une vidéo de 30 secondes !

Sur RoboNet, les chercheurs ont reçu 2 cadres contextuels et 10 cadres d'échantillonnage, formés respectivement à des résolutions de 64x64 et 128x128, et ont finalement obtenu de très bons résultats.

Donnez-moi une photo et générez une vidéo de 30 secondes !Donnez-moi une photo et générez une vidéo de 30 secondes !

Synthèse de vues

En termes de synthèse de vues, nous fournissons des vues de caméra comme contexte et des annotations cibles comme décrit dans le tableau 1 (ligne 3), et échantillonnons uniformément plusieurs vues contextuelles. au maximum spécifié.

Model Transframer est évalué sur le benchmark ShapeNet, surpassant considérablement PixelNeRF et SRN en fournissant 1 à 2 vues contextuelles.

Donnez-moi une photo et générez une vidéo de 30 secondes !

De plus, après évaluation sur l'ensemble de données Objectron, on peut voir que lorsqu'on lui donne une seule vue d'entrée, le modèle produit une sortie cohérente mais manque certaines fonctionnalités, telles que les pieds de chaise croisés.

Lorsqu'une vue contextuelle est donnée, la vue synthétisée à une résolution de 128 × 128 est la suivante :

Donnez-moi une photo et générez une vidéo de 30 secondes !Donnez-moi une photo et générez une vidéo de 30 secondes !

Lorsque 2 vues contextuelles supplémentaires sont données, à une résolution de 128 × 128 La synthèse la vue est la suivante :

Donnez-moi une photo et générez une vidéo de 30 secondes !Donnez-moi une photo et générez une vidéo de 30 secondes !

Tâches de vision multiples

Différentes tâches de vision par ordinateur sont généralement gérées à l'aide d'architectures complexes et de fonctions de perte.

Ici, les chercheurs ont formé conjointement le modèle Transframer sur 8 tâches et ensembles de données différents en utilisant la même fonction de perte.

Les 8 tâches sont : la prédiction du flux optique d'une image unique, la classification, la détection et la segmentation d'objets, la segmentation sémantique (sur 2 jeux de données), la prédiction de trames futures et l'estimation de la profondeur.

Donnez-moi une photo et générez une vidéo de 30 secondes !

Les résultats montrent que Transframer apprend à générer différents échantillons dans des tâches complètement différentes, et dans certaines tâches, telles que les paysages urbains, le modèle produit un résultat de qualité.

Cependant, la qualité des résultats du modèle sur des tâches telles que la prédiction de trames futures et la détection de boîtes englobantes est variable, ce qui suggère que la modélisation dans ce contexte est plus difficile.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer