Maison > Article > Périphériques technologiques > La technologie d'intelligence artificielle de Google "Transframer" peut créer de courtes vidéos basées sur une image
À mesure que la technologie évolue, les chercheurs continuent de trouver de nouvelles façons d’exploiter les capacités de l’intelligence artificielle et de l’apprentissage automatique. Plus tôt cette semaine, les scientifiques de Google ont annoncé la création de Transframer, un nouveau framework permettant de générer de courtes vidéos à partir d'une seule image. Cette nouvelle technologie pourrait un jour améliorer les solutions de rendu traditionnelles et permettre aux développeurs de créer des environnements virtuels basés sur des capacités d'apprentissage automatique.
Le nom (et en quelque sorte le concept) de ce nouveau framework est un clin d'œil à Transformer, un autre modèle basé sur l'IA. Initialement lancée en 2017, Transformer est une nouvelle architecture de réseau neuronal capable de générer du texte en modélisant et en comparant d'autres mots dans une phrase. Le modèle a depuis été intégré aux frameworks standard d’apprentissage en profondeur tels que TensorFlow et PyTorch.
Il est rapporté que Transframer utilise des images d'arrière-plan avec des propriétés similaires, combinées à des annotations de requête, pour créer de courtes vidéos. Bien qu'aucune donnée géométrique ne soit fournie dans l'image brute d'entrée, la vidéo résultante se déplace autour de l'image cible et visualise la perspective précise.
La nouvelle technologie a été démontrée à l'aide de la plateforme d'intelligence artificielle DeepMind de Google, et sa fonction est d'analyser une seule image d'arrière-plan d'une photo pour obtenir des données d'image clés et générer des images supplémentaires. Au cours de cette analyse, le système détermine le cadre de l'image, ce qui aide le système à prédire l'environnement de l'image.
Des images contextuelles sont ensuite utilisées pour prédire davantage comment l'image apparaîtra sous différents angles. La prédiction modélise la probabilité d'images supplémentaires en fonction des données, des annotations et de toute autre information contenue dans le cadre contextuel.
Ce framework marque un énorme progrès dans la technologie vidéo en offrant la possibilité de générer des vidéos raisonnablement précises basées sur un ensemble de données très limité. La tâche Transframer montre également des résultats prometteurs sur d'autres tâches et tests liés à la vidéo, tels que la segmentation sémantique, la classification d'images et la prédiction du flux optique.
Pourrait avoir un impact potentiellement énorme sur les industries basées sur la vidéo telles que le développement de jeux. Les environnements de développement de jeux actuels s'appuient sur des technologies de rendu de base telles que l'ombrage, le mappage de texture, la profondeur de champ et le lancer de rayons. Des technologies telles que Transframer ont le potentiel d'offrir aux développeurs une nouvelle voie de développement en utilisant l'intelligence artificielle et l'apprentissage automatique pour créer leurs environnements tout en réduisant le temps, les ressources et les efforts nécessaires à leur création.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!