Maison > Article > Périphériques technologiques > WorldGPT est là : créez un agent d'IA vidéo de type Sora, 'ressuscitez' les graphiques et le texte
Sora d'OpenAI a fait des débuts époustouflants en février de cette année, apportant une nouvelle percée dans les vidéos générées par texte. Il peut créer des vidéos incroyablement réalistes et imaginatives basées sur la saisie de texte qui semblent provenir d'Hollywood. De nombreuses personnes ont été émerveillées par cette innovation et pensent que les performances d'OpenAI ont atteint le summum.
L'engouement provoqué par Sora se poursuit sans relâche. Dans le même temps, les chercheurs ont commencé à prendre conscience de l'énorme potentiel de la technologie de génération vidéo IA, et ce domaine attire de plus en plus d'attention.
Cependant, dans le domaine actuel de la génération de vidéos IA, la plupart des recherches sur les algorithmes se concentrent sur la génération de vidéos via des invites de texte, en particulier les scénarios dans lesquels des images et du texte sont combinés, n'ont pas été discutés en profondeur ni largement appliqués. Ce biais réduit la variété et la contrôlabilité des vidéos générées et limite la capacité de convertir des images statiques en vidéos dynamiques.
D'un autre côté, la plupart des modèles de génération vidéo existants ne prennent pas en charge la possibilité de modification du contenu vidéo généré et ne peuvent pas répondre aux besoins des utilisateurs en matière d'ajustements personnalisés des vidéos générées.
Astuces : Transformez le panda en ours et faites-le danser. (Changez le panda en ours et faites-le danser.)
Dans cet article, des chercheurs de SEEKING AI, de l'Université Harvard, de l'Université Stanford et de l'Université de Pékin ont proposé conjointement un cadre unifié innovant pour la génération et l'édition de vidéos basées sur des images et du texte. nommé WorldGPT. Ce cadre est construit sur le cadre VisionGPT développé conjointement par SEEKING AI et les meilleures universités mentionnées ci-dessus. Il peut non seulement réaliser la fonction de génération directe de vidéos à partir d'images et de texte, mais également prendre en charge le transfert de style et le remplacement de l'arrière-plan des vidéos générées. des invites de texte simples (invite) et une série d'opérations d'édition d'apparence vidéo.
Un autre avantage important de ce framework est qu'il ne nécessite pas de formation, ce qui abaisse considérablement le seuil technique et rend également le déploiement et l'utilisation très pratiques. Les utilisateurs peuvent utiliser directement le modèle pour créer sans prêter attention au processus de formation fastidieux qui le sous-tend.
Ensuite jetez un œil aux exemples de démonstrations de WorldGPT dans divers scénarios complexes de contrôle de génération vidéo.
Invite : "Une flotte de navires avançait à travers la tempête hurlante, leurs voiles naviguant sur les énormes vagues de la tempête impitoyable, leurs voiles gonflées alors qu'ils naviguaient sur les vagues imposantes de la tempête incessante.)》
Invite : "Un dragon mignon dans les rues de la ville qui respire du feu. (Un dragon mignon crache du feu dans une rue urbaine.) "
Conseils : "Un robot de style cyberpunk éclairé par des néons Un automate de style cyberpunk a couru à travers le paysage urbain dystopique éclairé par des néons, des reflets de des hologrammes imposants et une dégradation numérique projetés sur son corps métallique élégant.)》
Comme le montre l'exemple ci-dessus, WorldGPT présente les avantages suivants face à une vidéo complexe. instructions de génération :
1) Il conserve mieux la structure et l'environnement de l'image d'origine ;
2) Génère une vidéo générée conforme à la description du texte de l'image, montrant de puissantes capacités de personnalisation de la génération vidéo ; la vidéo générée peut être personnalisée et modifiée via une invite.
Pour en savoir plus sur les principes, les expériences et les cas d'utilisation de WorldGPT, veuillez consulter l'article original.
Comme mentionné précédemment, le framework WorldGPT est construit sur le framework VisionGPT. Ensuite, nous présentons brièvement des informations sur VisionGPT.
VisionGPT est développé conjointement par SeekingAI, l'Université de Stanford, l'Université Harvard, l'Université de Pékin et d'autres institutions de renommée mondiale. Il s'agit d'un cadre de grand modèle révolutionnaire de perception visuelle en monde ouvert. Le cadre offre de puissantes capacités de traitement d'images multimodales d'IA grâce à une intégration intelligente et à une sélection décisionnelle de grands modèles SOTA de pointe.
L'innovation de VisionGPT se reflète principalement dans trois aspects :
Comme le montre ce qui précède, VisionGPT peut facilement réaliser 1) une segmentation d'instances de monde ouvert sans réglage fin ; 2) des fonctions de génération et d'édition d'images basées sur des invites, etc. Le flux de travail de VisionGPT est illustré dans la figure ci-dessous.
Pour plus de détails, veuillez vous référer au journal.
De plus, les chercheurs ont également lancé VisionGPT-3D, qui vise à résoudre un défi majeur dans la conversion de texte en éléments visuels : comment convertir efficacement et précisément des images 2D en représentations 3D. Dans ce processus, nous sommes souvent confrontés au problème de l’inadéquation entre l’algorithme et les besoins réels, affectant ainsi la qualité du résultat final. VisionGPT-3D propose un cadre multimodal qui optimise ce processus de conversion en intégrant plusieurs grands modèles de vision SOTA de pointe. Sa principale innovation réside dans sa capacité à sélectionner automatiquement le modèle visuel SOTA et l'algorithme de création de nuages de points 3D les plus appropriés, et à générer une sortie qui répond le mieux aux besoins des utilisateurs sur la base d'entrées multimodales telles que des invites textuelles.
Pour plus d'informations, veuillez consulter au papier original.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!