Maison > Article > Périphériques technologiques > Transformez des scripts en vidéos, l'intelligence artificielle ne fait qu'un pas
Meta a déclaré dans un article de blog annonçant les travaux : « La recherche sur l'IA générative fait progresser l'expression créative en donnant aux gens les outils nécessaires pour créer du nouveau contenu rapidement et facilement avec seulement quelques phrases ou avec seulement quelques lignes de texte, Make-A-. La vidéo donne vie à votre imagination, en créant des vidéos uniques pleines de couleurs et de paysages vifs », a déclaré Mark Zuckerberg, PDG de Meta, sur Facebook. Ce travail constitue une « avancée incroyable », ajoutant : « Générer des vidéos est beaucoup plus difficile que générer des photos car, en En plus de générer correctement chaque pixel, le système doit également prédire comment ils évolueront au fil du temps."
Ces vidéos ne durent pas plus de 5 secondes et ne contiennent aucun audio, mais contiennent de nombreux conseils. La meilleure façon de juger les performances d’un modèle est d’observer son résultat. Cependant, personne n’est actuellement autorisé à accéder au modèle. Cela signifie que ces clips ont probablement été soigneusement sélectionnés par les développeurs pour présenter le système sous son meilleur jour.
Encore une fois, même si ces vidéos sont évidemment générées par ordinateur, les résultats de ce modèle d'IA s'amélioreront rapidement dans un avenir proche. En revanche, en quelques années seulement, les générateurs d’images IA sont passés de la création d’images bord à bord incompréhensibles à un contenu réaliste. Même si les progrès de la vidéo peuvent être lents en raison de la complexité quasi infinie du sujet, la valeur d'une génération vidéo transparente incitera de nombreuses agences et entreprises à consacrer des ressources importantes au projet.
Comme le modèle texte-image, il est possible d'avoir des applications nuisibles.
Dans un article de blog annonçant Make-a-Video, Meta a noté que l'outil de génération vidéo pourrait être inestimable « pour les créateurs et les artistes ». Mais, comme pour le modèle de conversion texte-image, les perspectives sont lourdes. Les résultats de ces outils peuvent être utilisés à des fins de désinformation et de propagande. Meta dit qu'elle espère « apporter une réflexion approfondie sur la manière de construire un tel système d'IA générative » et n'a publié qu'un seul article sur le modèle Make-A-Video. La société a annoncé qu'elle prévoyait de publier une version de démonstration du système, mais n'a pas précisé quand ni comment l'accès au modèle serait restreint.
Il convient de mentionner que Meta n'est pas la seule agence à travailler sur des générateurs de vidéos IA. Plus tôt cette année, une équipe de chercheurs de l'Université Tsinghua et de l'Académie d'intelligence artificielle de Pékin (BAAI) a publié son propre modèle de conversion texte-vidéo, nommé CogVideo. Dans un article décrivant le modèle, les chercheurs de
Meta notent que Make-A-Video est formé sur des paires d'images et de légendes ainsi que sur des clips vidéo non étiquetés. Le contenu de la formation provient de deux ensembles de données (WebVid-10M et HD-VILA-100M), qui contiennent ensemble des millions de vidéos couvrant des centaines de milliers d'heures de séquences. Cela inclut les clips vidéo créés par des sites comme Shutterstock et récupérés sur le Web.
Les chercheurs soulignent dans l'article qu'en plus des images floues et des animations saccadées, le modèle présente un certain nombre de limitations techniques. Par exemple, leurs méthodes de formation ne peuvent pas apprendre des informations qui pourraient uniquement être déduites par des humains regardant les vidéos – par exemple, si une vidéo d'un mouvement de mains va de gauche à droite ou de droite à gauche. D'autres problèmes incluent la génération de vidéos de plus de 5 secondes, de vidéos contenant plusieurs scènes et événements et des résolutions plus élevées. Make-A-Video produit actuellement 16 images vidéo avec une résolution de 64 * 64 pixels, puis utilise un modèle d'intelligence artificielle distinct pour augmenter sa taille à 768 * 768.
L'équipe de Meta a également noté que, comme tous les modèles d'IA formés à l'aide de données extraites du Web, Make-A-Video apprend et exagère potentiellement les préjugés sociaux, y compris les préjugés nuisibles. Dans les modèles texte-image, ces biais renforcent souvent les préjugés sociaux. Par exemple, demandez-lui de générer l’image d’un « terroriste », susceptible de représenter une personne portant un turban. Cependant, sans accès libre, il est difficile de dire quels biais les modèles Meta ont appris.
Meta a déclaré que la société "partage ouvertement cette recherche et ses résultats sur l'IA générative avec la communauté technologique pour obtenir ses commentaires et continuera à utiliser notre cadre d'IA responsable pour affiner et faire évoluer notre approche de cette méthode technique émergente."
Alors que les générateurs d'intelligence artificielle dans les domaines de la peinture et de la vidéo deviennent de plus en plus populaires, je pense que des outils de génération d'intelligence artificielle pour d'autres arts (comme la musique) apparaîtront bientôt (peut-être déjà).
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!