Maison >Périphériques technologiques >IA >La synthèse et l'édition d'images multimodales sont si populaires que l'Institut Max Planck, l'Institut technologique de Nanyang et d'autres ont publié une étude détaillée.
Les récents DALLE-2 publiés par OpenAI et Imagen publiés par Google ont obtenu des effets étonnants de génération de texte en image, qui ont attiré une large attention et ont donné naissance à de nombreuses applications intéressantes. La génération de texte en image est une tâche typique dans le domaine de la synthèse et de l'édition d'images multimodales. Récemment, des chercheurs de l'Institut Max Planck, de l'Institut technologique de Nanyang et d'autres institutions ont mené une enquête et une analyse détaillées sur l'état de la recherche et le développement futur du vaste domaine de la synthèse et de l'édition d'images multimodales.
Dans le premier chapitre, cette revue décrit l'importance et le développement global des tâches de synthèse et d'édition d'images multimodales, ainsi que la contribution et la structure globale de cet article.
Dans le deuxième chapitre, basé sur les modalités de données qui guident la synthèse et l'édition d'images, cet article de synthèse présente le guidage visuel les plus couramment utilisés (tels que les cartes sémantiques, les cartes de points clés, les cartes de contours), le guidage textuel et le guidage vocal. Le graphe de scène guide et traite les données modales correspondantes ainsi qu'un cadre de représentation unifié.
Dans le troisième chapitre, selon le cadre modèle de synthèse et d'édition d'images, l'article classe diverses méthodes actuelles, notamment les méthodes basées sur le GAN, les méthodes autorégressives, les méthodes de modèle de diffusion et la méthode des champs de rayonnement neuronal (NeRF).
Étant donné que les méthodes basées sur GAN utilisent généralement le GAN conditionnel et l'inversion inconditionnelle du GAN, cet article divise en outre cette catégorie en conditions intra-modales (telles que les cartes sémantiques, les cartes de bord), les -conditions modales Les conditions modales (telles que le texte et la parole) et l'inversion GAN (modalités unifiées) sont décrites en détail.
Par rapport aux méthodes basées sur GAN, la méthode du modèle autorégressif peut traiter les données multimodales plus naturellement et utiliser le modèle Transformer actuellement populaire. Les méthodes autorégressives apprennent généralement d'abord un codeur de quantification vectorielle à représenter discrètement les images sous forme de séquences de jetons, puis modélisent de manière autorégressive la distribution des jetons. Étant donné que des données telles que le texte et la parole peuvent être représentées sous forme de jetons et utilisées comme conditions pour la modélisation autorégressive, diverses tâches de synthèse et d'édition d'images multimodales peuvent être unifiées dans un cadre unique.
Récemment, le modèle de diffusion populaire a également été largement utilisé dans les tâches de synthèse et d'édition multimodales. Par exemple, les étonnants DALLE-2 et Imagen sont tous deux implémentés sur la base du modèle de diffusion. Comparé au GAN, le modèle de génération de diffusion présente de bonnes propriétés, telles que des objectifs de formation statiques et une évolutivité facile. Cet article classe et analyse en détail les méthodes existantes sur la base de modèles de diffusion conditionnelle et de modèles de diffusion pré-entraînés.
Les méthodes ci-dessus se concentrent principalement sur la synthèse multimodale et l'édition d'images 2D. Avec le récent développement rapide des champs de rayonnement neuronal (NeRF), la synthèse et l'édition multimodales pour la perception 3D ont attiré de plus en plus d'attention. La synthèse et l'édition multimodales pour la perception 3D sont une tâche plus difficile en raison de la nécessité de prendre en compte la cohérence multi-vues. Cet article classe et résume les travaux existants sur trois méthodes d'optimisation de scène unique NeRF, NeRF générative et d'inversion NeRF.
Par la suite, cette revue compare et discute les quatre méthodes modèles ci-dessus. Dans l’ensemble, les modèles de pointe actuels privilégient les modèles autorégressifs et de diffusion par rapport aux GAN. L'application de NeRF aux tâches de synthèse et d'édition multimodales ouvre une nouvelle fenêtre pour la recherche dans ce domaine.
Dans le chapitre 4, cette revue rassemble des ensembles de données populaires et les annotations modales correspondantes dans le domaine de la synthèse et de l'édition multimodales, et cible les tâches typiques de chaque modalité (synthèse d'images sémantiques, texte- synthèse d'images, édition d'images guidée par la voix) présentent une comparaison quantitative des méthodes actuelles.
Dans le chapitre 5, cette revue discute et analyse les défis actuels et les orientations futures dans ce domaine, y compris les ensembles de données multimodales à grande échelle, les mesures d'évaluation précises et fiables, l'architecture de réseau efficace et l'orientation de développement perçue en 3D.
Dans les chapitres 6 et 7, la revue développe l'impact social potentiel de ce domaine et résume respectivement le contenu et la contribution de l'article.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!