Maison >Périphériques technologiques >IA >L'authenticité est choquante ! Google et l'Université Cornell lancent la technologie de complétion d'images réelles RealFill

L'authenticité est choquante ! Google et l'Université Cornell lancent la technologie de complétion d'images réelles RealFill

WBOY
WBOYavant
2023-10-03 18:17:061341parcourir

Obtenir une belle photo devient de plus en plus facile.

Lorsqu'on voyage pendant les vacances, prendre des photos est un incontournable. Cependant, la plupart des photos prises dans des endroits pittoresques sont plus ou moins regrettables. Soit il y a quelque chose de plus en arrière-plan, soit il manque quelque chose.

Obtenir une image « parfaite » est l'un des objectifs que recherchent les chercheurs en CV depuis longtemps. Récemment, des chercheurs de Google Research et de l'Université Cornell ont collaboré pour proposer une technologie de « complétion authentique d'images » : RealFill, un modèle génératif pour la complétion d'images.

L'avantage du modèle RealFill est qu'il peut être personnalisé avec un petit nombre d'images de référence de scène qui n'ont pas besoin d'être alignées avec l'image cible et peuvent même varier considérablement en termes d'angle de vue, de conditions d'éclairage, d'ouverture de la caméra ou style d'images. Une fois la personnalisation terminée, RealFill peut compléter l'image cible avec un contenu visuellement attrayant, fidèle à la scène originale.

Lauthenticité est choquante ! Google et lUniversité Cornell lancent la technologie de complétion dimages réelles RealFill

  • Veuillez cliquer sur le lien suivant pour consulter l'article : https://arxiv.org/abs/2309.16668

  • Lien de la page du projet : https://realfill.github.io/

Les modèles d'inpainting et d'outpainting sont des technologies qui peuvent générer un contenu d'image raisonnable et de haute qualité dans des zones inconnues de l'image. Cependant, le contenu généré par ces modèles doit être irréaliste car ces modèles ne sont pas réalistes dans le monde réel. Il y a des déficiences dans les informations contextuelles de la scène. En revanche, RealFill génère du contenu qui « devrait » être là, rendant les résultats de complétion d'image plus réalistes.

Les auteurs ont souligné dans l'article qu'ils ont défini un nouveau problème de complétion d'image - "Authentic Image Completion". Différent de la restauration d'image générative traditionnelle (le contenu qui remplace la zone manquante peut être incohérent avec la scène d'origine), l'objectif de la complétion d'image réelle est de rendre le contenu complété aussi fidèle que possible à la scène d'origine, en utilisant un contenu qui « devrait apparaître » là-bas". Complétez l'image cible avec du contenu qui "pourrait être là-bas".

L'auteur a déclaré que RealFill est la première méthode pour étendre le pouvoir expressif des modèles génératifs de réparation d'images en ajoutant plus de conditions (c'est-à-dire en ajoutant des images de référence) au processus.

RealFill surpasse considérablement les méthodes existantes sur un nouveau benchmark de complétion d'images couvrant un ensemble diversifié et stimulant de scénarios. Le but de la

method

RealFill est d'utiliser un petit nombre d'images de référence pour compléter les parties manquantes d'une image cible donnée tout en conservant autant que possible l'authenticité. Plus précisément, vous disposez de jusqu'à 5 images de référence et d'une image cible qui capture à peu près la même scène (mais peut avoir une disposition ou une apparence différente).

Pour une scène donnée, les chercheurs créent d'abord un modèle génératif personnalisé en affinant un modèle de diffusion d'inpainting pré-entraîné sur des images de référence et cibles. Ce processus de réglage fin est conçu de manière à ce que le modèle affiné non seulement conserve de bons a priori d'image, mais apprenne également le contenu de la scène, l'éclairage et le style de l'image d'entrée. Ce modèle affiné est ensuite utilisé pour combler les régions manquantes dans l’image cible via un processus d’échantillonnage par diffusion standard. Lauthenticité est choquante ! Google et lUniversité Cornell lancent la technologie de complétion dimages réelles RealFill

Il convient de noter que pour une valeur d'application pratique, ce modèle accorde une attention particulière au cas le plus difficile et sans contrainte, c'est-à-dire que l'image cible et l'image de référence peuvent avoir des points de vue et des environnements très différents. conditions, ouverture de l'appareil photo, style d'image et même objets en mouvement.

Résultats expérimentaux

Selon l'image de référence à gauche, RealFill peut agrandir (décrocher) ou réparer (inpaint) l'image cible à droite. Les résultats générés ne sont pas seulement visuellement attrayants, mais aussi Être cohérent avec l'image de référence même s'il existe de grandes différences entre l'image de référence et l'image cible en termes de point de vue, d'ouverture, d'éclairage, de style d'image et de mouvement de l'objet.

Lauthenticité est choquante ! Google et lUniversité Cornell lancent la technologie de complétion dimages réelles RealFillLauthenticité est choquante ! Google et lUniversité Cornell lancent la technologie de complétion dimages réelles RealFill

Lauthenticité est choquante ! Google et lUniversité Cornell lancent la technologie de complétion dimages réelles RealFill

Lauthenticité est choquante ! Google et lUniversité Cornell lancent la technologie de complétion dimages réelles RealFillEffet de sortie du modèle RealFill. Étant donné une image de référence à gauche, RealFill peut agrandir l'image cible correspondante à droite. Les zones à l'intérieur de la boîte blanche sont fournies au réseau sous forme de pixels connus, tandis que les zones à l'extérieur de la boîte blanche sont générées. Les résultats montrent que RealFill peut générer des images de haute qualité fidèles à l'image de référence même s'il existe d'énormes différences entre l'image de référence et l'image cible, notamment le point de vue, l'ouverture, l'éclairage, le style d'image et le mouvement de l'objet. Source : Papier

Expériences contrôlées

Les chercheurs ont comparé le modèle RealFill avec d'autres méthodes de base. En comparaison, RealFill produit des résultats de haute qualité et fonctionne mieux en termes de fidélité de scène et de cohérence avec les images de référence.

Paint-by-Example ne peut pas atteindre un haut degré de fidélité de scène car il repose sur l'intégration CLIP, qui ne peut capturer que des informations sémantiques de haut niveau.

L'inpainting à diffusion stable peut produire des résultats apparemment raisonnables, mais en raison du pouvoir expressif limité de l'invite, les résultats finaux générés ne sont pas cohérents avec l'image de référence.

Lauthenticité est choquante ! Google et lUniversité Cornell lancent la technologie de complétion dimages réelles RealFill

Comparaison de RealFill avec deux autres méthodes de base. La zone couverte par un masque blanc transparent est la partie non modifiée de l'image cible. Source : realfill.github.io

Limitations

Les chercheurs ont également discuté de certains problèmes et limites potentiels du modèle RealFill, notamment la vitesse de traitement, la capacité à gérer les changements de point de vue et la nécessité de connaissances de base. Capacité du modèle à gérer des situations difficiles. Plus précisément :

RealFill nécessite un processus de réglage fin basé sur un dégradé sur l'image d'entrée, ce qui rend son exécution relativement lente.
Lorsque le changement de point de vue entre l'image de référence et l'image cible est très important, RealFill est souvent incapable de restaurer la scène 3D, surtout lorsqu'il n'y a qu'une seule image de référence.

Étant donné que RealFill s'appuie principalement sur des images a priori héritées du modèle de base pré-entraîné, il ne peut pas gérer les situations difficiles pour le modèle de base, telles que les modèles de diffusion stables qui ne peuvent pas bien gérer le texte.

Lauthenticité est choquante ! Google et lUniversité Cornell lancent la technologie de complétion dimages réelles RealFill

Enfin, les auteurs expriment leur gratitude à leurs collaborateurs :

Nous tenons à remercier Rundi Wu, Qianqian Wang, Viraj Shah, Ethan Weber, Zhengqi Li, Kyle Genova, Boyang Deng, Maya Goldenberg, Noah Snavely, Ben Poole, Ben Mildenhall, Alex Rav-Acha, Pratul Srinivasan, Dor Verbin et Jon Barron pour leurs discussions et commentaires précieux, et nous remercions également Zeya Peng, Rundi Wu et Shan Nan pour leurs contributions à l'ensemble de données d'évaluation. Nous sommes particulièrement reconnaissants à Jason Baldridge, Kihyuk Sohn, Kathy Meier-Hellstern et Nicole Brichtova pour leurs commentaires et leur soutien sur le projet.

Veuillez lire l'article original et visiter la page d'accueil du projet pour plus d'informations

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer