Maison >Périphériques technologiques >IA >Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, l'Université Tsinghua, etc. sont les premiers à ouvrir la version 'réplique' de DragGAN

Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, l'Université Tsinghua, etc. sont les premiers à ouvrir la version 'réplique' de DragGAN

PHPzavant: 2023-05-30 08:34:05891parcourir

Vous vous souvenez du DragGAN sorti il y a quelques jours ?

C'est vrai, c'est l'outil qui permet de retoucher des photos en seulement deux secondes.

Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, lUniversité Tsinghua, etc. sont les premiers à ouvrir la version réplique de DragGAN

La photo que vous avez prise n'a pas l'air bien ? construire! La forme du visage n'est pas assez fine ? construire! Votre visage est-il face à la caméra sous le mauvais angle ? construire!

Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, lUniversité Tsinghua, etc. sont les premiers à ouvrir la version réplique de DragGAN

Peut-être, "Laissez l'ancien La blague PS "L'éléphant se retourne" pourrait bientôt devenir réalité

Dès que cette vidéo de démonstration de l'outil de retouche photo AI a été publiée, elle est instantanément devenue populaire dans Chine C'était le désordre dehors.

De nombreux internautes ont déclaré : "Le PS n'existe plus".

En quelques jours seulement, l'implémentation non officielle de DragGAN est disponible pour une utilisation à l'essai. Cette fonctionnalité a été intégrée à InternGPT, et l'interface ressemble à ceci↓

Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, lUniversité Tsinghua, etc. sont les premiers à ouvrir la version réplique de DragGAN

#🎜🎜 # Adresse de l'expérience : https://igpt.opengvlab.com/

De façon inattendue, dès l'ouverture de l'entrée de la démo, c'était emballé.

Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, lUniversité Tsinghua, etc. sont les premiers à ouvrir la version réplique de DragGAN

Démo officielle

À en juger par la vidéo de démonstration officielle, le DragGAN reproduit L'effet est incroyable. # 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 # grin # 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 # # # # 🎜🎜#Tout d'abord, comment faire rire une personne qui ne sourit pas. Sélectionnez simplement les deux coins de la bouche et faites-les glisser directement.

Vous pouvez voir que le résultat final n'a aucun sentiment de violation. Parce que les muscles du visage changent également ensemble, pas seulement un sourire. # 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 # Fermez votre bouche # 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 #faceedit

Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, lUniversité Tsinghua, etc. sont les premiers à ouvrir la version réplique de DragGAN

Tout le monde adore cette fonction amincissante du visage vous le connaissez, vous pouvez sélectionner deux faces et les insérer. Le résultat sera toujours très naturel.

Minceur visage homme. Mais celui-ci est un peu trop fin, le rendu est faux à première vue, et le menton est trop pointu.

Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, lUniversité Tsinghua, etc. sont les premiers à ouvrir la version réplique de DragGAN

Cela doit être fortement recommandé ! Greffe de cheveux ! Quelle bénédiction pour les chauves.

Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, lUniversité Tsinghua, etc. sont les premiers à ouvrir la version réplique de DragGAN Cependant, à en juger par les résultats de sortie, même si le front est sélectionné, les cheveux pousseront de manière égale partout, et le résultat final ressemble un peu au singe Roi.

Face Turn

Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, lUniversité Tsinghua, etc. sont les premiers à ouvrir la version réplique de DragGAN

La rotation du visage est également une fonction très pratique, et la partie terminée est très naturelle.

Autres fonctions

En plus de la retouche photo à petite échelle, InternGPT lui-même propose de nombreuses autres opérations accrocheuses qui peuvent être effectuées.

Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, lUniversité Tsinghua, etc. sont les premiers à ouvrir la version réplique de DragGAN

Supprimer les objets couverts

Cliquez sur la partie de l'image que vous souhaitez utiliser et entrez « supprimer » dans l'invite.

Génération d'image

Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, lUniversité Tsinghua, etc. sont les premiers à ouvrir la version réplique de DragGAN

Cette fonction est plus intéressante. Téléchargez d'abord une image, entrez une invite pour laisser DragGAN la segmenter, puis entrez une invite pour générer l'image souhaitée.

Pieds noirs exposés ? (Non)

Commentaire des faits saillants de la vidéo

Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, lUniversité Tsinghua, etc. sont les premiers à ouvrir la version réplique de DragGAN

Vous pouvez également éditer des vidéos en un seul clic à l'aide de l'invite.

Questions et réponses visuelles interactives

Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, lUniversité Tsinghua, etc. sont les premiers à ouvrir la version réplique de DragGAN

Même après avoir identifié les informations sur l'image, vous pouvez les interroger directement en ligne.

Génération d'images interactives

Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, lUniversité Tsinghua, etc. sont les premiers à ouvrir la version réplique de DragGAN

Chaque doodle aléatoire peut être transformé en une belle image en un seul clic.

Quoi qu'il en soit, l'éditeur a été vraiment choqué après avoir lu ces fonctions. Toutes les fonctions mettent en évidence deux caractéristiques : « un fonctionnement insensé et une utilité ultime ».

Qui ne peut pas aimer ça ?

Mise en œuvre technique

Après avoir vu tant de fonctionnalités intéressantes, qu'est-ce qu'InternGPT exactement ?

InternGPT (iGPT en abrégé)/InternChat (iChat en abrégé) est un système d'interaction visuelle piloté par un langage de pointage. Les utilisateurs peuvent interagir avec ChatGPT en cliquant, en faisant glisser et en dessinant.

Contrairement aux systèmes d'interaction existants qui s'appuient sur le langage pur, en intégrant des instructions de pointage, iGPT améliore considérablement l'efficacité de la communication entre les utilisateurs et les chatbots, ainsi que la précision des chatbots dans les tâches centrées sur la vision, notamment dans les tâches complexes. particulièrement vrai dans les scènes visuelles.

Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, lUniversité Tsinghua, etc. sont les premiers à ouvrir la version réplique de DragGAN

Adresse papier : https://arxiv.org/pdf/2305.05662.pdf

La figure suivante est l'architecture globale d'InternGPT.

Nous pouvons voir que ce GPT peut traiter non seulement des images et des vidéos, mais aussi de la voix et du texte.

Pour l'entrée d'image ou vidéo, InternGPT utilisera SAM (modèle de segmentation d'image), OCR (modèle de reconnaissance d'image), etc.

Après avoir identifié le lieu géographique, l'objet ou la ligne, il existe toute une boîte à outils pour un traitement ultérieur, qui sont tous des outils qui nous sont familiers.

Tels que BLIP (audio), Stable Diffusion (image), Pix2Pix (traduction d'image) et ainsi de suite.

De même, pour la saisie de texte ou de voix, InternGPT appellera GPT-4, LLaMA et d'autres modèles ou outils pour le traitement, et il y aura également toute une boîte à outils plus tard.

Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, lUniversité Tsinghua, etc. sont les premiers à ouvrir la version réplique de DragGAN

L'architecture globale d'InternGPT# 🎜 🎜#

Conseils d'utilisation

L'ensemble du processus est également très pratique pendant l'utilisation.

Une fois l'image téléchargée avec succès, l'utilisateur peut envoyer le message suivant pour avoir des conversations multimodales avec iGPT :

"what is it in the image?" or "what is the background color of image?".

# 🎜🎜# De même, les utilisateurs peuvent également manipuler, modifier ou générer des images de manière interactive, comme suit :

· Cliquez n'importe où sur l'image, puis appuyez sur Choisir pour prévisualiser la zone divisée. Vous pouvez également appuyer sur le bouton OCR pour identifier tous les mots présents à un endroit précis #

“remove the masked region”

· Pour remplacer l'objet masqué par un autre objet dans l'image, vous pouvez envoyer le message suivant :

“replace the masked region with {your prompt}”

· Pour générer une nouvelle image, envoyez le message suivant :

“generate a new image based on its segmentation describing {your prompt}”

· Pour créer une nouvelle image en griffonnant, appuyez sur Tableau blanc et dessinez sur le tableau blanc. Une fois le dessin terminé, vous devez appuyer sur le bouton Enregistrer et envoyer le message suivant : # 🎜🎜#Cet étonnant DragGAN a maintenant une version non officielle. La version officielle sortira en juin, ce n'est qu'un aperçu du futur.

DragGAN a été intégré à InternGPT, il est sorti si vite, corrigez ce Artefact d'image.

Elephant P se retourne et fonctionne dès la sortie de la boîte ! HKU, NTU, lUniversité Tsinghua, etc. sont les premiers à ouvrir la version réplique de DragGAN

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Deepwater Assets s'attend à ce que les appareils AR/VR contribuent à 10 % des revenus d'Apple d'ici 2030Article suivant：Deepwater Assets s'attend à ce que les appareils AR/VR contribuent à 10 % des revenus d'Apple d'ici 2030

Articles Liés

Voir plus