Heim >Technologie-Peripheriegeräte >KI >Elephant P dreht sich um und funktioniert sofort nach dem Auspacken! HKU, NTU, Tsinghua University usw. sind die ersten, die die „Replikat'-Version von DragGAN als Open Source veröffentlichen
Erinnerst du dich noch an die Veröffentlichung von DragGAN vor ein paar Tagen?
Richtig, es ist das Tool, mit dem Sie Bilder in nur zwei Sekunden retuschieren können.
Das von Ihnen aufgenommene Foto hat einen schlechten Gesichtsausdruck? bauen! Gesichtsform nicht dünn genug? bauen! Steht Ihr Gesicht im falschen Winkel zur Kamera? bauen!
Vielleicht wird der alte PS-Witz „Lass den Elefanten umdrehen“ wahr
Sobald dieses Demonstrationsvideo zum KI-Retuschierwerkzeug veröffentlicht wurde, war es sofort ein großer Erfolg im In- und Ausland.
Viele Internetnutzer sagten: „PS existiert nicht mehr.“
In nur wenigen Tagen steht die inoffizielle Implementierung von DragGAN nun zum Testen zur Verfügung. Diese Funktion wurde in InternGPT integriert. Die Schnittstelle sieht so aus↓
Experience-Adresse: https://igpt.opengvlab.com/
Unerwartet, sobald der Demo-Eingang wird geöffnet, es wurde direkt gequetscht.
Nach dem offiziellen Demonstrationsvideo zu urteilen, ist die Wirkung des reproduzierten DragGAN erstaunlich.
Grinsen
Erstens, wie man eine Person zum Lachen bringt, die nicht lächelt. Wählen Sie einfach die beiden Mundwinkel aus und ziehen Sie sie direkt.
Sie können sehen, dass das Endergebnis keinen Verstoß darstellt. Denn auch die Gesichtsmuskeln verändern sich gemeinsam, nicht nur ein Grinsen.
COSE IHRE MOSSELFAKTE-BEDEUTUNG-JEDER ist mit dieser Face-Slimm-Funktion sehr vertraut. ganz natürlich sein.
Gesichtsstraffung für Männer. Aber dieser ist etwas zu dünn, die Ausgabe wirkt auf den ersten Blick gefälscht und das Kinn ist zu spitz.
Das ist unbedingt zu empfehlen! Haartransplantation! Was für ein Segen für Menschen mit Glatze.
Aber den Ausgabeergebnissen nach zu urteilen, wachsen die Haare an allen Stellen in gleichen Anteilen, selbst wenn die Stirn ausgewählt wird, und das Endergebnis ähnelt ein bisschen dem Affenkönig.
Gesichtsdrehung
Gesichtsdrehung ist ebenfalls eine sehr praktische Funktion und der fertige Teil ist sehr natürlich.
Neben der Fotobearbeitung im kleinen Maßstab verfügt InternGPT selbst über viele weitere auffällige Vorgänge, die ausgeführt werden können.
Abgedeckte Objekte entfernen
Klicken Sie auf den Teil des Bildes, den Sie bearbeiten möchten, und geben Sie in der Eingabeaufforderung „Entfernen“ ein.
Bildgenerierung
Diese Funktion ist interessanter. Laden Sie zuerst ein Bild hoch, geben Sie eine Eingabeaufforderung ein, damit DragGAN es segmentieren kann, und geben Sie dann eine Eingabeaufforderung ein, um das gewünschte Bild zu generieren.
Freiliegende schwarze Füße? (Nein)
Sie können Videos auch mit einem Klick über die Eingabeaufforderung bearbeiten.
Interaktive visuelle Frage und Antwort
Auch nachdem Sie die Informationen auf dem Bild identifiziert haben, können Sie diese direkt online abfragen.
Interaktive Bildgenerierung
Jedes zufällige Gekritzel kann mit einem Klick in ein wunderschönes Bild verwandelt werden.
Jedenfalls war der Redakteur wirklich schockiert, nachdem er diese Funktionen gelesen hatte. Alle Funktionen zeichnen sich durch zwei Merkmale aus: „kinderleichte Bedienung und ultimativer Nutzen“.
Wer kann das nicht lieben?
Nachdem wir so viele coole Funktionen gesehen haben, was genau ist InternGPT?
InternGPT (kurz iGPT)/InternChat (kurz iChat) ist ein visuelles Interaktionssystem, das durch Zeigesprache gesteuert wird. Benutzer können mit ChatGPT durch Klicken, Ziehen und Zeichnen interagieren.
Im Gegensatz zu bestehenden Interaktionssystemen, die auf reiner Sprache basieren, verbessert iGPT durch die Integration von Zeigeanweisungen die Kommunikationseffizienz zwischen Benutzern und Chatbots sowie die Genauigkeit von Chatbots bei visionszentrierten Aufgaben, insbesondere bei komplexen Aufgaben Dies gilt insbesondere für visuelle Szenen.
Papieradresse: https://arxiv.org/pdf/2305.05662.pdf
Die folgende Abbildung zeigt die Gesamtarchitektur von InternGPT.
Wir sehen, dass dieses GPT nicht nur Bilder und Videos, sondern auch Sprache und Text verarbeiten kann.
Für die Bild- oder Videoeingabe verwendet InternGPT SAM (Bildsegmentierungsmodell), OCR (Bilderkennungsmodell) usw. zur Verarbeitung.
Nach der Identifizierung des geografischen Standorts, Objekts oder der Linie steht ein ganzer Werkzeugkasten zur weiteren Verarbeitung zur Verfügung, der uns allesamt vertraute Werkzeuge sind.
Wie BLIP (Audio), Stable Diffusion (Bild), Pix2Pix (Bildübersetzung) und so weiter.
In ähnlicher Weise ruft InternGPT für die Text- oder Spracheingabe GPT-4, LLaMA und andere Modelle oder Tools zur Verarbeitung auf, und später wird es auch eine ganze Toolbox geben.
Die Gesamtarchitektur von InternGPT# 🎜 🎜#
AnwendungstippsDer gesamte Vorgang ist auch während der Anwendung sehr praktisch.
Nachdem das Bild erfolgreich hochgeladen wurde, kann der Benutzer die folgende Nachricht senden, um multimodale Gespräche mit iGPT zu führen:
"what is it in the image?" or "what is the background color of image?".# ?? Klicken Sie auf die Schaltfläche, um eine Vorschau des geteilten Bereichs anzuzeigen. Sie können auch die OCR-Taste drücken, um alle an einer bestimmten Stelle vorhandenen Wörter zu identifizieren; #
“remove the masked region”
· Um das maskierte Objekt durch ein anderes Objekt im Bild zu ersetzen, können Sie die folgende Nachricht senden :
“replace the masked region with {your prompt}”
· Um ein neues Bild zu erstellen, senden Sie die folgende Nachricht:
“generate a new image based on its segmentation describing {your prompt}”
· Zum Erstellen Um durch Kritzeln ein neues Bild zu erstellen, drücken Sie auf „Whiteboard“ und zeichnen Sie auf dem Whiteboard. Nachdem die Zeichnung abgeschlossen ist, müssen Sie auf die Schaltfläche „Speichern“ klicken und die folgende Nachricht senden:
“generate a new image based on this scribble describing {your prompt}”
Netizen Comments
# 🎜🎜#Dieses erstaunliche DragGAN hat jetzt eine inoffizielle Version. Die offizielle Version wird im Juni veröffentlicht, dies ist nur eine Vorschau auf die Zukunft.
DragGAN wurde in InternGPT integriert, es kam so schnell heraus, fix Das Bildartefakt.
Das obige ist der detaillierte Inhalt vonElephant P dreht sich um und funktioniert sofort nach dem Auspacken! HKU, NTU, Tsinghua University usw. sind die ersten, die die „Replikat'-Version von DragGAN als Open Source veröffentlichen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!