Heim >Technologie-Peripheriegeräte >KI >Der Zauber von Googles neuem „AI Director' besteht darin, dass er den Protagonisten des Videos mit nur einem Satz ändern kann, was erstaunlich ist, und die Bildqualität ist auch sehr gut.
Dieser Artikel wird mit Genehmigung von AI New Media Qubit (öffentliche Konto-ID: QbitAI) nachgedruckt. Bitte wenden Sie sich für einen Nachdruck an die Quelle.
Google hat einen neuen „KI-Regisseur“ auf den Markt gebracht, der sogar den Protagonisten des Videos in einem Satz ändern kann.
Schau, ein kleiner Bär tanzt auf dem grünen Gras. Sind heutzutage alle Bären so künstlerisch? ? Nein, nein, nein! Was ursprünglich auf dem Gras war, war tatsächlich ein Affe. Um sich von einem Affen in einen Bären zu verwandeln, sagen Sie einfach dieser KI: Ein kleiner Bär tanzt im Takt der Musik und dreht seinen ganzen Körper.(Ein Bär tanzt und springt zu fröhlicher Musik und bewegt dabei seinen ganzen Körper)
Diese KI namensDreamix kann nicht nur Videos „magisch modifizieren“, sondern auch statische Bilder in Animationen umwandeln – Das geht auch in einem Satz Fertig .
Zeigen Sie dieser KI beispielsweise ein „Schildkrötenschwimmfoto“ und sagen Sie ihr: Eine Schildkröte wurde unter Wasser fotografiert und ein Hai näherte sich von hinten.(Unterwasseraufnahme einer Meeresschildkröte mit einem von hinten herannahenden Hai)
Hey Leute, ein Satz brachte nicht nur die Schildkröte zum Schwimmen, sondern fügte auch einen Hai aus dem Nichts hinzu. Dieser Effekt hat vielen Internetnutzern gefallen. Manche behaupten sogar, dass AIGC auch in den nächsten zwei Jahren einen Wahnsinn auslösen wird, noch verrückter als die Entwicklung während des Jahrtausends. Das Video mit nur einem Satz leitenEs wird gelobt, sobald es veröffentlicht wird. Wie ist diese KI? Um ein Gefühl dafür zu bekommen, können Sie sich auch weitere seiner „Regie“-Werke ansehen. Zuallererst, was dieveränderlichen Videocharaktere betrifft, ist dies das ursprüngliche Feld:
Dies ist das von der KI in Brand gesetzte Feld: Das ist der Mensch Handschrift:Dies ist eine KI-generierte Roboterhandschrift: Sie basiert ebenfalls auf einem Video einer menschlichen Schrift, wenn der Aufforderungssatz durch „Eine menschliche Hand zeichnet einen Kreis“ ersetzt wird. , es wird verschiedene Generierungseffekte geben: Was die
statische Bildwechselanimation betrifft, ist das Originalbild ein nebliger Dschungel:
und die KI hat diesem Wald ein laufendes Einhorn hinzugefügt, und das Objektiv Es wurde auch gemäß den Satzaufforderungen herausgezoomt. Es gibt auch so ein Flusstal-Landschaftsbild: AI bringt nicht nur den Bach zum Fließen, sondern fügt auch badende Büffel am Ufer und fliegende Vögel am Himmel hinzu.Einige Leute haben vielleicht das Gefühl, dass sie etwas mehr Zeit brauchen: Die Animation wurde gemacht, aber die Qualität auch viel geopfert worden.
Dann kannst du der KI auch noch ein paar Bilder zeigen.
Zeigen Sie der KI beispielsweise 7 Fotos von Spielzeug-Feuermeldern auf einmal:
Dann Lassen Sie dann ein Video basierend auf einem Satz generieren, und die Bildqualität wird viel klarer.
Wie dieser „KI-Direktor“ das macht, sagt Google, der Schlüssel liege im „alten Freund“ #🎜 🎜# Diffusionsmodell (Diffusionsmodell).
Das Diffusionsmodell ist auch der Kern des beliebten AIGC-MalwerkzeugsDALL·E 2.
Google-Forscher wiesen darauf hin, dass es tatsächlich schon früher eine ähnliche KI für „textgenerierte Videos“ gab, aber wenn das Videodiffusionsmodell nur auf das Eingabevideo abgestimmt wird, wird es dies einschränken Grad der Bewegungsänderungen. Was diese KI anders macht, ist: Das Team verwendete ein„Hybridziel“ , zusätzlich zur Feinabstimmung des ursprünglichen Ziels. und führt auch eine Feinabstimmung für ungeordnete Frame-Sets durch.
Sie nutzen einen speziellen Aufmerksamkeitsmechanismus beim Deep Learning: Maskierte zeitliche Aufmerksamkeit, der dem Modell hilft, sich auf bestimmte Teile der Eingabeinformationen zu konzentrieren und andere irrelevante Teile zu ignorieren. – Dies verbessert die Fähigkeit des Modells, Sequenzdaten zu verarbeiten, erzeugt eine vielfältigere Dynamik im Video und der Effekt ist natürlicher. Mit dem Segen des Diffusionsmodells und der maskierten zeitlichen Aufmerksamkeit für die Änderung des Videoprotagonisten war der Input tatsächlich Weggelassen – es waren nur geringfügige Anpassungen erforderlich und die Genauigkeit der Ergebnisse war recht gut.Das obige ist der detaillierte Inhalt vonDer Zauber von Googles neuem „AI Director' besteht darin, dass er den Protagonisten des Videos mit nur einem Satz ändern kann, was erstaunlich ist, und die Bildqualität ist auch sehr gut.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!