Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Nur ein Satz, um das Bild zu bewegen. Apple verwendet zum Generieren eine große Modellanimation, und das Ergebnis kann direkt bearbeitet werden.

Nur ein Satz, um das Bild zu bewegen. Apple verwendet zum Generieren eine große Modellanimation, und das Ergebnis kann direkt bearbeitet werden.

王林
王林nach vorne
2024-03-05 09:46:38560Durchsuche

Derzeit wirken sich die erstaunlichen innovativen Fähigkeiten von Großmodellen weiterhin auf den kreativen Bereich aus, insbesondere auf Vertreter der Videoerzeugungstechnologie wie Sora. Obwohl Sora eine neue Generation von Trends angeführt hat, könnte es sich lohnen, jetzt auf die neuesten Forschungsergebnisse von Apple zu achten.

Apple-Forscher haben kürzlich ein Framework namens „Keyframer“ veröffentlicht, das große Sprachmodelle zum Generieren von Animationen verwenden kann. Mit diesem Framework können Benutzer auf einfache Weise Animationen für statische 2D-Bilder durch Eingabeaufforderungen in natürlicher Sprache erstellen. Diese Forschung zeigt das Potenzial von Sprachmodellen beim Entwerfen von Animationen und stellt Animationsdesignern effizientere und intuitivere Werkzeuge zur Verfügung.

Nur ein Satz, um das Bild zu bewegen. Apple verwendet zum Generieren eine große Modellanimation, und das Ergebnis kann direkt bearbeitet werden.

Papieradresse: https://arxiv.org/pdf/2402.06071.pdf

In dieser Forschung werden insbesondere neue Designprinzipien basierend auf Sprach-Prompt-Designartefakten und den Codegenerierungsfunktionen von LLM kombiniert ein neues KI-gesteuertes Animationstool Keyframer. Mit Keyframer können Benutzer durch Eingabeaufforderungen in natürlicher Sprache animierte Illustrationen aus statischen 2D-Bildern erstellen. Mit GPT-4 kann Keyframer CSS-Animationscode generieren, um die eingegebene SVG-Datei (Scalable Vector Graphic) zu animieren.

Darüber hinaus unterstützt Keyframer Benutzer dabei, die generierte Animation direkt über mehrere Editortypen zu bearbeiten.

Benutzer können ihre Designs mithilfe der von LLM generierten Designvarianten durch wiederholte Aufforderungen und Anfragen kontinuierlich verbessern und so in neue Designrichtungen denken. Keyframer wurde jedoch noch nicht veröffentlicht.

Der Grund für diese Untersuchung ist, dass Apple angegeben hat, dass die Anwendung von LLM in der Animation noch nicht vollständig erforscht ist und neue Herausforderungen mit sich bringt, beispielsweise wie Benutzer Bewegungen effektiv in natürlicher Sprache beschreiben können. Während Vincentian-Grafiktools wie Dall・E und Midjourney derzeit großartig sind, erfordert das Animationsdesign komplexere Überlegungen wie Timing und Koordination, die sich nur schwer in einer einzigen Eingabeaufforderung zusammenfassen lassen.

Benutzer laden einfach ein Bild hoch, geben in das Eingabeaufforderungsfeld etwas wie „Lass die Sterne funkeln“ ein und klicken auf „Generieren“, um die Auswirkungen dieser Studie zu sehen.

Nur ein Satz, um das Bild zu bewegen. Apple verwendet zum Generieren eine große Modellanimation, und das Ergebnis kann direkt bearbeitet werden.

Benutzer können mehrere Animationsdesigns in einem Stapel erstellen und Eigenschaften wie Farbcode und Animationsdauer in separaten Fenstern anpassen. Es sind keine Programmierkenntnisse erforderlich, da Keyframer diese Änderungen automatisch in CSS umwandelt und der Code selbst vollständig bearbeitet werden kann. Dieser beschreibungsbasierte Ansatz ist viel einfacher als andere Formen der KI-generierten Animation, die oft mehrere verschiedene Anwendungen und etwas Programmiererfahrung erfordern.

Einführung in Keyframer

Keyframer ist eine LLM-basierte Anwendung, die zum Erstellen von Animationen aus statischen Bildern entwickelt wurde. Keyframer nutzt die Codegenerierungsfunktionen von LLM und die semantische Struktur statischer Vektorgrafiken (SVG), um Animationen basierend auf vom Benutzer bereitgestellten natürlichen Sprachhinweisen zu generieren.

Nur ein Satz, um das Bild zu bewegen. Apple verwendet zum Generieren eine große Modellanimation, und das Ergebnis kann direkt bearbeitet werden.

Eingabe: Das System bietet einen Eingabebereich, in den Benutzer den SVG-Bildcode einfügen können, den sie animieren möchten (SVG ist ein standardmäßiges und beliebtes Bildformat, das in Illustrationen verwendet wird und aufgrund seiner Skalierbarkeit und Kompatibilität häufig verwendet wird auf mehreren Plattformen). In Keyframer wird neben dem Code-Editor ein Rendering des SVG angezeigt, sodass der Benutzer eine Vorschau des visuellen Designs des Bildes anzeigen kann. Wie in Abbildung 2 dargestellt, enthält der SVG-Code für die Saturn-Illustration Bezeichner wie Himmel, Ringe usw .

Nur ein Satz, um das Bild zu bewegen. Apple verwendet zum Generieren eine große Modellanimation, und das Ergebnis kann direkt bearbeitet werden.

GPT-Tipps: Dieses System ermöglicht es Benutzern, Eingabeaufforderungen in natürlicher Sprache einzugeben, um Animationen zu erstellen. Benutzer können ein einzelnes Design (den Planeten drehen lassen) oder mehrere Designvarianten (ein Design mit drei funkelnden Sternen erstellen) anfordern und dann auf die Schaltfläche „Animation generieren“ klicken, um die Anfrage zu starten. Bevor Benutzeranfragen an GPT weitergeleitet werden, verfeinert die Studie ihre Eingabeaufforderungen mit dem vollständigen rohen SVG-XML und spezifiziert das Format der LLM-Antwort.

GPT-Ausgabe: Sobald die Eingabeaufforderungsanfrage startet, überträgt GPT eine Antwort, die aus einem oder mehreren CSS-Fragmenten besteht, wie in Abbildung 3 dargestellt.

Nur ein Satz, um das Bild zu bewegen. Apple verwendet zum Generieren eine große Modellanimation, und das Ergebnis kann direkt bearbeitet werden.

Rendering: Der Rendering-Teil umfasst (1) die visuelle Darstellung jeder Animation und eine von LLM generierte 1-Satz-Erklärung (2) eine Reihe von Editoren zur Änderung des Designs.

Der Code-Editor wird mit CodeMirror implementiert; der Eigenschaften-Editor bietet eine eigenschaftsspezifische Benutzeroberfläche zum Bearbeiten von Code, zum Beispiel zum Bearbeiten von Farben, die Studie bietet einen Farbwähler. Abbildung 5 zeigt die Symbole des Code-Editors und des Eigenschaften-Editors.

Nur ein Satz, um das Bild zu bewegen. Apple verwendet zum Generieren eine große Modellanimation, und das Ergebnis kann direkt bearbeitet werden.

Iteration: Um Benutzer dabei zu unterstützen, tiefer in den Animationserstellungsprozess (DG1) einzutauchen, bietet die Studie auch eine Funktion, die es Benutzern ermöglicht, mithilfe von Eingabeaufforderungen iterativ auf der generierten Animation aufzubauen. Unter jedem generierten Design befindet sich die Schaltfläche „+ Neue Eingabeaufforderung hinzufügen“. Wenn Sie auf diese Schaltfläche klicken, wird unten auf der Seite ein neues Formular geöffnet, in dem der Benutzer sein Design um neue Eingabeaufforderungen erweitern kann.

Speichern Sie Ihre gestaltete Seitenleiste und Zusammenfassung. Das System ermöglicht Benutzern das Markieren von Designs und das Hinzufügen zu ihrer Seitenleiste, wie auf der rechten Seite von Abbildung 6 dargestellt. Darüber hinaus verfügt das System über einen Zusammenfassungsmodus, der alle Texteditoren ausblendet und Animationen und ihre Eingabeaufforderungen anzeigt, sodass Benutzer frühere Eingabeaufforderungen und Designs schnell erneut aufrufen können.

Nur ein Satz, um das Bild zu bewegen. Apple verwendet zum Generieren eine große Modellanimation, und das Ergebnis kann direkt bearbeitet werden.

Während des Experiments wählte das Apple-Team 13 Teilnehmer (6 Frauen, 7 Männer) aus, um Keyframer auszuprobieren. Tabelle 1 gibt einige Informationen über die Teilnehmer und die von ihnen erworbenen Fähigkeiten.

Auch der professionelle Motion-Designer „EP13“ sieht das Potenzial von Keyframer, seine Fähigkeiten zu erweitern: „Ich mache mir ein wenig Sorgen, dass diese Tools unsere Arbeit ersetzen werden, weil ihr Potenzial so groß ist. Aber wenn man genau darüber nachdenkt, Diese Forschung wird unsere Fähigkeiten nur verbessern. Es sollte etwas sein, worüber wir uns freuen können. Die Teilnehmer gaben eine Durchschnittsnote von 3,9 an und reichten von zufrieden (4) bis neutral (3). Die Teilnehmer erstellten 223 Designs. Im Durchschnitt erstellte jeder Teilnehmer 17,2 Designs. Abbildung 8 zeigt ein Beispiel der endgültigen Animation für zwei Teilnehmer.

Nur ein Satz, um das Bild zu bewegen. Apple verwendet zum Generieren eine große Modellanimation, und das Ergebnis kann direkt bearbeitet werden.

Weitere technische Details finden Sie im Originalpapier.

Nur ein Satz, um das Bild zu bewegen. Apple verwendet zum Generieren eine große Modellanimation, und das Ergebnis kann direkt bearbeitet werden.

Das obige ist der detaillierte Inhalt vonNur ein Satz, um das Bild zu bewegen. Apple verwendet zum Generieren eine große Modellanimation, und das Ergebnis kann direkt bearbeitet werden.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen