suchen
HeimTechnologie-PeripheriegeräteKII2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in

Die Aufgabe der Bild-zu-Video-Generierung (I2V) ist eine Herausforderung im Bereich Computer Vision, die darauf abzielt, statische Bilder in dynamische Videos umzuwandeln. Die Schwierigkeit dieser Aufgabe besteht darin, aus einem einzelnen Bild dynamische Informationen in der zeitlichen Dimension zu extrahieren und zu generieren und dabei die Authentizität und visuelle Kohärenz des Bildinhalts zu wahren. Bestehende I2V-Methoden erfordern häufig komplexe Modellarchitekturen und große Mengen an Trainingsdaten, um dieses Ziel zu erreichen.

Kürzlich wurde ein neues Forschungsergebnis „I2V-Adapter: Ein allgemeiner Bild-zu-Video-Adapter für Videodiffusionsmodelle“ unter der Leitung von Kuaishou veröffentlicht. Diese Forschung stellt eine innovative Bild-zu-Video-Konvertierungsmethode vor und schlägt ein leichtes Adaptermodul vor, den I2V-Adapter. Dieses Adaptermodul ist in der Lage, statische Bilder in dynamische Videos umzuwandeln, ohne die ursprüngliche Struktur und vorab trainierte Parameter vorhandener T2V-Modelle (Text-to-Video Generation) zu ändern. Diese Methode hat breite Anwendungsaussichten im Bereich der Bild-Video-Konvertierung und kann mehr Möglichkeiten für die Videoerstellung, Medienkommunikation und andere Bereiche eröffnen. Die Veröffentlichung der Forschungsergebnisse ist von großer Bedeutung für die Weiterentwicklung der Bild- und Videotechnologie und stellt ein wirksames Werkzeug und eine Methode für Forscher in verwandten Bereichen dar.

I2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in


  • Papieradresse: https://arxiv.org/pdf/2312.16693.pdf
  • Projekthomepage: https://i2v-adapter.github.io/index .html
  • Codeadresse: https://github.com/I2V-Adapter/I2V-Adapter-repo

Im Vergleich zu vorhandenen Methoden verfügt der I2V-Adapter über mehr trainierbare Parameter. Es wurden enorme Verbesserungen erzielt hergestellt, und die Anzahl der Parameter kann bis zu 22 Millionen erreichen, was nur 1 % der Mainstream-Lösung Stable Video Diffusion ausmacht. Gleichzeitig ist der Adapter auch mit maßgeschneiderten T2I-Modellen (wie DreamBooth, Lora) und Steuerungstools (wie ControlNet) kompatibel, die von der Stable Diffusion-Community entwickelt wurden. Durch Experimente haben die Forscher die Wirksamkeit des I2V-Adapters bei der Generierung hochwertiger Videoinhalte nachgewiesen und damit neue Möglichkeiten für kreative Anwendungen im I2V-Bereich eröffnet.

I2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in

Einführung in die Methode

Zeitliche Modellierung mit stabiler Diffusion

Im Vergleich zur Bildgenerierung steht die Videogenerierung vor einer einzigartigen Herausforderung, nämlich der Modellierung der zeitlichen Kohärenz zwischen Videobildern und Geschlecht. Die meisten aktuellen Methoden basieren auf vorab trainierten T2I-Modellen wie Stable Diffusion und SDXL, indem sie Timing-Module zur Modellierung der Timing-Informationen in Videos einführen. Inspiriert von AnimateDiff, einem Modell, das ursprünglich für benutzerdefinierte T2V-Aufgaben entwickelt wurde, modelliert es Timing-Informationen durch die Einführung eines vom T2I-Modell entkoppelten Timing-Moduls und behält die Fähigkeit des ursprünglichen T2I-Modells bei, reibungslose Videos zu generieren. Daher glauben die Forscher, dass das vorab trainierte Zeitmodul als universelle Zeitdarstellung angesehen werden kann und ohne Feinabstimmung auf andere Videogenerierungsszenarien wie die I2V-Generierung angewendet werden kann. Daher verwendeten die Forscher direkt das vorab trainierte AnimateDiff-Timing-Modul und behielten seine Parameter bei.

Adapter für Aufmerksamkeitsebenen

Eine weitere Herausforderung bei der I2V-Aufgabe besteht darin, die ID-Informationen des Eingabebildes beizubehalten. Derzeit gibt es zwei Hauptlösungen: Die eine besteht darin, das Eingabebild mit einem vorab trainierten Bildcodierer zu codieren und die codierten Merkmale über einen Kreuzaufmerksamkeitsmechanismus in das Modell einzufügen, um den Entrauschungsprozess zu steuern mit dem verrauschten Eingang in der Kanaldimension verkettet und dann gemeinsam in das nachfolgende Netzwerk eingespeist. Die erstere Methode kann jedoch dazu führen, dass sich die generierte Video-ID ändert, da es für den Bildencoder schwierig ist, die zugrunde liegenden Informationen zu erfassen, während die letztere Methode häufig eine Änderung der Struktur und der Parameter des T2I-Modells erfordert, was zu hohen Schulungskosten und schlechten Ergebnissen führt Kompatibilität.

Um die oben genannten Probleme zu lösen, schlugen Forscher einen I2V-Adapter vor. Insbesondere gibt der Forscher das Eingabebild und die verrauschte Eingabe parallel in das Netzwerk ein. Im räumlichen Block des Modells fragen alle Frames zusätzlich die ersten Frame-Informationen ab, dh die Schlüssel- und Wertmerkmale stammen aus dem ersten Frame ohne Rauschen , und die Ausgabe Das Ergebnis wird zur Selbstaufmerksamkeit des Originalmodells hinzugefügt. Die Ausgabezuordnungsmatrix in diesem Modul wird mit Nullen initialisiert und nur die Ausgabezuordnungsmatrix und die Abfragezuordnungsmatrix werden trainiert. Um das Verständnis des Modells für die semantischen Informationen des Eingabebilds weiter zu verbessern, führten die Forscher einen vorab trainierten Inhaltsadapter ein (in diesem Artikel wird der IP-Adapter [8] verwendet), um die semantischen Merkmale des Bilds einzufügen.

I2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in

Priorität der Frame-Ähnlichkeit

Um die Stabilität der generierten Ergebnisse weiter zu verbessern, schlugen die Forscher vorab eine Inter-Frame-Ähnlichkeit vor, um ein Gleichgewicht zwischen der Stabilität und der Bewegungsintensität des generierten Videos herzustellen. Die Hauptannahme ist, dass bei einem relativ niedrigen Gaußschen Rauschpegel der verrauschte erste Rahmen und die verrauschten nachfolgenden Rahmen nahe genug beieinander liegen, wie in der folgenden Abbildung dargestellt:

I2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in

Die Forscher gingen also davon aus, dass alle Rahmenstrukturen ähnlich sind , und werden nach dem Hinzufügen einer bestimmten Menge an Gauß'schem Rauschen nicht mehr zu unterscheiden, sodass das verrauschte Eingabebild als A-priori-Eingabe für nachfolgende Frames verwendet werden kann. Um die Irreführung hochfrequenter Informationen zu beseitigen, verwendeten die Forscher auch den Gaußschen Unschärfeoperator und die zufällige Maskenmischung. Konkret wird die Operation durch die folgende Formel angegeben:

I2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in

Experimentelle Ergebnisse

Quantitative Ergebnisse

In diesem Artikel werden vier quantitative Indikatoren berechnet, nämlich DoverVQA (ästhetische Bewertung) und CLIPTemp (erster Frame). Konsistenz), FlowScore (Bewegungsamplitude) und WarppingError (Bewegungsfehler) werden verwendet, um die Qualität des generierten Videos zu bewerten. Tabelle 1 zeigt, dass der I2V-Adapter die höchste ästhetische Bewertung erhielt und auch alle Vergleichsschemata hinsichtlich der Konsistenz des ersten Frames übertraf. Darüber hinaus weist das vom I2V-Adapter erzeugte Video die größte Bewegungsamplitude und einen relativ geringen Bewegungsfehler auf, was darauf hinweist, dass dieses Modell in der Lage ist, dynamischere Videos zu erzeugen und gleichzeitig die Genauigkeit der zeitlichen Bewegung beizubehalten.

I2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in

Qualitative Ergebnisse

Bildanimation (links ist Eingabe, rechts ist Ausgabe):

I2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in

I2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in

I2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in

I2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in.

mit personalisierten T2Is (auf der linker Eingang, rechts ist Ausgang):

I2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in

I2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in

I2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in

I2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in

w/ ControlNet (links ist Eingang, rechts ist Ausgang):

I2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in

I2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in

I2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in

Zusammenfassung

In diesem Artikel wird der I2V-Adapter vorgeschlagen, ein leichtes Plug-and-Play-Modul für Bild-zu-Video-Generierungsaufgaben. Diese Methode hält die räumlichen Block- und Bewegungsblockstrukturen und -parameter des ursprünglichen T2V-Modells fest, gibt den ersten Frame ohne Rauschen und die nachfolgenden Frames mit Rauschen parallel ein und ermöglicht allen Frames die Interaktion mit dem ersten Frame ohne Rauschen über den Aufmerksamkeitsmechanismus , also ein Video erzeugen, das zeitlich kohärent ist und mit dem ersten Bild übereinstimmt. Forscher haben die Wirksamkeit dieser Methode bei I2V-Aufgaben durch quantitative und qualitative Experimente nachgewiesen. Darüber hinaus ermöglicht das entkoppelte Design die direkte Kombination der Lösung mit Modulen wie DreamBooth, Lora und ControlNet, was die Kompatibilität der Lösung beweist und die Forschung zur maßgeschneiderten und steuerbaren Bild-zu-Video-Generierung fördert.

Das obige ist der detaillierte Inhalt vonI2V-Adapter aus der SD-Community: keine Konfiguration erforderlich, Plug-and-Play, perfekt kompatibel mit dem Tusheng-Video-Plug-in. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Kochen innovation: Wie künstliche Intelligenz den Lebensmittelservice verändertKochen innovation: Wie künstliche Intelligenz den Lebensmittelservice verändertApr 12, 2025 pm 12:09 PM

KI verstärken die Zubereitung der Lebensmittel KI -Systeme werden während der Nahten immer noch in der Zubereitung von Nahrungsmitteln eingesetzt. KI-gesteuerte Roboter werden in Küchen verwendet, um Aufgaben zur Zubereitung von Lebensmitteln zu automatisieren, z.

Umfassende Anleitung zu Python -Namespaces und variablen ScopesUmfassende Anleitung zu Python -Namespaces und variablen ScopesApr 12, 2025 pm 12:00 PM

Einführung Das Verständnis der Namespaces, Scopes und des Verhaltens von Variablen in Python -Funktionen ist entscheidend, um effizient zu schreiben und Laufzeitfehler oder Ausnahmen zu vermeiden. In diesem Artikel werden wir uns mit verschiedenen ASP befassen

Ein umfassender Leitfaden zu Vision Language Models (VLMs)Ein umfassender Leitfaden zu Vision Language Models (VLMs)Apr 12, 2025 am 11:58 AM

Einführung Stellen Sie sich vor, Sie gehen durch eine Kunstgalerie, umgeben von lebhaften Gemälden und Skulpturen. Was wäre, wenn Sie jedem Stück eine Frage stellen und eine sinnvolle Antwort erhalten könnten? Sie könnten fragen: „Welche Geschichte erzählst du?

MediaTek steigert die Premium -Aufstellung mit Kompanio Ultra und Abmessung 9400MediaTek steigert die Premium -Aufstellung mit Kompanio Ultra und Abmessung 9400Apr 12, 2025 am 11:52 AM

In diesem Monat hat MediaTek in diesem Monat eine Reihe von Ankündigungen gemacht, darunter das neue Kompanio Ultra und die Abmessung 9400. Diese Produkte füllen die traditionelleren Teile von MediaTeks Geschäft aus, die Chips für Smartphone enthalten

Diese Woche in AI: Walmart setzt Modetrends vor, bevor sie jemals passierenDiese Woche in AI: Walmart setzt Modetrends vor, bevor sie jemals passierenApr 12, 2025 am 11:51 AM

#1 Google gestartet Agent2Agent Die Geschichte: Es ist Montagmorgen. Als mit KI betriebener Personalvermittler arbeiten Sie intelligenter, nicht härter. Sie melden sich im Dashboard Ihres Unternehmens auf Ihrem Telefon an. Es sagt Ihnen, dass drei kritische Rollen bezogen, überprüft und geplant wurden

Generative KI trifft PsychobabbleGenerative KI trifft PsychobabbleApr 12, 2025 am 11:50 AM

Ich würde vermuten, dass du es sein musst. Wir alle scheinen zu wissen, dass Psychobabble aus verschiedenen Geschwätzern besteht, die verschiedene psychologische Terminologie mischen und oft entweder unverständlich oder völlig unsinnig sind. Alles was Sie tun müssen, um fo zu spucken

Der Prototyp: Wissenschaftler verwandeln Papier in PlastikDer Prototyp: Wissenschaftler verwandeln Papier in PlastikApr 12, 2025 am 11:49 AM

Laut einer neuen Studie, die diese Woche veröffentlicht wurde, wurden im Jahr 2022 nur 9,5% der im Jahr 2022 hergestellten Kunststoffe aus recycelten Materialien hergestellt. In der Zwischenzeit häufen sich Plastik weiter in Deponien - und Ökosystemen - um die Welt. Aber Hilfe ist unterwegs. Ein Team von Engin

Der Aufstieg des KI -Analysten: Warum dies der wichtigste Job in der KI -Revolution sein könnteDer Aufstieg des KI -Analysten: Warum dies der wichtigste Job in der KI -Revolution sein könnteApr 12, 2025 am 11:41 AM

Mein jüngstes Gespräch mit Andy Macmillan, CEO der führenden Unternehmensanalyse -Plattform Alteryx, zeigte diese kritische, aber unterschätzte Rolle in der KI -Revolution. Wie Macmillan erklärt, die Lücke zwischen Rohgeschäftsdaten und KI-fertigen Informat

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SecLists

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

PHPStorm Mac-Version

PHPStorm Mac-Version

Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Leistungsstarke integrierte PHP-Entwicklungsumgebung

SublimeText3 Linux neue Version

SublimeText3 Linux neue Version

SublimeText3 Linux neueste Version