Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration

UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration

WBOY
WBOYnach vorne
2023-11-14 08:30:091219Durchsuche

Das in der halben Welt populär gewordene Diffusionsmodell wird abgeschafft?

Derzeit generieren generative KI-Modelle wie GANs, Diffusionsmodelle oder Konsistenzmodelle Bilder, indem sie Eingaben den Ausgaben entsprechend der Zieldatenverteilung zuordnen. Der Inhalt, der neu geschrieben werden muss, ist:

Normalerweise ist dies der Fall Das Modell muss viele reale Bilder lernen und dann versuchen, die tatsächlichen Merkmale der generierten Bilder sicherzustellen. Der Inhalt, der neu geschrieben werden muss, ist:

Kürzlich haben Forscher von UC Berkeley und Google eine neue Generation vorgeschlagen Modell – Der Inhalt, der für das Idempotent Generating Network (IGN) neu geschrieben werden muss, ist:

UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der InspirationBilder

Papieradresse: https://arxiv.org/abs/2311.01462

IGNs können aus einer Vielzahl von Eingaben ausgewählt werden, wie z. B. zufälligem Rauschen, einfachen Grafiken usw., um realistische Bilder in einem einzigen Schritt zu erzeugen, ohne dass mehrstufige Iterationen erforderlich sind. Der Inhalt, der neu geschrieben werden muss, ist:

Dieses Modell Ziel ist es, ein „Global Mapper“ (Global Mapper)-Projektor zu werden, der alle Eingabedaten der Zieldatenverteilung zuordnen kann. Der Inhalt, der neu geschrieben werden muss, ist:

Kurz gesagt, das allgemeine Bilderzeugungsmodell muss sein So in der Zukunft. Der Inhalt, der neu geschrieben werden muss, ist:

Interessant Ja, eine effiziente Szene in „Seinfeld“ erwies sich als Inspirationsquelle für den Autor. Der Inhalt, der neu geschrieben werden muss, ist:

UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der InspirationBild

Diese Szene fasst den „idempotenten Operator“ gut zusammen. Dieses Konzept bedeutet, dass während des Operationsprozesses immer wieder dieselbe Eingabe vorgenommen wird und das Ergebnis immer derselbe ist Umgeschrieben werden muss:

Das heißt,

UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der InspirationBild

muss umgeschrieben werden. Der umgeschriebene Inhalt lautet:

Wie Jerry Seinfeld humorvoll betonte, können einige Verhaltensweisen im wirklichen Leben auch als idempotent angesehen werden Der umgeschriebene Inhalt lautet:

Impotente generative Netzwerke

IGN mit Es gibt zwei wichtige Unterschiede zwischen GAN- und Diffusionsmodellen:

- Im Gegensatz zu GAN sind bei IGN keine separaten Generatoren und Diskriminatoren erforderlich. Es handelt sich um eine „Selbstkonfrontation“. „Modell, das gleichzeitig die Generierungs- und Unterscheidungsanforderungen erfüllt. Der neu geschriebene Inhalt ist:

- Im Gegensatz zum Diffusionsmodell, das inkrementelle Schritte ausführt, versucht IGN, die Eingabe in einem einzigen Schritt der Datenverteilung zuzuordnen. Der neu geschriebene Inhalt ist:

IGN (idempotentes generatives Modell) Was ist die Quelle?

Es wird so trainiert, dass es aus der Quellverteilung stammt UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der InspirationAngesichts der Zielverteilung UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration der Eingabeproben muss zum Generieren der Proben Folgendes neu geschrieben werden:

Angesichts des Beispieldatensatzes UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration , jedes Beispiel Beide stammen aus UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der InspirationDer Inhalt, der neu geschrieben werden muss, ist: Dann trainierten die Forscher das Modell UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration, um UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration auf UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration abzubilden. Der Inhalt, der neu geschrieben werden muss, ist:

Gehen Sie davon aus, dass sich die Verteilungen UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration und UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration im selben Raum befinden, d. h. ihre Instanzen haben die gleichen Dimensionen: Dies ermöglicht die Anwendung von UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration auf beide Arten von Instanzen UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration und UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration Der Inhalt, der neu geschrieben werden muss, ist:

Das Bild zeigt die Grundidee hinter IGN: Das reale Beispiel (x) ist invariant zum Modell f UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der InspirationDer Inhalt, der neu geschrieben werden muss, ist: Andere Eingaben (z) werden zugeordnet. Der Inhalt, der neu geschrieben werden muss, um f durch Optimierung seinem eigenen Instanzstrom zuzuordnen UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration, ist:

UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der InspirationBilder

Teil des Beispiels der IGN-Trainingsroutine PyTorch-Code Der Der Inhalt, der neu geschrieben werden muss, ist:

UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der InspirationBilder

Experimentelle Ergebnisse

Was ist die Wirkung nach Erhalt von IGN?

Der Autor gibt zu, dass die generierten Ergebnisse von IGN zum jetzigen Zeitpunkt nicht mit den hochmodernen Modellen mithalten können. Was neu geschrieben werden muss, ist:

In den Experimenten sind kleinere Modelle und eine geringere Auflösung erforderlich Daten wurden verwendet Set, und bei der Erkundung konzentrieren wir uns hauptsächlich auf die vereinfachten Methoden, die neu geschrieben werden müssen:

Natürlich dauerte es auch lange, bis grundlegende generative Modellierungstechnologien wie GAN- und Diffusionsmodelle ausgereift waren und Skalierung. Was für die Leistung neu geschrieben werden muss, ist:

Experimenteller Aufbau

Die Forscher bewerteten IGN auf MNIST (Graustufen-Datensatz für handschriftliche Ziffern) und CelebA (Gesichtsbild-Datensatz) unter Verwendung von 28×28 bzw. 64. Der Inhalt, der für die ×64-Bildauflösung neu geschrieben werden muss, ist:

Der Autor verwendet eine einfache Autoencoder-Architektur, wobei der Encoder ein einfaches fünfschichtiges Diskriminator-Backbone von DCGAN ist und der Decoder der Generator ist, der dies tun muss Der Inhalt ist: Die Trainings- und Netzwerk-Hyperparameter sind in Tabelle 1 dargestellt. Der Inhalt, der neu geschrieben werden muss, ist:

UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der InspirationBilder

Generierungsergebnisse

Abbildung 4 zeigt danach Anwenden des Modells einmal und zweimal hintereinander. Die qualitativen Ergebnisse für beide Datensätze müssen wie folgt umgeschrieben werden:

Wie gezeigt, führt die einmalige Anwendung von IGN (f (z)) zu kohärenten Generierungsergebnissen: Es können Artefakte auftreten. Schatten wie Löcher in MNIST-Ziffern oder verzerrte Pixel auf der Oberseite des Kopfes und Haare in Gesichtsbildern müssen neu geschrieben werden:

Durch erneutes Anwenden von f (f (f (z))) kann dies korrigiert werden Diese Probleme, das Füllen der Löcher oder die Reduzierung der Gesamtvariation um Gesichtsgeräuschflecken herum, müssen umgeschrieben werden:

UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration Bild

Abbildung 7 zeigt zusätzliche Ergebnisse sowie die Ergebnisse der dreimaligen Anwendung von f . Was neu geschrieben werden muss ist:

UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der InspirationBilder

Der Vergleich von UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration und UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration zeigt, dass die erneute Anwendung von f zu minimalen Änderungen führt, da das Bild als verteilt betrachtet wird:

Manipulation des latenten Raums

Der Autor beweist, dass IGN einen konsistenten latenten Raum hat, indem er ähnliche Operationen wie für GAN durchführt. Abbildung 6 zeigt, dass für den Latentraum-Algorithmus Folgendes neu geschrieben werden muss:

UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration Bild

Out-of-Distribution-Mapping

Der Autor verifizierte auch das Potenzial der IGN-„Global-Mapping“, indem er Bilder aus verschiedenen Distributionen in das Modell eingab, um entsprechende „natürliche Bilder“ zu generieren. Der umgeschriebene Inhalt lautet:

Die Forscher demonstrierten dies, indem sie das verrauschte Bild x+n entrauschten, das Graustufenbild färbten UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration und die Skizze UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration in das reale Bild in Abbildung 5 umwandelten. Eine Sache, die sein muss neu geschrieben ist:

Originalbild x, diese umgekehrten Aufgaben sind falsch gestellt. Was neu geschrieben werden muss ist: IGN kann eine natürliche Zuordnung erstellen, die der ursprünglichen Bildstruktur entspricht Wie im Bild gezeigt, verbessert die Anwendung von f kontinuierlich die Bildqualität (z. B. werden dunkle und rauchige Artefakte in projizierten Skizzen entfernt). Was neu geschrieben werden muss, ist:

Bild

UC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der InspirationGoogle als nächstes?

Wie aus den obigen Ergebnissen ersichtlich ist, ist IGN bei der Schlussfolgerung effektiver und kann nach dem Training in nur einem Schritt Ergebnisse generieren:

Sie können auch konsistentere Ergebnisse ausgeben Kann auf weitere Anwendungen wie die Reparatur medizinischer Bilder ausgeweitet werden. Der Inhalt, der neu geschrieben werden muss, ist: lernt, jede Eingabe einer Zielverteilung zuzuordnen. Dies ist ein neues Paradigma der generativen Modellierung. Was neu geschrieben werden muss, ist:

Als nächstes plant das Forschungsteam, mehr Daten zu verwenden, um den Umfang von IGN zu erweitern Um neue generative Formeln abzubauen. Der Inhalt, der neu geschrieben werden muss, um das volle Potenzial des KI-Modells auszuschöpfen, ist:

Der neueste Forschungscode, der in Zukunft auf GitHub veröffentlicht wird, der Inhalt, der neu geschrieben werden muss umgeschrieben werden soll:

Referenzen:

https://www.php.cn/link/2bd388f731f26312bfc0fe30da009595

https://www.php.cn/link/e 1e4e65fddf79af60aab04457a6565a6

Das obige ist der detaillierte Inhalt vonUC Berkeley Google erfindet LLM, implementiert das Terminaldiffusionsmodell und nutzt es für IGN, um in einem einzigen Schritt realistische Bilder zu erzeugen, und amerikanische Fernsehserien werden zu einer Quelle der Inspiration. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen