Heim > Artikel > Technologie-Peripheriegeräte > Das Modell der neuen Generation von OpenAI ist eine Open-Source-Explosion! Schneller und stärker als Diffusion, ein Werk des Tsinghua-Alumnus Song Yang
Der Bereich der Bilderzeugung scheint sich erneut zu verändern.
Gerade hat OpenAI ein Konsistenzmodell als Open-Source-Lösung bereitgestellt, das schneller und besser als das Diffusionsmodell ist:
Sie können qualitativ hochwertige Bilder ohne gegnerisches Training generieren!
Sobald diese Blockbuster-Nachricht veröffentlicht wurde, erregte sie sofort in der akademischen Welt Aufsehen.
Obwohl das Papier selbst im März unauffällig veröffentlicht wurde, glaubten damals alle allgemein, dass es sich nur um eine Spitzenforschung zu OpenAI handelte würde in Zukunft nicht wirklich verwendet werden.
Ich habe dieses Mal nicht direkt mit einer Open Source gerechnet. Einige Internetnutzer begannen sofort, den Effekt zu testen und stellten fest, dass es nur etwa 3,5 Sekunden dauert, um etwa 64 256×256 Bilder zu erzeugen:
Game over!
Das ist der Bildeffekt, der von diesem Internetnutzer erzeugt wurde, er sieht ziemlich gut aus:
#🎜🎜 #
Einige Internetnutzer scherzten: Dieses Mal ist OpenAI endlich geöffnet! Es ist erwähnenswert, dass der erste Autor des Artikels, der OpenAI-Wissenschaftler Song Hao, ein Tsinghua-Alumnus ist durch das Leadership-Programm im Alter von 16 Jahren. Lernen Sie im Unterricht. Werfen wir einen Blick darauf, welche Art von Forschung OpenAI dieses Mal als Open Source bereitgestellt hat. Welche Art von Blockbuster-Forschung wurde als Open Source bereitgestellt? Als Bildgenerierungs-KI ist das größte Merkmal des Konsistenzmodells, dass es schnell und gut ist. Im Vergleich zum Diffusionsmodell hat es zwei Hauptvorteile: Erstens kann es ohne gegnerisches Training direkt hochwertige Bildmuster generieren. Zweitens kann das Konsistenzmodell im Vergleich zum Diffusionsmodell, das möglicherweise Hunderte oder sogar Tausende von Iterationen erfordert, eine Vielzahl von Bildaufgaben in nur einem oder zwei Schritten bewältigen - Einschließlich Einfärbung, Rauschunterdrückung, Superscoring usw. kann alles in wenigen Schritten erledigt werden, ohne dass eine spezielle Schulung für diese Aufgaben erforderlich ist. (Wenn das Lernen mit wenigen Schüssen durchgeführt wird, ist der Generierungseffekt natürlich besser.) Wie erreicht das Konsistenzmodell diesen Effekt? Aus prinzipieller Sicht hängt die Geburt des Konsistenzmodells mit dem ODE-Generierungsdiffusionsmodell (Ordinary Differential Equation) zusammen. Wie in der Abbildung zu sehen ist, wandelt ODE zunächst die Bilddaten Schritt für Schritt in Rauschen um und führt dann eine umgekehrte Lösung durch, um zu lernen, Bilder aus dem Rauschen zu erzeugen. In diesem Prozess versuchten die Autoren, jeden Punkt auf der ODE-Trajektorie (wie Xt, Xt und Xr) für die generative Modellierung seinem Ursprung (wie X0) zuzuordnen. Anschließend wurde dieses abgebildete Modell als Konsistenzmodell bezeichnet, da sich ihre Ausgaben alle am selben Punkt auf derselben Flugbahn befinden:#🎜 🎜#Basierend auf dieser Idee muss das Konsistenzmodell nicht mehr lange Iterationen durchlaufen, um ein relativ hochwertiges Bild zu generieren, sondern kann in einem Schritt generiert werden.
Die folgende Abbildung ist ein Vergleich des Konsistenzmodells (CD) und des Diffusionsmodells (PD) auf dem Bilderzeugungsindex FID.
Unter diesen ist PD die Abkürzung für progressive Destillation (progressive Destillation), eine neueste Diffusionsmodellmethode, die letztes Jahr von Stanford und Google Brain vorgeschlagen wurde, und CD (Konsistenzdestillation) ist die Konsistenzdestillationsmethode.
Es ist ersichtlich, dass der Bilderzeugungseffekt des Konsistenzmodells bei fast allen Datensätzen besser ist als der des Diffusionsmodells. Die einzige Ausnahme ist der 256 × 256-Raumdatensatz: #🎜🎜 #
Darüber hinaus verglichen die Autoren auch Modelle wie Diffusionsmodell, Konsistenzmodell und GAN an verschiedenen anderen Datensätzen: #🎜🎜 #
Einige Internetnutzer erwähnten jedoch, dass die vom Open-Source-KI-Konsistenzmodell generierten Bilder dieses Mal immer noch zu klein sind:
Es ist traurig, dass die von der Open-Source-Version generierten Bilder dieses Mal immer noch zu klein sind Das Generieren einer Open-Source-Version größerer Bilder wäre auf jeden Fall spannend.
Einige Internetnutzer spekulierten auch, dass OpenAI möglicherweise noch nicht trainiert wurde. Aber möglicherweise können wir den Code nach dem Training nicht erhalten (manueller Hundekopf).
Aber bezüglich der Bedeutung dieser Arbeit sagte TechCrunch:
Wenn Sie über eine Reihe von GPUs verfügen, verwenden Sie das Diffusionsmodell, um mehr als 1.500 Mal in ein oder zwei Minuten zu iterieren, und der Effekt der Generierung von Bildern wird natürlich sein exzellent.
Aber wenn Sie Bilder in Echtzeit auf Ihrem Telefon oder während eines Chat-Gesprächs generieren möchten, ist das Diffusionsmodell offensichtlich nicht die beste Wahl.
Konsistenzmodell ist der nächste wichtige Schritt von OpenAI.
Ich freue mich auf OpenAI Open Source, eine Welle von Bilderzeugungs-KI mit höherer Auflösung ~
Song Yang ist der erste Autor des Papiers und derzeit wissenschaftlicher Mitarbeiter bei OpenAI.
Als er 14 Jahre alt war, wurde er mit einstimmigem Votum von 17 Richtern in das „Tsinghua University New Centenary Leadership Program“ aufgenommen. Bei der Aufnahmeprüfung für das College im folgenden Jahr wurde er der beste Schüler in Naturwissenschaften in der Stadt Lianyungang und wurde erfolgreich an der Tsinghua-Universität aufgenommen.
Im Jahr 2016 schloss Song Yang den Grundkurs für Mathematik und Physik an der Tsinghua-Universität ab und ging dann zum weiteren Studium nach Stanford. Im Jahr 2022 erhielt Song Yang seinen Doktortitel in Informatik von Stanford und wechselte dann zu OpenAI.
Während seiner Doktorarbeit gewann seine erste Arbeit „Score-Based Generative Modeling through Stochastic Differential Equations“ auch den ICLR 2021 Outstanding Paper Award.
Laut Informationen auf seiner persönlichen Homepage wird Song Yang ab Januar 2024 offiziell als Assistenzprofessor in die Abteilung für Elektronik und Computermathematische Wissenschaften des California Institute of Technology eintreten.
Projektadresse:
https://www.php.cn/link/4845b84d63ea5fa8df6268b8d1616a8f
Papieradresse:
https://www.php.cn/link/5f25fbe144e4a81a1 b00 80b6c1032778
Referenzlink:
[1]https://twitter.com/alfredplpl/status/1646217811898011648
[2]https://twitter.com/_akhaliq/status/1646168119658831874
Das obige ist der detaillierte Inhalt vonDas Modell der neuen Generation von OpenAI ist eine Open-Source-Explosion! Schneller und stärker als Diffusion, ein Werk des Tsinghua-Alumnus Song Yang. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!