Heim >Technologie-Peripheriegeräte >KI >Das Modell der neuen Generation von OpenAI ist eine Open-Source-Explosion! Schneller und stärker als Diffusion, ein Werk des Tsinghua-Alumnus Song Yang
Der Bereich der Bilderzeugung scheint sich erneut zu verändern.
Gerade hat OpenAI ein Konsistenzmodell als Open-Source-Lösung bereitgestellt, das schneller und besser als das Diffusionsmodell ist:
Sie können qualitativ hochwertige Bilder ohne gegnerisches Training generieren!
Sobald diese Blockbuster-Nachricht veröffentlicht wurde, erregte sie sofort in der akademischen Welt Aufsehen.
Obwohl das Papier selbst im März unauffällig veröffentlicht wurde, glaubten damals alle allgemein, dass es sich nur um eine Spitzenforschung zu OpenAI handelte würde in Zukunft nicht wirklich verwendet werden.
Ich habe dieses Mal nicht direkt mit einer Open Source gerechnet. Einige Internetnutzer begannen sofort, den Effekt zu testen und stellten fest, dass es nur etwa 3,5 Sekunden dauert, um etwa 64 256×256 Bilder zu erzeugen:
Game over!
Das ist der Bildeffekt, der von diesem Internetnutzer erzeugt wurde, er sieht ziemlich gut aus:
#🎜🎜 #
#🎜 🎜#Basierend auf dieser Idee muss das Konsistenzmodell nicht mehr lange Iterationen durchlaufen, um ein relativ hochwertiges Bild zu generieren, sondern kann in einem Schritt generiert werden.
Die folgende Abbildung ist ein Vergleich des Konsistenzmodells (CD) und des Diffusionsmodells (PD) auf dem Bilderzeugungsindex FID.
Unter diesen ist PD die Abkürzung für progressive Destillation (progressive Destillation), eine neueste Diffusionsmodellmethode, die letztes Jahr von Stanford und Google Brain vorgeschlagen wurde, und CD (Konsistenzdestillation) ist die Konsistenzdestillationsmethode.
Es ist ersichtlich, dass der Bilderzeugungseffekt des Konsistenzmodells bei fast allen Datensätzen besser ist als der des Diffusionsmodells. Die einzige Ausnahme ist der 256 × 256-Raumdatensatz: #🎜🎜 #
Darüber hinaus verglichen die Autoren auch Modelle wie Diffusionsmodell, Konsistenzmodell und GAN an verschiedenen anderen Datensätzen: #🎜🎜 #
Einige Internetnutzer erwähnten jedoch, dass die vom Open-Source-KI-Konsistenzmodell generierten Bilder dieses Mal immer noch zu klein sind:
Es ist traurig, dass die von der Open-Source-Version generierten Bilder dieses Mal immer noch zu klein sind Das Generieren einer Open-Source-Version größerer Bilder wäre auf jeden Fall spannend.
Einige Internetnutzer spekulierten auch, dass OpenAI möglicherweise noch nicht trainiert wurde. Aber möglicherweise können wir den Code nach dem Training nicht erhalten (manueller Hundekopf).
Aber bezüglich der Bedeutung dieser Arbeit sagte TechCrunch:
Wenn Sie über eine Reihe von GPUs verfügen, verwenden Sie das Diffusionsmodell, um mehr als 1.500 Mal in ein oder zwei Minuten zu iterieren, und der Effekt der Generierung von Bildern wird natürlich sein exzellent.
Aber wenn Sie Bilder in Echtzeit auf Ihrem Telefon oder während eines Chat-Gesprächs generieren möchten, ist das Diffusionsmodell offensichtlich nicht die beste Wahl.
Konsistenzmodell ist der nächste wichtige Schritt von OpenAI.
Ich freue mich auf OpenAI Open Source, eine Welle von Bilderzeugungs-KI mit höherer Auflösung ~
Song Yang ist der erste Autor des Papiers und derzeit wissenschaftlicher Mitarbeiter bei OpenAI.
Als er 14 Jahre alt war, wurde er mit einstimmigem Votum von 17 Richtern in das „Tsinghua University New Centenary Leadership Program“ aufgenommen. Bei der Aufnahmeprüfung für das College im folgenden Jahr wurde er der beste Schüler in Naturwissenschaften in der Stadt Lianyungang und wurde erfolgreich an der Tsinghua-Universität aufgenommen.
Im Jahr 2016 schloss Song Yang den Grundkurs für Mathematik und Physik an der Tsinghua-Universität ab und ging dann zum weiteren Studium nach Stanford. Im Jahr 2022 erhielt Song Yang seinen Doktortitel in Informatik von Stanford und wechselte dann zu OpenAI.
Während seiner Doktorarbeit gewann seine erste Arbeit „Score-Based Generative Modeling through Stochastic Differential Equations“ auch den ICLR 2021 Outstanding Paper Award.
Laut Informationen auf seiner persönlichen Homepage wird Song Yang ab Januar 2024 offiziell als Assistenzprofessor in die Abteilung für Elektronik und Computermathematische Wissenschaften des California Institute of Technology eintreten.
Projektadresse:
https://www.php.cn/link/4845b84d63ea5fa8df6268b8d1616a8f
Papieradresse:
https://www.php.cn/link/5f25fbe144e4a81a1 b00 80b6c1032778
Referenzlink:
[1]https://twitter.com/alfredplpl/status/1646217811898011648
[2]https://twitter.com/_akhaliq/status/1646168119658831874
Das obige ist der detaillierte Inhalt vonDas Modell der neuen Generation von OpenAI ist eine Open-Source-Explosion! Schneller und stärker als Diffusion, ein Werk des Tsinghua-Alumnus Song Yang. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!