Maison >Périphériques technologiques >IA >Le modèle nouvelle génération d'OpenAI est une explosion open source ! Plus rapide et plus fort que Diffusion, une œuvre de Song Yang, ancien élève de Tsinghua

Le modèle nouvelle génération d'OpenAI est une explosion open source ! Plus rapide et plus fort que Diffusion, une œuvre de Song Yang, ancien élève de Tsinghua

PHPzavant: 2023-05-14 21:52:041509parcourir

Le domaine de la génération d'images semble à nouveau évoluer.

Tout à l'heure, OpenAI a open source un modèle de cohérence plus rapide et meilleur que le modèle de diffusion :

Vous pouvez générer des images de haute qualité sans entraînement contradictoire !

Dès que cette nouvelle à succès a été publiée, elle a immédiatement fait exploser le cercle académique.

Le modèle nouvelle génération dOpenAI est une explosion open source ! Plus rapide et plus fort que Diffusion, une œuvre de Song Yang, ancien élève de Tsinghua

Bien que l'article lui-même ait été publié de manière discrète en mars, à cette époque, on pensait généralement qu'il s'agissait simplement d'une recherche de pointe sur OpenAI et que les détails ne seraient pas vraiment rendus publics.

Le modèle nouvelle génération dOpenAI est une explosion open source ! Plus rapide et plus fort que Diffusion, une œuvre de Song Yang, ancien élève de Tsinghua

Je ne m'attendais pas à ce qu'un open source vienne directement cette fois. Certains internautes ont immédiatement commencé à tester l'effet et ont constaté qu'il ne fallait que 3,5 secondes environ pour générer environ 64 images 256×256 :

Game over !

Le modèle nouvelle génération dOpenAI est une explosion open source ! Plus rapide et plus fort que Diffusion, une œuvre de Song Yang, ancien élève de Tsinghua

C'est l'effet d'image généré par cet internaute, qui a l'air plutôt bien :

Le modèle nouvelle génération dOpenAI est une explosion open source ! Plus rapide et plus fort que Diffusion, une œuvre de Song Yang, ancien élève de Tsinghua

Certains internautes ont plaisanté : Cette fois, OpenAI est enfin ouvert !

Le modèle nouvelle génération dOpenAI est une explosion open source ! Plus rapide et plus fort que Diffusion, une œuvre de Song Yang, ancien élève de Tsinghua

Il convient de mentionner que le premier auteur de l'article, le scientifique d'OpenAI Song Yang, est un ancien élève de Tsinghua. À l'âge de 16 ans, il est entré dans la classe de sciences mathématiques et physiques fondamentales de Tsinghua dans le cadre du programme de leadership.

Jetons un coup d'œil au type de recherche qu'OpenAI a réalisée en open source cette fois-ci.

Quels types de recherches à succès ont été open source ?

En tant qu'IA de génération d'images, la plus grande caractéristique du modèle de cohérence est qu'il est rapide et efficace.

Par rapport au modèle de diffusion, il présente deux avantages principaux :

Premièrement, il peut générer directement des échantillons d'images de haute qualité sans formation contradictoire.

Deuxièmement, par rapport au modèle de diffusion, qui peut nécessiter des centaines, voire des milliers d'itérations, le modèle de cohérence n'a besoin que d'une ou deux étapes pour gérer une variété de tâches d'image -

y compris la coloration, le débruitage, le super-scoring, etc. Cela peut se faire en quelques étapes sans nécessiter de formation explicite à ces tâches. (Bien sûr, si un apprentissage en quelques coups est effectué, l'effet de génération sera meilleur)

Le modèle nouvelle génération dOpenAI est une explosion open source ! Plus rapide et plus fort que Diffusion, une œuvre de Song Yang, ancien élève de Tsinghua

Alors, comment le modèle de cohérence obtient-il cet effet ?

D'un point de vue principe, la naissance du modèle de cohérence est liée au modèle de diffusion de génération ODE (équation différentielle ordinaire).

Comme on peut le voir sur la figure, ODE convertira d'abord les données d'image en bruit étape par étape, puis effectuera une solution inverse pour apprendre à générer des images à partir du bruit.

Dans ce processus, les auteurs ont essayé de mapper n'importe quel point de la trajectoire ODE (comme Xt, Xt et Xr) à son origine (comme X0) pour une modélisation générative.

Par la suite, ce modèle cartographié a été nommé modèle de cohérence, car leurs sorties sont toutes au même point sur la même trajectoire :

Le modèle nouvelle génération dOpenAI est une explosion open source ! Plus rapide et plus fort que Diffusion, une œuvre de Song Yang, ancien élève de Tsinghua

Basé sur cette idée, le modèle de cohérence n'a pas besoin de passer par de longues itérations pour atteindre Générez une image de relativement haute qualité, mais elle peut être générée en une seule étape.

La figure suivante est une comparaison du modèle de cohérence (CD) et du modèle de diffusion (PD) sur l'indice de génération d'image FID.

Parmi eux, PD est l'abréviation de distillation progressive (distillation progressive), une dernière méthode de modèle de diffusion proposée par Stanford et Google Brain l'année dernière, et CD (distillation de consistance) est la méthode de distillation de consistance.

On peut voir que l'effet de génération d'image du modèle de cohérence est meilleur que celui du modèle de diffusion sur presque tous les ensembles de données, la seule exception est l'ensemble de données de pièce 256×256 :

Le modèle nouvelle génération dOpenAI est une explosion open source ! Plus rapide et plus fort que Diffusion, une œuvre de Song Yang, ancien élève de Tsinghua

A part ça, les auteurs ont également comparé des modèles tels que le modèle de diffusion, le modèle de cohérence et le GAN sur divers autres ensembles de données :

Le modèle nouvelle génération dOpenAI est une explosion open source ! Plus rapide et plus fort que Diffusion, une œuvre de Song Yang, ancien élève de Tsinghua

Cependant, certains internautes ont mentionné que les images générées par le modèle de cohérence de l'IA open source cette fois sont encore trop petites :

C'est triste que les images générées par la version open source cette fois soient encore trop petites. peut donner Générer une version open source d'images plus grandes serait certainement passionnant.

Le modèle nouvelle génération dOpenAI est une explosion open source ! Plus rapide et plus fort que Diffusion, une œuvre de Song Yang, ancien élève de Tsinghua

Certains internautes ont également émis l'hypothèse qu'OpenAI n'avait peut-être pas encore été formé. Mais peut-être qu'après l'entraînement, nous ne pourrons peut-être pas obtenir le code (tête de chien manuelle).

Mais concernant l'importance de ce travail, TechCrunch a déclaré :

Si vous disposez de plusieurs GPU, utilisez le modèle de diffusion pour itérer plus de 1 500 fois en une minute ou deux, et l'effet de la génération d'images sera bien sûr excellent.

Mais si vous souhaitez générer des images en temps réel sur votre téléphone ou lors d'une conversation chat, alors évidemment le modèle de diffusion n'est pas le meilleur choix.

Le modèle de cohérence est la prochaine étape importante d'OpenAI.

Dans l'attente d'OpenAI open source, une vague d'IA de génération d'images avec une résolution plus élevée ~

Song Yang, ancien élève de Tsinghua, est le premier auteur

Song Yang est le premier auteur de l'article et est actuellement chercheur scientifique à OpenAI.

Le modèle nouvelle génération dOpenAI est une explosion open source ! Plus rapide et plus fort que Diffusion, une œuvre de Song Yang, ancien élève de Tsinghua

Quand il avait 14 ans, il a été sélectionné dans le « Programme de leadership du nouveau centenaire de l'Université Tsinghua » avec les votes unanimes de 17 juges. Lors de l'examen d'entrée à l'université l'année suivante, il est devenu le meilleur score en sciences de la ville de Lianyungang et a été admis avec succès à l'Université Tsinghua.

En 2016, Song Yang est diplômé du cours de base de mathématiques et de physique de l'Université Tsinghua, puis est allé à Stanford pour poursuivre ses études. En 2022, Song Yang a obtenu un doctorat en informatique à Stanford puis a rejoint OpenAI.

Au cours de son doctorat, son premier article « Modélisation générative basée sur les scores à travers des équations différentielles stochastiques » a également remporté le prix ICLR 2021 Outstanding Paper Award.

Le modèle nouvelle génération dOpenAI est une explosion open source ! Plus rapide et plus fort que Diffusion, une œuvre de Song Yang, ancien élève de Tsinghua

Selon les informations figurant sur sa page d'accueil personnelle, Song Yang rejoindra officiellement le Département d'électronique et de sciences mathématiques computationnelles du California Institute of Technology en tant que professeur assistant à partir de janvier 2024.

Adresse du projet :
https://www.php.cn/link/4845b84d63ea5fa8df6268b8d1616a8f

Adresse papier :
https://www.php.cn/link/5f25fbe144e4a81a1 b0080b6c1032778

Lien de référence :
[1]https://twitter.com/alfredplpl/status/1646217811898011648
[2]https://twitter.com/_akhaliq/status/1646168119658831874

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Google affirme que la recherche entre dans une nouvelle ère de fonctionnalités d'IA conversationnelleArticle suivant：Google affirme que la recherche entre dans une nouvelle ère de fonctionnalités d'IA conversationnelle

Articles Liés

Voir plus