Maison  >  Article  >  Périphériques technologiques  >  Le modèle de diffusion surmonte les problèmes algorithmiques, l’AGI n’est pas loin ! Google Brain trouve le chemin le plus court dans un labyrinthe

Le modèle de diffusion surmonte les problèmes algorithmiques, l’AGI n’est pas loin ! Google Brain trouve le chemin le plus court dans un labyrinthe

PHPz
PHPzavant
2024-04-02 17:40:261088parcourir

Le « modèle de diffusion » peut-il également surmonter les problèmes algorithmiques ?

Le modèle de diffusion surmonte les problèmes algorithmiques, l’AGI n’est pas loin ! Google Brain trouve le chemin le plus court dans un labyrinthePhotos

Un chercheur doctorant a réalisé une expérience intéressante, en utilisant la "diffusion discrète" pour trouver le chemin le plus court dans un labyrinthe représenté par une image.

Le modèle de diffusion surmonte les problèmes algorithmiques, l’AGI n’est pas loin ! Google Brain trouve le chemin le plus court dans un labyrintheImages

Selon l'auteur, chaque labyrinthe est généré en ajoutant à plusieurs reprises des murs horizontaux et verticaux.

Parmi eux, le point de départ et le point cible sont choisis au hasard.

Échantillonnez au hasard un chemin comme solution depuis le chemin le plus court du point de départ au point cible. Le chemin le plus court est calculé à l'aide d'un algorithme exact.

Le modèle de diffusion surmonte les problèmes algorithmiques, l’AGI n’est pas loin ! Google Brain trouve le chemin le plus court dans un labyrintheImages

Ensuite, utilisez le modèle de diffusion discrète et U-Net.

Le point de départ et le labyrinthe cible sont codés dans un canal, et le modèle utilise la solution dans un autre canal pour éliminer le bruit du labyrinthe.

Le modèle de diffusion surmonte les problèmes algorithmiques, l’AGI n’est pas loin ! Google Brain trouve le chemin le plus court dans un labyrinthePhotos

Même si le labyrinthe est un peu plus difficile, vous pouvez toujours bien le faire.

Le modèle de diffusion surmonte les problèmes algorithmiques, l’AGI n’est pas loin ! Google Brain trouve le chemin le plus court dans un labyrinthePhotos

Pour estimer l'étape de débruitage p(x_{t-1} | x_t), l'algorithme estime p(x_0 | x_t). La visualisation de cette estimation (rangée du bas) au cours du processus montre les « hypothèses actuelles » et se concentre finalement sur les résultats.

Le modèle de diffusion surmonte les problèmes algorithmiques, l’AGI n’est pas loin ! Google Brain trouve le chemin le plus court dans un labyrinthePhotos

Jim Fan, scientifique principal chez NVIDIA, a déclaré qu'il s'agissait d'une expérience intéressante et que le modèle de diffusion peut « restituer » l'algorithme. Il peut implémenter une traversée de labyrinthe à partir de pixels uniquement, même en utilisant U-Net, qui est beaucoup plus faible que Transforme.

J'ai toujours pensé que le modèle de diffusion est le moteur de rendu et que le Transformer est le moteur d'inférence. Il semble que le moteur de rendu lui-même puisse également coder des algorithmes séquentiels très complexes.

Le modèle de diffusion surmonte les problèmes algorithmiques, l’AGI n’est pas loin ! Google Brain trouve le chemin le plus court dans un labyrinthePhoto

Cette expérience a tout simplement choqué les internautes : "Que peut faire d'autre le modèle de diffusion ?!" En entraînant le transformateur de diffusion, AGI résoudra le problème.

Le modèle de diffusion surmonte les problèmes algorithmiques, l’AGI n’est pas loin ! Google Brain trouve le chemin le plus court dans un labyrinthePhotos

Cependant, cette étude n'a pas encore été officiellement publiée et l'auteur a déclaré qu'elle serait mise à jour sur arxiv ultérieurement.

Le modèle de diffusion surmonte les problèmes algorithmiques, l’AGI n’est pas loin ! Google Brain trouve le chemin le plus court dans un labyrintheIl est à noter que dans cette expérience, ils ont utilisé le modèle de diffusion discrète proposé par l'équipe Google Brain en 2021.

Photos

Tout récemment, cette étude a été mise à jour pour une nouvelle édition.

Le modèle de diffusion surmonte les problèmes algorithmiques, l’AGI n’est pas loin ! Google Brain trouve le chemin le plus court dans un labyrintheModèle de diffusion discrète

Le "modèle génératif" est le problème central de l'apprentissage automatique.

Il peut être utilisé à la fois pour mesurer notre capacité à capturer des statistiques sur des ensembles de données naturelles et pour des applications en aval qui doivent générer des données de grande dimension telles que des images, du texte et de la parole.

GAN, VAE, grands modèles de réseaux neuronaux autorégressifs, flux normalisé et autres méthodes ont leurs propres avantages en termes de qualité des échantillons, de vitesse d'échantillonnage, de probabilité de journalisation et de stabilité de l'entraînement.

Récemment, le « modèle de diffusion » est devenu l'alternative la plus populaire pour la génération d'images et d'audio.

Il peut atteindre une qualité d'échantillon comparable au GAN et une log-vraisemblance comparable aux modèles autorégressifs avec moins d'étapes d'inférence. Bien que certaines personnes aient proposé des modèles de diffusion d'espaces d'états discrets et continus, les recherches récentes se sont principalement concentrées sur sur Processus de diffusion gaussienne opérant dans un espace d'état continu (tels que des images à valeur réelle et des données de forme d'onde).

Le modèle de diffusion surmonte les problèmes algorithmiques, l’AGI n’est pas loin ! Google Brain trouve le chemin le plus court dans un labyrintheLe modèle de diffusion de l'espace d'états discrets a été exploré dans les domaines de la segmentation de texte et d'images, mais ne s'est pas révélé être un modèle compétitif dans les tâches de génération à grande échelle de texte et d'images.

L'équipe de recherche de Google a proposé un nouveau modèle de probabilité de diffusion de débruitage discret (D3PM).

Dans l'étude, les auteurs ont démontré que le choix de la matrice de transition est une décision de conception importante qui peut améliorer les résultats dans les domaines de l'image et du texte.

De plus, ils ont proposé une nouvelle fonction de perte qui combine une limite inférieure variationnelle et une perte d'entropie croisée auxiliaire.

En termes de texte, ce modèle obtient de bons résultats dans la génération de texte au niveau des caractères tout en étant évolutif au grand ensemble de données de vocabulaire LM1B.

Sur l'ensemble de données d'images CIFAR-10, le dernier modèle se rapproche de la qualité de l'échantillon du modèle DDPM en espace continu et dépasse la log-vraisemblance du modèle DDPM en espace continu.

Photos

Auteur du projet

Arnaud Pannatier

Le modèle de diffusion surmonte les problèmes algorithmiques, l’AGI n’est pas loin ! Google Brain trouve le chemin le plus court dans un labyrinthe

Arnaud Pannatier de mars 2020 sous la direction de François Fleuret Le groupe machine learning commence un doctorat.

Il a récemment développé HyperMixer, en utilisant un super réseau pour permettre à MLPMixer de gérer des entrées de différentes longueurs. Cela permet au modèle de traiter l'entrée d'une manière invariante par permutation et il a été démontré que cela donne au modèle un comportement attentionnel qui évolue linéairement avec la longueur de l'entrée.

À l'EPFL, il a obtenu un baccalauréat en physique et un master en informatique et ingénierie (CSE-MASH).

Le modèle de diffusion surmonte les problèmes algorithmiques, l’AGI n’est pas loin ! Google Brain trouve le chemin le plus court dans un labyrinthe

Références :

https://www.php.cn/link/46994a3cd8d943d03b44b8fc9792d435

https://www.php.cn/link/1879 d84e181b6262704e95372dc9f4dc

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer