Maison >Périphériques technologiques >IA >Architecture future du LLM : qui est susceptible d'ébranler la domination de Transformer ?

Architecture future du LLM : qui est susceptible d'ébranler la domination de Transformer ?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant: 2024-01-01 22:59:53883parcourir

Dans le domaine des grands modèles, Transformer, qui a toujours été solidement en position C, semble avoir tendance à se faire dépasser ces derniers temps.

Ce challenger est une étude appelée "Mamba", qui a atteint les performances SOTA dans plusieurs modalités telles que le langage, l'audio et la génomique. En termes de modélisation du langage, le modèle Mamba-3B surpasse les modèles Transformer de même taille et est comparable aux modèles Transformer deux fois plus grands, à la fois en pré-formation et en évaluation en aval.

Architecture future du LLM : qui est susceptible débranler la domination de Transformer ?

Une fois le journal publié, il a fait beaucoup de bruit. Après avoir été étonné, tout le monde a découvert qu'il n'y avait que deux auteurs de l'article. L'un est Albert Gu, professeur adjoint du département d'apprentissage automatique de l'Université Carnegie Mellon, et l'autre est Tri, scientifique en chef de Together.AI et professeur adjoint de. informatique à l'Université de Princeton (poste entrant Dao).

Une innovation importante de cette recherche est l'introduction d'une architecture appelée « SSM sélectif (modèle spatial d'état sélectif) ». Par rapport au mécanisme d'auto-attention de Transformer, le montant du calcul augmente avec la longueur du contexte. au niveau carré.Par exemple, lorsque le contexte augmente de 32 fois, la quantité de calcul peut augmenter de 1 000 fois. Mamba peut atteindre une expansion linéaire à mesure que la longueur du contexte augmente jusqu'à des séquences d'une longueur d'un million de jetons dans les données réelles et. atteindre 5 Doubler l'amélioration du débit d'inférence. Et ceux-ci sont indissociables du MSS sélectif.

Après avoir constaté les excellentes performances de Mamba, de nombreux chercheurs sont devenus curieux des recherches liées au SSM (state space model).

Dans une récente interview, Nathan Lambert, chercheur en apprentissage automatique à l'Allen Institute for Artificial Intelligence (AI2), a eu un échange approfondi avec Tri Dao, l'un des auteurs de l'article Mamba, et Michael Poli, un scientifique également de Together.AI.

Ils ont principalement discuté de l'avenir de l'architecture LLM. De plus, ces trois chercheurs ont également discuté des perspectives d'application du modèle spatial d'états (SSM) sur le marché émergent du LLM. Les points de connaissances impliqués dans la conversation sont également relativement intensifs, comme par exemple pourquoi le mécanisme d'attention de Transformer est efficace, quelles sont ses limites d'extension, l'introduction à Mamba et son optimisation matérielle, et les discussions sur les prévisions d'architecture future.

Ce qui suit est le contenu de la conversation.

Pourquoi le mécanisme d'attention est efficace

Nathan Lambert : Voyons d'abord pourquoi le mécanisme d'attention est efficace et quelles sont les limites du mécanisme d'attention. Dans quelle mesure Transformer est-il construit sur la base du mécanisme d’attention, existe-t-il d’autres mécanismes à l’œuvre et quels défis peuvent être rencontrés à cet égard ?

Tri Dao : Oui, ce qu'on appelle Transformer est l'architecture qui pilote actuellement la plupart des applications passionnantes que nous voyons. Comme vous l'avez dit, le mécanisme d'attention est la couche centrale. En fait, le mécanisme d'attention a attiré l'attention dès 2014 et 2015, puis le concept de Transformer a émergé, intégrant le mécanisme d'attention et se concentrant sur l'utilisation entrelacée du perceptron multicouche (MLP) et des mécanismes d'attention.

Je pense qu'une grande partie de son succès réside dans le fait que ces modèles semblent bien s'adapter, vous pouvez agrandir le modèle en ajoutant plus de paramètres et de données. C'est le secret du succès. Même si cela semble évident aujourd’hui, je ne pense pas que ce soit un concept clair il y a cinq ans.

Transformer a du succès pour plusieurs raisons : Premièrement, il est suffisamment général pour pouvoir apprendre beaucoup de choses à partir de grandes quantités de données. Deuxièmement, il est très convivial pour le matériel. Contrairement aux précédents réseaux de neurones récurrents (RNN), il n'a aucune dépendance d'ordre.

Il fonctionne donc très bien sur les GPU, les TPU, peut évoluer, tout en utilisant le matériel de manière très efficace. Je travaille également personnellement à rendre l'utilisation du matériel plus efficace. Voilà donc le secret du succès : créer une architecture à la fois polyvalente et évolutive. Si vous êtes adepte de la PNL, vous envisageriez peut-être d'ajouter un biais inductif pour améliorer le modèle. Personnellement, je pense que Transformer est une architecture très générale, très évolutive et très conviviale pour le matériel.

Nathan Lambert : Oui, oui. Rétrospectivement, tout cela semble évident. Désormais, lorsque l’on examine ses alternatives, une dimension intéressante est la longueur du contexte. Michel, qu'en penses-tu ?

Michael Poli : Oui, j'ai quelques choses à dire. Tout d’abord, il existe encore de nombreuses excellentes études qui tentent d’expliquer Transformer à partir des premiers principes. Pourquoi peut-il apprendre ces circuits intéressants ? Les gens décomposeront le processus de calcul, comme les combinaisons de têtes dans différents transformateurs, etc.

Il y a des travaux sur la compréhension de Transformer en tant que langage de programmation codé. Mais je pense, comme Trey l'a mentionné, qu'il existe des choix de conception vraiment intéressants dans Transformer. L’utilisation étroitement liée de l’attention et du MLP est très importante. De plus, Transformer a connu du succès au début car il a adopté certaines techniques développées pour le RNN et d'autres modèles NLP traditionnels, comme l'utilisation de mécanismes de contrôle pour réguler les informations absorbées par le modèle et la décision si certains contenus doivent être utilisés sous cette forme parallèle. . la vitesse à laquelle il est oublié. C'est comme si certains joyaux pouvaient être optimisés sur le GPU, pas facilement, mais cela peut être optimisé.

Les calculs d'attention augmentent de façon quadratique

Nathan Lambert : Oui, c'est génial. Le point plus précis que je souhaite souligner est que le mécanisme d’attention présente en fin de compte un coût de calcul qui augmente quadratiquement avec la longueur de la séquence d’entrée. Supposons que vous ayez une séquence d’entrée de longueur L et que vous souhaitiez également générer une séquence de longueur L. Si vous approfondissez les détails mathématiques et regardez ce qui se passe lorsque la plupart des bibliothèques font des inférences, vous constaterez que vous disposez de cette matrice d'attention triangulaire supérieure, dans laquelle vous ne pouvez considérer que les parties passées du texte. Au fur et à mesure du traitement, vous constaterez qu'il forme une relation L au carré, dans laquelle le premier jeton ne prend en compte qu'un seul élément, puis chaque jeton suivant prend en compte progressivement davantage de jetons passés. Nous venons de discuter des RNN et de la façon dont certaines méthodes non attentionnelles peuvent le faire sans examiner tout l'historique textuel d'une séquence. Lorsque vous écrivez une longue invite sur votre chatbot GPT, voulez-vous vraiment que toutes ces informations y soient codées ? Outre cette matrice d’attention dense, de quelles autres options disposons-nous ?

Tri Dao : Les réseaux de neurones récurrents remontent aux années 1980, certains des plus célèbres étant peut-être les réseaux de mémoire à long terme (LSTM) et les unités récurrentes fermées (GRU). Ils étaient très populaires pour la traduction, la reconnaissance vocale, etc. entre 2012 et 2016, lorsqu'il s'agissait de la technologie SOTA en PNL.

Ils traitent le texte de manière séquentielle : observant les jetons un par un, puis changeant l'état caché, mettant à jour l'état caché à chaque fois qu'un nouveau jeton est vu. Je pense que dans un sens, cela imite la façon dont le cerveau humain traite les informations, comme si vous lisiez une phrase ou un paragraphe, comme si vous stockiez certaines informations dans votre cerveau. Lorsque vous avez fini de lire un document, vous pourrez peut-être répondre à des questions sur ce document sans y faire référence à nouveau. Voilà donc comment fonctionne RNN. Ils traitent le texte puis modifient l'état caché, qui est une représentation qui peut être utilisée pour générer de nouveaux jetons ou classer des documents.

Vers 2016, ces méthodes étaient très populaires. Cependant, au fur et à mesure que les résultats expérimentaux émergeaient, nous avons progressivement découvert que leurs performances n'étaient pas aussi bonnes que celles de Transformer. Comme vous l'avez mentionné, le Transformer possède une propriété d'expansion quadratique telle que chaque jeton est comparé à tous les jetons précédents, ce qui fournit un moyen très simple de propagation des informations. Je pense que c’est l’une des raisons pour lesquelles les transformateurs et les mécanismes d’attention fonctionnent si bien.

Récemment, certaines nouvelles architectures RNN se sont révélées performantes, parmi lesquelles RWKV est l'une des premières. J'admire beaucoup ce projet développé par le chercheur Bo Peng. Il semble concurrencer Transformer d’une manière unique, démontrant le puissant potentiel de RNN.

Nathan Lambert : Oui. J'ai déjà lu cet article auparavant. Sur le plan technique, ils ont essayé de reproduire quelque chose de similaire à la recherche de valeurs-clés dans le mécanisme d'attention via deux RNN linéaires, essentiellement pour éliminer les problèmes potentiels tels que l'expansion de l'attention spécifique. Ces deux RNN ont un meilleur comportement dans un contexte long et des règles de mise en œuvre différentes. Ils ont également formé des modèles comportant jusqu’à 14 milliards de paramètres. Cela m'amène également à quelques questions que je souhaite poser ensuite, notamment sur Mamba et la hyène rayée. Nous pouvons parler un par un.

Quel genre de modèle est la Hyène rayée ?

Nathan Lambert : Je suis allé dans l'API Together et j'ai fait un test de comparaison entre Mistral et la Hyène rayée. Les résultats montrent que la Hyène rayée est un bon modèle de langage. Il répond à la plupart des questions sans mode de défaillance évident. Michael, que penses-tu de ce modèle ?

Michael Poli : Tout d'abord, je tiens à dire qu'il existe un lien intéressant entre ces nouvelles méthodes. Il existe un ensemble convexe, qui a un point central, et la corrélation entre l'attention linéaire (c'est-à-dire l'attention sans softmax), le RNN linéaire et le modèle basé sur l'état (SSM) se trouvent toutes dans cet ensemble convexe. Dans une certaine mesure, la formulation mathématique de ce modèle sous-jacent est la même, et je ne parle pas ici de l'infrastructure, mais du modèle sous-jacent.

Ensuite, vous pouvez développer dans différentes directions, chaque direction ayant ses propres compromis, tels que la direction du mappage des fonctionnalités et la direction du noyau. Ainsi, lorsque vous divisez ou supprimez le softmax, vous pouvez adopter une approche différente lors du traitement des requêtes et des clés. Ces requêtes et clés sont les entités de base qui constituent votre matrice d'attention. Après avoir supprimé le softmax, vous pouvez créer d'autres fonctions de type noyau, ou d'autres fonctions qui, vous l'espérez, pourront se rapprocher de la fonction du mécanisme d'attention.

Vous pouvez faire quelque chose comme l'approximation de Taylor ou l'expansion de Taylor. Vous obtenez une perspective légèrement différente, mais vous obtenez quelque chose de très similaire. Vous pouvez vous tourner vers Variation temporelle. Cela signifie que vous modifiez le RNN pour que ses calculs dépendent davantage de la séquence d'entrée. Autrement dit, le calcul dans un RNN linéaire est déterminé par la séquence d'entrée. Vous pouvez utiliser des choses comme des portes, et nous avons vu beaucoup de travail, par exemple, pour mettre à jour la tension interne avec des portes supplémentaires pour vous permettre de mieux utiliser vos dimensions d'état fixes. La troisième direction - du moins à mon avis - consiste à utiliser des formes convolutives et à utiliser davantage d'autres types d'opérateurs linéaires qui sont toujours combinables et permettent toujours de s'entraîner en parallèle.

Le contenu ici inclut donc des systèmes invariants dans le temps. Je pourrais expliquer ces points en détail, mais il existe des modèles capables de basculer entre convolution et boucle, qui sont également équipés de mécanismes de gate supplémentaires. Un projet auquel j’ai participé est né du troisième type d’architecture que je viens de mentionner. Ce que nous essayons réellement de faire, c'est de créer une architecture offrant les meilleures performances par opération en virgule flottante. Un principe que nous avons vérifié à plusieurs reprises est qu’il semble qu’en combinant différentes couches, différentes catégories de modules et même des couches d’attention complète, vous obtenez quelque chose de mieux que les composants individuels.

Nous essayons donc de comprendre plus profondément les aspects combinatoires de ces modèles. Cette compréhension nous aide à créer des modèles pré-entraînés avec de meilleures performances par opération en virgule flottante. En utilisant ce modèle, nous avons appliqué un ensemble complet de lois d’échelle. L'hybridation nous a également apporté certains avantages, car nous voulions quelque chose qui puisse être utilisé immédiatement et cela a rendu le processus beaucoup plus simple.

Lors de la mise au point de contextes plus longs, nous pouvons adopter certaines des techniques développées pour Transformers. Étonnamment, ces techniques fonctionnent aussi bien avec les hybrides. Par exemple, la mise à l'échelle linéaire est utilisée pour les intégrations rotationnelles, etc. Si vous êtes intéressé par les détails, vous pouvez en savoir plus. Par conséquent, ce projet est avant tout une tentative expérimentale pour déterminer jusqu’où nous pouvons aller dans l’environnement actuel.

Qu'est-ce que Mamba

Nathan Lambert : Striped Hyena est optimisé à l'aide d'un nouvel ensemble de techniques de greffe de modèles (model grafting) qui nous permet de changer l'architecture du modèle pendant l'entraînement. Pour moi, j'ai l'impression qu'il y en a. il se passe beaucoup de choses, comme des données dont vous ne pouvez probablement pas trop parler.

Concernant l'interprétation des données, je pense qu'il y a encore certaines choses qui ne sont pas bien expliquées, notamment certaines données contextuelles plus longues. Je me demande si vous pouvez nous expliquer ce que signifient ces données du point de vue du modèle ? Même un simple résumé aurait été une expérience formidable pour nous.

Il y a beaucoup de métiers sympas dans ce domaine, donc il y a beaucoup de nouveaux projets en cours dans le domaine de l'IA, par exemple, certaines personnes essaient de démonter le modèle Lama et continuent de l'entraîner . En fait, c'est un peu sauvage, où les gens essaient de prendre des modèles puissants et de les rendre plus petits tout en bénéficiant des mêmes avantages en termes de performances que les modèles plus grands.

Bien que ce soit un peu hors sujet, mais ce à quoi je ne m'attendais pas, c'est que lorsque vous suivez les réseaux sociaux, vous verrez les gens dire, oh, à la fin, le modèle de non-attention de l'État a gagné. À mon avis, cette affirmation occulte de nombreux détails intéressants.

D'accord, revenons à Mamba. Si je me souviens bien, je pense que le plus grand modèle de la suite Mamba contient 280 millions de paramètres, et les scores de référence donnés par les benchmarks NLP, y compris GPT J et la suite de modèles Pythia, sont très forts.

Tri Dao : Mamba était une collaboration entre moi et Albert Gu, qui était doctorant à l'Université de Stanford, où nous nous sommes rencontrés, et qui est maintenant professeur adjoint à la CMU. C'était donc une superbe collaboration et je lui dois le succès de Mamba. Albert s'est engagé dans la recherche de modèles spatiaux d'états. Dans un sens, comme mentionné précédemment, il a été impliqué dans les tenseurs linéaires, le RNN linéaire, la convolution, les réseaux neuronaux et d'autres domaines.

Dans plusieurs projets auxquels j'ai participé dans le passé, je me suis également consacré à la recherche sur l'espace et l'espace d'état. Ma perspective de recherche est de savoir comment rendre l'espace d'état plus efficace et améliorer ses performances. C'était donc génial de travailler avec Albert Gu. Je pense que le processus de recherche impliqué dans Mamba était davantage une preuve de concept selon laquelle les espaces d'état pouvaient en réalité être aussi bons que des transformations dans le monde de la PNL ? D'où Mamba, la recherche qui suggère que l'espace d'état pourrait être meilleur pour l'audio. Cependant, pour les modèles d’espace d’état, le langage a toujours été le plus difficile à obtenir et à bien utiliser.

De plus, le langage est aussi ce qui intéresse le plus les gens maintenant, donc ce que je fais est plutôt une preuve de concept, c'est-à-dire que nous voulons montrer que le modèle d'espace d'état peut également être compétitif, et peut même rivaliser avec Transformer . Le nombre de jetons vérifiés dans nos expériences varie de 3B à 300B.

Donc dans l'absolu, ce ne sont pas des modèles très puissants, ce ne sont pas les modèles que l'on souhaite vraiment. Je pense que ce que nous faisons est davantage une comparaison académique. Par exemple, lors de la formation du même nombre de jetons, le modèle d'espace d'état peut être légèrement meilleur que le transformateur.

Cette chose est particulièrement excitante pour nous et je pense qu'Albert fait pression pour cela depuis un moment.

Le résultat est que nos recherches pourraient être plus rapides en matière d'inférence et peut-être aurons-nous une manière différente de comprendre comment l'apprentissage contextuel se produit. J'attends avec impatience mon futur travail.

Mamba Hardware Optimization

Nathan Lambert : Pouvez-vous parler un peu de ce qu'il faut réellement pour implémenter ces nouveaux noyaux CUDA ?

Tri Dao : Concernant l'étude de l'espace d'état, c'est un réseau de neurones récurrent en un sens. La taille de l'état est le tampon que vous utilisez pour stocker les informations lors du parcours ou du traitement d'une séquence.

Dans un sens, Transformer peut également être compris de cette manière. L'intégralité de l'historique qu'il enregistre est souvent appelée le cache KV. Transformer conserve l'historique et y fait continuellement référence. Pour les RNN, ils ont un état de taille fixe ; pour les transformateurs, vous pouvez considérer la taille de l’état comme croissante. De plus, notre intuition est que plus la taille de l’État est grande, plus le modèle est performant.

Donc, pour stocker les informations dont vous devez vous souvenir, vous avez besoin de plus d'espace. Les modèles précédents (comme S4, etc.) avaient des tailles d'état cachés assez grandes et utilisaient des vues convolutives pour éviter de réifier l'état.

Nous aimerions incorporer davantage de dépendances d'entrée dans la boucle, cependant, cela nous empêche d'utiliser des vues convolutives qui peuvent améliorer l'efficacité.

Nous avons donc dû trouver un moyen différent d'améliorer l'efficacité, nous nous sommes donc concentrés sur l'amélioration de l'efficacité du GPU. L'idée est que nous voulons avoir une grande taille d'état, mais nous n'avons pas besoin d'utiliser de la mémoire GPU réelle, telle que HBM, nous pouvons enregistrer le grand état dans une mémoire plus rapide, appelée SRAM, vous pouvez y penser comme un cache. Si vous êtes plus familier avec les processeurs, il s'agit généralement d'un cache et d'une RAM.

Donc, si vous avez un état plus grand, vous pouvez le sauvegarder en cache pour ne pas trop souffrir.

Prédictions d'architecture 2024

Nathan Lambert : Mon aperçu le plus fort en ce moment sur le GPU par rapport au TPU est que MoE ne fonctionne pas bien dans le TPU car vous devez mettre du MoE au-dessus de la couche de base.

Dans la formation distribuée, les couches feedforward peuvent finir par être distribuées sur différents nœuds TPU, et les TPU communiquent via les nœuds voisins. Par conséquent, le TPU sera davantage affecté à cet égard que le GPU. Que se passera-t-il dans cet espace en 2024 ?

Tri Dao : Je pense que Transform est toujours une architecture très puissante qui peut désormais s'adapter à un billion de niveaux de paramètres. Les gens ont tendance à vouloir les modèles les plus performants qui fonctionnent le plus efficacement sur le matériel et qui possèdent le plus de performances. le plus de support en termes de logiciel.

J'ai récemment eu de nouvelles idées, comme l'espace d'état. Nous avons vu, comme Michael l'a mentionné, que le mélange de ces composants semble améliorer les performances, je pense que cela a été démontré sur le modèle de taille 7B, et peut-être que le modèle d'espace d'état peut fonctionner sur des modèles à plus grande échelle.

La plupart des gens se concentrent actuellement sur la construction de données et d'infrastructures basées sur l'architecture Lime. Bien que l'architecture Transformer existante soit toujours très puissante et largement prise en charge dans les environnements de production, il existe également certains domaines périphériques, tels que le contexte long, l'audio, génomique, etc. Il serait très intéressant d’étudier des architectures alternatives dans ces domaines. Ces domaines soulèvent des questions scientifiques significatives, comme celle de savoir si les modèles comprennent les instructions et l’intuition comme le font les humains, et s’ils peuvent travailler avec des méthodes quantitatives.

De plus, même si les gens utilisent encore l'architecture Transformer maintenant, davantage de nouvelles idées et composants pourraient être incorporés à l'avenir, comme l'ajout de couches et de mécanismes d'attention supplémentaires, etc., bien qu'ils puissent toujours être appelés Transformer.

En bref, bien que le domaine actuel de l'intelligence artificielle ait tendance à être conservateur et à se concentrer sur l'architecture moderne, de nouvelles architectures et idées émergent progressivement. Ces nouvelles perspectives et méthodes peuvent apporter de nouveaux développements au développement de la motivation et de l'intelligence artificielle. direction.

Michael Poli : Oui, je suis à 100 % d'accord avec Tri Dao, le mécanisme d'attention est toujours important en tant que primitive informatique. En tant que moyen efficace et pratique, le mécanisme d'attention peut augmenter efficacement la capacité d'état du processeur de séquence.

Il existe un compromis entre les dimensions de l'état et la longueur de la séquence. Lorsque la taille du modèle devient plus grande, c'est-à-dire que le modèle devient plus large, davantage d'états et de longueurs de séquence seront effectivement introduits. En conséquence, certains effets marginaux pourraient disparaître et certains compromis pourraient changer, en particulier pour les très grands modèles, tels que le 14B, le 30B, etc.

À l'avenir, la conception architecturale deviendra plus intéressante et complexe, et davantage d'innovations se produiront. Qu'il s'agisse de modèles hybrides ou de l'introduction de nouveaux modules, nous verrons des innovations plus intéressantes.

Plus de prédictions pour l'IA

Le mélange d'experts (MoE) et de modèles spatiaux d'État est récemment apparu comme une tendance populaire, selon Nathan Lambert.

Cependant, dans l'open source et dans le monde universitaire, actuellement, non on a vraiment essayé de faire des premières tentatives et des améliorations sur le modèle expert hybride. Le greffage de modèles devient désormais plus pratique.

Il a été très intéressant de suivre ces développements, et nous espérons que ces développements fourniront aux universitaires et aux scientifiques davantage de moyens d'influencer le débat sur l'industrie, surtout maintenant que l'industrie se concentre davantage sur la mise à l'échelle des modèles. Je suggère que les entreprises open source apportent des améliorations spécifiques à leurs modèles de langage pour obtenir un avantage commercial.

Y a-t-il autre chose auquel vous prêtez attention dans l'apprentissage automatique ? Il ne s’agit pas nécessairement du modèle d’espace d’état. Qu’est-ce qui vous passionne le plus l’année prochaine ?

Tri Dao : Personnellement, je pense que les données restent le facteur le plus important. Nous examinons de plus près la manière dont les données affectent les performances du modèle, par exemple via certaines tâches synthétiques fortement corrélées aux performances du modèle. Cette approche a été la principale motivation et l’exemple de nos travaux de thèse et de recherche. Nous nous concentrerons sur les données dans la période à venir.

Bien que tout le travail d'architecture soit amusant et que le faire fonctionner efficacement sur le matériel soit amusant, en fin de compte, il s'agit toujours de données. Si vous comprenez la loi d'échelle, vous savez que différentes architectures de modèles auront souvent la même pente, juste des décalages différents. La seule chose qui semble changer la pente est la qualité des données.

Michael Poli : Oui, nous avons ajouté les données. Les données sont vraiment intéressantes, comme la miniaturisation de la conception architecturale, la compréhension et la décomposition des différents aspects impliqués dans des tâches telles que la modélisation du langage, et nous essayons de les regrouper dans quelque chose qui peut être utilisé pour itérer, ce qui est très excitant.

Je suis personnellement très enthousiasmé par les nouvelles applications, en particulier les travaux en génomique, mais d’un point de vue plus technique, nous assistons à un changement. Actuellement, les langues restent le domaine qui suscite le plus de clics et le plus d’intérêt, mais je pense que cela va changer avec le temps.

Nathan Lambert : Oui, tout le monde parle de langage, mais je pense que les images, les vidéos vont être des choses qui génèrent une valeur énorme. Je ne sais pas où est la limite supérieure du langage. Je suis excité, j'ai commencé à essayer ça, comme si je prenais le texte d'un blog et que le modèle le convertisse en image, puis en vidéo avec audio, le tout fait avec un script Python, c'est vraiment facile Fais-le. Donc je suis d’accord avec toi, les choses au-delà du langage sont intéressantes.

Tri Dao : D'après votre expérience, lorsque vous rassemblez toutes ces choses ensemble, fonctionnent-elles réellement raisonnablement bien ?

Nathan Lambert : Ce n'est pas encore parfait. Les images générées par DALL・E sont relativement similaires, mais ma méthode est très simple. Je prends simplement le texte directement et j'utilise une invite système pour laisser le modèle générer diverses. images. Une telle photo, je pense que je peux faire mieux. Je sais que dans probablement un an, il y aura une API texte-vidéo et je passerai alors à l'API et ce sera une expérience formidable.

Tri Dao : Oui, je pense que ces progrès génèrent beaucoup de valeur économique, et nous le constatons déjà. De nombreuses entreprises se tournent désormais vers ces technologies. Je pense que cela va changer notre façon de travailler et, comme vous l'avez mentionné, notre façon de travailler et de jouer. C'est donc un avenir très excitant.

Lien original : https://www.interconnects.ai/p/interviewing-tri-dao-and-michael?cnotallow=5d10d34c97637bebcfeba6470c0f0d9b

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python 架构分布式运算符 Token 循环 transform 人工智能 rnn lstm gru transformer nlp https gpt

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Explorer l’impact transformateur de l’intelligence artificielle quantique sur la sociétéArticle suivant：Explorer l’impact transformateur de l’intelligence artificielle quantique sur la société

Articles Liés

Voir plus