Maison >Périphériques technologiques >IA >L'académicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également d'un troisième type de mémoire.

L'académicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également d'un troisième type de mémoire.

PHPz
PHPzoriginal
2024-07-16 11:57:51619parcourir
2,4 B de mémoire3 permet d'obtenir de meilleures performances que les modèles LLM et RAG plus grands.

Ces dernières années, les grands modèles de langage (LLM) ont reçu une attention sans précédent en raison de leurs performances extraordinaires. Cependant, la formation et la déduction du LLM coûtent cher, et les gens ont essayé de réduire les coûts grâce à diverses méthodes d'optimisation.

Dans cet article, des chercheurs du Shanghai Algorithm Innovation Research Institute, de l'Université de Pékin et d'autres institutions se sont inspirés de la hiérarchie de la mémoire du cerveau humain. Ils ont équipé le LLM d'une mémoire explicite (un format de mémoire moins cher que les paramètres du modèle et). RAG). ) pour réduire ce coût. Conceptuellement, les LLM peuvent bénéficier de tailles de paramètres, de coûts de formation et de coûts d'inférence plus petits puisque la plupart de leurs connaissances sont externalisées dans la mémoire explicite. Adresse du papier T : https://arxiv.org/pdf/2407.01178
Lacadémicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également dun troisième type de mémoire.
Titre de la thèse : Mémoire
    3
  •  : Modélisation du langage avec mémoire explicite
  • comme preuve de concept préliminaire, les chercheurs ont formé un 2,4B LLM à partir de zéro, qui a obtenu de meilleures performances que les modèles LLM et RAG plus grands, et a atteint une vitesse de décodage plus élevée que RAG. Ce modèle est nommé Memory
    3
  • car en LLM, la mémoire explicite est la troisième forme de mémoire après la mémoire implicite (paramètres du modèle) et la mémoire de travail (valeurs clés du contexte).

Plus précisément, cet article présente un nouveau format de mémoire, la mémoire explicite, qui se caractérise par des coûts d'écriture et des coûts de lecture relativement faibles. Comme le montre la figure 1, le modèle convertit d'abord la base de connaissances (ou tout ensemble de données textuelles) en mémoires explicites implémentées sous forme de valeurs-clés d'attention clairsemées, puis appelle ces mémoires lors de l'inférence et les intègre dans la couche intermédiaire d'auto-attention.
Lacadémicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également dun troisième type de mémoire.Le nouveau format de mémoire définit une nouvelle hiérarchie de mémoire :
Lacadémicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également dun troisième type de mémoire.De plus, cet article présente également une théorie des circuits de mémoire qui prend en charge l'externalisation des connaissances et propose une rareté de la mémoire qui peut rendre le stockage traitable. protocole de pré-entraînement pour favoriser la formation de la mémoire.
Lacadémicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également dun troisième type de mémoire.En résumé :

Mémoire
3
Utilise la mémoire explicite pendant le processus d'inférence, ce qui réduit la charge de mémorisation des connaissances spécifiques pour les paramètres du modèle
  • La mémoire explicite est construite à partir de l'encodage ; la base de connaissances, où le format de mémoire clairsemé maintient la véritable taille de stockage 
    Les chercheurs ont formé un modèle Memory
  • 3
  • à partir de zéro avec 2,4 B de paramètres non intégrés, et ses performances ont dépassé celles d'un modèle SOTA à plus grande échelle. Il a également de meilleures performances et une inférence plus rapide que RAG
  • De plus, Memory
    3 améliore la factualité et atténue les hallucinations, et permet une adaptation rapide aux tâches professionnelles.
  • Introduction à la méthode

La théorie des circuits mémoire aide à déterminer quelles connaissances peuvent être stockées en tant que mémoire explicite et quelle architecture de modèle est adaptée à la lecture et à l'écriture de la mémoire explicite.

Les chercheurs considèrent la relation entrée-sortie comme le mécanisme interne du circuit et définissent la connaissance comme la relation entrée-sortie et son circuit. En manipulant ces circuits, on peut isoler une grande partie des connaissances du LLM tout en gardant intactes ses fonctionnalités.
Lacadémicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également dun troisième type de mémoire.Mémoire
3
: En termes d'architecture, le but de cet article est de concevoir un mécanisme de mémoire explicite pour Transformer LLM afin que son coût d'écriture et son coût de lecture soient relativement faibles. De plus, cet article espère limiter les modifications de l'architecture Transformer à la plus petite portée possible sans ajouter de nouveaux paramètres pouvant être entraînés, de sorte que la plupart des LLM Transformer existants puissent être convertis en mémoire sans presque aucun réglage fin
3
modèles. Le processus de conception simple est le suivant :
Coût d'écriture : avant l'inférence, LLM écrit chaque référence dans la mémoire explicite, qui est enregistrée sur le lecteur.Les souvenirs sont sélectionnés parmi les vecteurs clés de la couche d'auto-attention, de sorte que le processus d'écriture n'implique pas de formation. Chaque référence est traitée indépendamment, évitant ainsi le coût d'une longue attention contextuelle.

Coût de lecture : lors de l'inférence, la mémoire explicite est récupérée du lecteur et lue par l'auto-attention avec les valeurs clés contextuelles habituelles. Chaque mémoire se compose d'un très petit nombre de valeurs clés provenant d'un petit nombre de têtes d'attention, ce qui réduit considérablement les calculs supplémentaires, le stockage GPU, le stockage sur disque et le temps de chargement. Il permet à LLM de récupérer fréquemment de nombreuses références avec un impact limité sur la vitesse de décodage.

Le processus de raisonnement est illustré à la figure 9. Chaque fois que LLM génère 64 jetons, il supprime la mémoire actuelle, utilise ces 64 jetons comme texte de requête pour récupérer 5 nouvelles mémoires et continue d'utiliser ces mémoires. De même, lors du traitement des signaux, LLM récupère 5 mémoires pour chaque bloc de 64 jetons. Chaque bloc se concentre sur sa propre mémoire et la mémoire peut varier d'un bloc à l'autre.
Lacadémicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également dun troisième type de mémoire.
Écriture et lecture de souvenirs : Lors de l'inférence, LLM peut lire directement les souvenirs explicites récupérés via sa couche d'auto-attention en les concaténant avec des valeurs clés contextuelles (Figure 9). Plus précisément, pour chaque tête d'attention h de la l-ième couche, si elle est sélectionnée comme tête de mémoire, alors sa sortie Y^(l,h) changera :
Lacadémicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également dun troisième type de mémoire.
De plus, cette étude La mémoire explicite utilise des codage de position, c'est-à-dire que toutes les positions clés sont situées dans le même intervalle de longueur 128, comme le montre la figure 9.

Pré-entraînement en deux étapes : Le pré-entraînement se compose de deux étapes, un échauffement et un entraînement continu. Seule la phase d'entraînement continu fait appel à la mémoire explicite, tandis que la phase d'échauffement utilise le même format que le pré-entraînement normal.
Lacadémicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également dun troisième type de mémoire.
La figure 13 représente le calendrier de perte d'entraînement et de taux d'apprentissage pendant la phase d'échauffement.
Lacadémicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également dun troisième type de mémoire.
La figure 14 représente le calendrier des pertes d'entraînement et du taux d'apprentissage pendant la phase de formation continue.
Lacadémicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également dun troisième type de mémoire.
Résultats expérimentaux

Les chercheurs ont évalué les capacités générales du modèle Memory3 (tâches de référence), les capacités conversationnelles, les capacités professionnelles (droit et médecine) et les hallucinations. En outre, les chercheurs ont également mesuré la vitesse de décodage de Memory3 et l'ont comparée à des modèles SOTA LLM et RAG similaires et plus grands.

Les résultats de l'évaluation des capacités générales sont présentés ci-dessous, et les résultats montrent que la mémoire explicite a augmenté le score moyen de 2,51 %. En comparaison, la différence de score entre Llama2-7B et 13B est de 4,91 %. La mémoire explicite peut augmenter la « taille effective du modèle » de 2,51/4,91 ≈ 51,1 %.
Lacadémicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également dun troisième type de mémoire.
Ensuite, les auteurs ont évalué les compétences de dialogue de Memory3, et les résultats sont répertoriés dans le tableau 18, montrant que le modèle surpasse Vicuna-7B, Falcon-40B-Instruct et ChatGLM2-6B avec moins de paramètres.
Lacadémicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également dun troisième type de mémoire.
Actuellement, LLM est toujours confronté à des problèmes d'hallucinations. Conceptuellement, Memory3 devrait être moins sensible aux hallucinations car sa mémoire explicite correspond directement au texte de référence. Pour évaluer les hallucinations, les chercheurs ont sélectionné deux ensembles de données anglais pour évaluation. Les résultats sont présentés dans le tableau 19. Memory3 obtient les scores les plus élevés dans la plupart des tâches.
Lacadémicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également dun troisième type de mémoire.
L'un des avantages de l'utilisation de la mémoire explicite est que LLM peut facilement s'adapter à de nouveaux domaines et tâches en mettant à jour sa base de connaissances. Importez simplement les références liées aux tâches dans la base de connaissances de Memory3 et convertissez-les éventuellement en mémoire explicite en cas de démarrage à chaud.Le modèle peut ensuite exploiter ces nouvelles connaissances à des fins d'inférence, en évitant le processus de réglage fin, plus coûteux et potentiellement générateur de pertes, et en fonctionnant plus rapidement que RAG. Cette réduction des coûts a été démontrée dans la figure 4 et pourrait faciliter le déploiement rapide du LLM dans diverses industries.
Lacadémicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également dun troisième type de mémoire.
Le tableau ci-dessous montre que Memory3 fonctionne mieux que la plupart des modèles.
Lacadémicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également dun troisième type de mémoire.
Enfin, les chercheurs ont évalué la vitesse de décodage ou le débit de Memory3 par le nombre de jetons générés par seconde.
Lacadémicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également dun troisième type de mémoire.
Pour plus d'informations, veuillez vous référer au document original.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn