Maison  >  Article  >  Périphériques technologiques  >  Intégrant plus de 200 études connexes, la dernière revue du grand modèle « apprentissage tout au long de la vie » est ici

Intégrant plus de 200 études connexes, la dernière revue du grand modèle « apprentissage tout au long de la vie » est ici

WBOY
WBOYoriginal
2024-09-02 15:24:03246parcourir
整合 200 多项相关研究,大模型「终生学习」最新综述来了

La rubrique AIxiv est une rubrique où des contenus académiques et techniques sont publiés sur ce site. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Les auteurs de cet article sont tous issus de l'équipe du professeur Ma Qianli de l'Université de technologie de Chine du Sud, et leur laboratoire est Machine Learning and Data Dig the lab. Les trois co-premiers auteurs de l'article sont le doctorant Zheng Junhao, l'étudiant à la maîtrise Qiu Shengjie et l'étudiant à la maîtrise Shi Chengming. Leurs principaux axes de recherche incluent les grands modèles et l'apprentissage tout au long de la vie. L'auteur correspondant est le professeur Ma Qianli (éditeur associé de l'IEEE/). ACM-TASLP). Ces dernières années, l'équipe du professeur Ma Qianli a publié de nombreux travaux de recherche liés aux séries temporelles/PNL/systèmes de recommandation dans des revues internationales faisant autorité (telles que TPAMI, etc.) et dans des conférences universitaires internationales de premier plan (telles que NeurIPS, AAAI, IJCAI, ACL, KDD, ICDE, etc.). Coopération étendue avec des universités et des instituts de recherche scientifique renommés au pays et à l’étranger.

Alors que l'application de grands modèles de langage continue de se développer dans divers domaines, la manière de permettre à ces modèles de s'adapter en permanence aux changements de données, de tâches et de préférences des utilisateurs a été devenir un enjeu clé. Les méthodes traditionnelles de formation d’ensembles de données statiques ne peuvent plus répondre aux besoins dynamiques du monde réel.

Pour résoudre ce défi, la technologie d'apprentissage tout au long de la vie ou d'apprentissage continu a vu le jour. Il permet aux grands modèles linguistiques d'apprendre et de s'adapter en permanence au cours de leur vie professionnelle, en conservant les informations précédemment apprises tout en intégrant de nouvelles connaissances et en évitant les oublis catastrophiques (Catastrophic Forgetting).

Récemment, des chercheurs de l'Université de technologie de Chine du Sud ont étudié, organisé et résumé la méthode d'apprentissage tout au long de la vie et ses perspectives de développement de grands modèles de langage (LLM), et l'ont résumé dans une revue complète et avant-gardiste.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

  • Titre de l'article : Vers un apprentissage tout au long de la vie des grands modèles linguistiques : une enquête
  • Institution : Chine du Sud Université de technologie
  • Adresse papier : https://arxiv.org/abs/2406.06391
  • Adresse du projet : https://github .com/ qianlima-lab/awesome-lifelong-learning-methods-for-llm

La figure 1 montre l'application de l'apprentissage tout au long de la vie dans les grandes langues modèles Analogie avec le processus d’apprentissage humain. La figure montre l’évolution des humains et des grands modèles linguistiques dans l’apprentissage tout au long de la vie à travers deux parcours d’apprentissage parallèles.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

Apprentissage humain

1. Marcher : les humains commencent à apprendre à partir des compétences les plus élémentaires (telles que la marche).
2. Faire du vélo : au fur et à mesure que l'apprentissage progresse, les humains maîtrisent des compétences plus complexes (comme faire du vélo).
3. Conduire une voiture : à terme, les humains peuvent maîtriser des compétences plus complexes et avancées (telles que la conduite automobile).

Chaque étape représente le processus par lequel les humains continuent d'acquérir de nouvelles compétences et connaissances dans le cadre d'un processus d'apprentissage tout au long de la vie.

Apprentissage de grands modèles de langage (LLMs Learning)

1. Nouveau langage (Nouveau Langue) : les grands modèles de langage commencent par l'apprentissage de nouvelles langues (comme apprendre à traiter différentes langues naturelles).
2. Nouveau domaine : Ensuite, le modèle apprend de nouvelles connaissances dans un domaine (comme l'extension du traitement du langage naturel au domaine médical).
3. Nouvelles informations : En fin de compte, le modèle peut apprendre et intégrer de nouvelles informations, qu'il s'agisse de langue ou de domaine.

Chaque étape représente le processus du grand modèle linguistique qui élargit et met à jour continuellement les connaissances dans le processus d'apprentissage tout au long de la vie. Ce diagramme met l'accent sur le processus d'apprentissage tout au long de la vie : L'apprentissage tout au long de la vie est un processus continu qui couvre une évolution étape par étape du niveau de base au niveau avancé. L’apprentissage tout au long de la vie n’est pas une simple accumulation de connaissances, mais un processus dynamique et évolutif.

Ces dernières années, l'apprentissage tout au long de la vie est devenu un sujet de recherche de plus en plus populaire, et des enquêtes à grande échelle sur l'apprentissage tout au long de la vie par les réseaux neuronaux ont vu le jour. La plupart des recherches existantes se concentrent principalement sur divers scénarios d'application de l'apprentissage tout au long de la vie des réseaux de neurones convolutifs (CNN) et de l'apprentissage tout au long de la vie des réseaux de neurones graphes. Cependant, seule une petite quantité de littérature se concentre sur l’apprentissage tout au long de la vie des modèles linguistiques. Bien que certaines revues récentes aient rassemblé la littérature la plus récente sur l'apprentissage tout au long de la vie, aucune d'entre elles n'a couvert des scénarios tels que la classification continue de textes, la reconnaissance continue d'entités nommées, l'extraction continue de relations et la traduction automatique continue. L'apprentissage tout au long de la vie basé sur la récupération est également peu abordé. .

Cette revue est la première enquête complète et systématique sur les méthodes d'apprentissage tout au long de la vie pour les grands modèles linguistiques à partir de 12 scénarios.

Dans l'ensemble, les principales contributions de la revue comprennent :

  • Classification des romans : introduction Un cadre structuré détaillé a été développé qui a divisé la vaste littérature sur l'apprentissage tout au long de la vie en 12 scénarios
  • Techniques universelles : des techniques communes à toutes les situations d'apprentissage tout au long de la vie ont été identifiées et présentées. Il existe une littérature divisée en différents ; groupes techniques dans chaque scénario ;
  • Orientations futures : accent sur certaines technologies émergentes telles que l'extension de modèle et la sélection de données, qui ont été moins explorées à l'ère pré-LLM.

1 Introduction

Cette revue est systématiquement résumée. Les méthodes technologiques d’apprentissage tout au long de la vie existantes sont divisées en deux catégories : les connaissances internes et les connaissances externes dans la figure 2.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

  • Les connaissances internes font référence à l'absorption de nouvelles connaissances dans les paramètres du modèle par le biais d'une formation complète ou partielle, y compris une pré-formation continue et un réglage fin continu.
  • Les connaissances externes font référence à l'incorporation de nouvelles connaissances provenant de ressources externes telles que Wikipédia ou des interfaces de programmes d'application dans le modèle sans mettre à jour les paramètres du modèle, y compris l'apprentissage tout au long de la vie basé sur la récupération et les outils d'apprentissage tout au long de la vie.

Connaissances internes

1. 🎜>

  • Préformation continue dans le domaine vertical : pour des domaines verticaux spécifiques (tels que la finance, la médecine, etc.).
  • Préformation continue dans le domaine du langage : Préformation continue pour le langage naturel et le langage codé.
  • Pré-entraînement continu du domaine temporel : pré-entraînement continu pour les données liées au temps (telles que les données de séries chronologiques).

2. Affinement continu :

     Spécifique à la tâche :

    Classification continue de texte : pour les tâches de classification de texte Affinement continu.
  • Reconnaissance continue d'entités nommées : ajustement continu des tâches de reconnaissance d'entités nommées.
  • Extraction continue de relations : réglage fin continu des tâches d'extraction de relations.
  • Traduction automatique continue : ajustement continu des tâches de traduction automatique.

    Agnostique de la tâche :

    Réglage continu des instructions : l'apprentissage continu du modèle est obtenu grâce à un réglage fin des instructions.
  • Édition continue des connaissances : Apprentissage continu pour la mise à jour des connaissances.
  • Alignement continu : apprentissage continu pour aligner le modèle avec de nouvelles tâches.

Connaissance externe (Connaissance externe)

1. Apprentissage tout au long de la vie basé sur la récupération : apprentissage tout au long de la vie obtenu en récupérant des bases de connaissances externes.

2. Apprentissage tout au long de la vie basé sur des outils : apprentissage tout au long de la vie obtenu en faisant appel à des outils externes.

2. Aperçu de l'apprentissage tout au long de la vie

2.1 Définition du problème

L'objectif de l'apprentissage tout au long de la vie est d'apprendre un modèle de langage à partir d'une série de tâches et de générer un résultat cible en saisissant un langage naturel. Plus précisément, pour les tâches de génération, telles que les questions et les réponses, l'entrée et la sortie représentent respectivement les questions et les réponses ; pour les tâches de traduction automatique, l'entrée et la sortie représentent la langue source et la langue cible pour les tâches de classification de texte, l'entrée est le contenu du texte et la langue cible ; la sortie est des étiquettes de catégorie ; Pour la tâche de pré-entraînement du modèle de langage autorégressif, l'entrée est une série de jetons et la sortie est le jeton suivant correspondant.

2.2 Indicateurs d'évaluation

L'aperçu introduit l'évaluation tout au long de la vie Les indicateurs de l'effet d'apprentissage sont principalement évalués sous trois angles : performance globale, stabilité et adaptabilité :

    Mesure globale : y compris Précision moyenne (AA) et moyenne précision incrémentielle (AIA). AA fait référence à la performance moyenne du modèle après l'apprentissage de toutes les tâches, tandis que AIA prend en compte les changements historiques après l'apprentissage de chaque tâche.
  • Mesure de stabilité : y compris la mesure de l'oubli (FGT) et le transfert vers l'arrière (BWT). FGT évalue la dégradation moyenne des performances des anciennes tâches, tandis que BWT évalue le changement moyen des performances des anciennes tâches.
  • Mesure de plasticité : y compris le transfert vers l'avant (FWD), qui est l'amélioration moyenne des performances du modèle sur de nouvelles tâches.

2.3 Technologie générale

Résumé dans la figure 3 Quatre Il a été démontré que les principales méthodes d'apprentissage tout au long de la vie traitent le problème d'oubli catastrophique des grands modèles de langage lors du traitement de tâches continues (Tâche
t-1
à Tâche t). Voici une explication de chaque méthode :

(a) Méthodes basées sur la relecture :

  • Signification : Cette méthode est utilisée lors de l'entraînement de nouvelles tâches. Rejouez les données des tâches précédentes pour consolider le mémoire du modèle des anciennes tâches. Habituellement, les données rejouées sont stockées dans un tampon et utilisées pour l'entraînement avec les données de la tâche en cours. Incluent principalement :

– Replay d'expérience : réduisez les oublis en enregistrant une partie des échantillons de données d'anciennes tâches et en réutilisant ces données pour l'entraînement lors de l'entraînement de nouvelles tâches.

–Relecture générative : contrairement à la sauvegarde d'anciennes données, cette méthode utilise un modèle génératif pour créer des pseudo-échantillons, introduisant ainsi la connaissance des anciennes tâches dans l'entraînement de nouvelles tâches.

  • Illustration : La figure 3 montre le processus de la tâche t-1 à la tâche t Le modèle entraîne la tâche lorsque t. , les anciennes données du tampon (Input t-1 ) sont utilisées.

(b) Méthodes basées sur la régularisation :

  • Signification : Cette méthode empêche le modèle de surajuster les anciens paramètres de tâche lors de l'apprentissage d'une nouvelle tâche en imposant des contraintes de régularisation sur les paramètres du modèle. Les contraintes de régularisation peuvent aider le modèle à conserver la mémoire des anciennes tâches. Incluent principalement :

– Régularisation des poids : en imposant des contraintes supplémentaires sur les paramètres du modèle, elle limite la modification des poids importants lors de l'entraînement de nouvelles tâches, protégeant ainsi l'intégrité des anciennes tâches. Par exemple, la régularisation L2 et la consolidation élastique du poids (EWC) sont des techniques courantes.

–Régularisation des fonctionnalités : la régularisation peut non seulement agir sur les poids, mais également garantir que la répartition des fonctionnalités entre les nouvelles et les anciennes tâches reste stable en limitant les performances du modèle dans l'espace des fonctionnalités.

  • Illustration : La figure 3 montre le processus de la tâche t-1 à la tâche t Le modèle entraîne la tâche lorsque t. , la régularisation des paramètres est utilisée pour maintenir les performances sur la tâche t-1.

(c) Méthodes basées sur l'architecture :

整合 200 多项相关研究,大模型「终生学习」最新综述来了

  • Signification : Cette approche se concentre sur l'adaptation de la structure du modèle pour intégrer de manière transparente de nouvelles tâches tout en minimisant les interférences avec les connaissances précédemment acquises. Il comprend principalement les six méthodes de la figure 4 :

–(a) Réglage des invites : en ajoutant des « invites logicielles » avant la saisie du modèle, pour guider les tâches de génération ou de classification du modèle. Cette méthode nécessite uniquement d'ajuster un petit nombre de paramètres (c'est-à-dire des mots d'invite) sans modifier la structure principale du modèle.

–(b) Réglage du préfixe : ajoutez des paramètres réglables entraînés à la partie préfixe de la séquence d'entrée. Ces paramètres sont insérés dans le mécanisme d'auto-attention de la couche Transformer pour aider le modèle à mieux capturer les informations contextuelles.

–(c) Adaptation de bas rang (LoRA, Low-Rank Adaptation) : LoRA s'adapte aux nouvelles tâches en ajoutant des matrices de bas rang à des niveaux spécifiques sans changer les poids principaux du grand modèle. Cette approche réduit considérablement le nombre d'ajustements de paramètres tout en maintenant les performances du modèle.

–(d) Adaptateurs : les adaptateurs sont des modules pouvant être entraînés insérés entre différentes couches du modèle. Ces modules peuvent s'adapter avec un petit nombre de paramètres supplémentaires sans modifier les poids du modèle d'origine. Généralement appliqué dans les parties FFN (Feed Forward Network) et MHA (Multi-Head Attention).

–(e) Mélange d'experts : Traitez différentes entrées en activant sélectivement certains modules « experts », qui peuvent être des couches ou des sous-réseaux spécifiques dans le modèle. Le module Routeur est chargé de décider quel module expert doit être activé.

–(f) Extension du modèle : augmentez la capacité du modèle en ajoutant un nouveau calque (Nouveau calque) tout en conservant le calque d'origine (Ancien calque). Cette approche permet au modèle d'augmenter progressivement sa capacité à répondre à des exigences de tâches plus complexes.

  • Illustration : La figure 3 montre le processus de la tâche t-1 à la tâche t Lorsque le modèle apprend une nouvelle tâche, certains paramètres sont gelés, tandis que le module nouvellement ajouté est utilisé pour former de nouvelles tâches (Trainable).

(d) Méthodes basées sur la distillation :

  • Signification : Cette méthode transfère les connaissances de l’ancien modèle vers le nouveau modèle par distillation des connaissances. Lors de la formation d'une nouvelle tâche, le nouveau modèle apprend non seulement les données de la tâche en cours, mais imite également la sortie de l'ancien modèle pour l'ancienne tâche, conservant ainsi la connaissance de l'ancienne tâche. Comprend principalement :

– Distillation à partir de nouvelles données : le modèle étudiant apprend de nouvelles tâches sous la direction du modèle enseignant et distille les anciennes connaissances du modèle de données pour réduire l’oubli des connaissances anciennes.

– Distillation à partir d'anciennes données : utiliser les performances du modèle d'enseignant sur d'anciennes données pour guider le modèle d'élève dans l'apprentissage de nouvelles tâches, conservant ainsi les anciennes données. L'effet de la connaissance .

– Distillation à partir de données pseudo-anciennes : En générant des données pseudo-anciennes (Pseudo-Old Data), le modèle étudiant peut apprendre de nouvelles tâches Garder vivante la mémoire des anciennes connaissances .

  • Illustration : La figure 3 montre la transition de la tâche t-1 à la tâche t Dans le Dans ce processus, lorsque le modèle entraîne une nouvelle tâche, il maintient la connaissance de l'ancienne tâche en imitant les résultats de prédiction de l'ancien modèle.

3. Pré-formation continue

Pré-formation continue -formation Les connaissances internes des grands modèles de langage peuvent être mises à jour sans encourir le coût élevé d'une pré-formation complète, améliorant ainsi les capacités des grands modèles de langage. Les recherches actuelles couvrent les domaines verticaux, linguistiques et temporels, abordant des questions difficiles telles que l'oubli catastrophique et l'adaptation temporelle. Les technologies telles que la relecture de l'expérience, la distillation des connaissances, le réglage fin efficace des paramètres, l'expansion et le réchauffage du modèle ont montré de bonnes perspectives.

3.1 Pré-entraînement en champ vertical continu

Pré-entraînement en champ vertical continu -training (Continual Vertical Domain Pretraining) vise à garantir que le modèle fonctionne bien dans plusieurs domaines ou tâches verticaux en formant en continu des modèles de langage sur une série d'ensembles de données spécifiques au domaine, tout en conservant les connaissances précédemment acquises.

Méthodes principales :

1. Réglage précis des paramètres :

  • Exemple : CorpusBrain++ utilise une architecture d'adaptateur de base et une stratégie de relecture d'expérience pour aborder des tâches linguistiques à forte intensité de connaissances du monde réel.
  • Exemple : Med-PaLM introduit le réglage des invites d'instructions dans le domaine médical en utilisant un petit nombre d'exemples.

2. Extension du modèle :

  • Exemple : ELLE adopte une stratégie d'expansion de modèle préservant les fonctionnalités pour améliorer l'efficacité de l'acquisition et de l'intégration des connaissances en élargissant de manière flexible la largeur et la profondeur des modèles linguistiques pré-entraînés existants.
  • Exemple : LLaMA Pro excelle dans les tâches d'utilisation générale, de programmation et de mathématiques en étendant le bloc Transformer et en l'affinant avec un nouveau corpus.

3. Réchauffement :

  • Exemple : La stratégie proposée par Gupta et al. ajuste le taux d'apprentissage lors de l'introduction de nouveaux ensembles de données pour éviter que le taux d'apprentissage ne soit trop faible lors d'une formation à long terme, améliorant ainsi l'effet d'adaptation aux nouveaux ensembles de données.

4. Sélection des données :

  • Exemple : RHO -1 est formé avec un modèle de langage sélectif (SLM), qui donne la priorité aux jetons qui ont un plus grand impact sur le processus de formation.
  • Exemple : EcomGPT-CT améliore les performances du modèle sur des tâches spécifiques à un domaine avec des données de commerce électronique semi-structurées.

3.2 Pré-formation dans le domaine linguistique continu

La pré-formation continue du domaine linguistique (Continual Language Domain Pretraining) vise à permettre au modèle linguistique d'intégrer en permanence de nouvelles données et de s'adapter à l'évolution du domaine linguistique sans oublier les connaissances antérieures.

Principales méthodes :

1. Méthodes basées sur l'architecture :

  • Exemple : Yadav et al. améliorent le réglage des invites en introduisant un mécanisme de forçage des enseignants, créant un ensemble d'invites pour guider le réglage fin du modèle sur de nouvelles tâches.
  • Exemple : ModuleFormer et Lifelong-MoE utilisent une approche mixte d'experts (MoE) pour améliorer l'efficacité et l'adaptabilité du LLM grâce à la modularité et à l'augmentation dynamique de la capacité du modèle.

2. Réchauffement :

  • Exemple : La méthode de réchauffement proposée par Ibrahim et al. aide le modèle à s'adapter plus rapidement aux nouvelles langues en augmentant temporairement le taux d'apprentissage lors de la formation de nouvelles données.

3.3 Pré-formation continue dans le domaine temporel

Continu time Le pré-entraînement continu du domaine temporel implique la mise à jour continue du modèle de langage pour maintenir son exactitude et sa pertinence sur les données sensibles au temps.

Principaux défis :

Dégradation des performances : L'étude de Lazaridou et al. le modèle sur les données futures Les performances chutent significativement, mettant en évidence la difficulté du LLM en généralisation temporelle.
2. Amélioration limitée : Röttger et al. ont constaté que bien que l'adaptation temporelle présente une légère amélioration par rapport à la tâche de modèle de langage de masque, par rapport à l'adaptation de domaine pure, l'amélioration des performances des tâches en aval n'est pas significative.

A travers ces méthodes et recherches, l'auteur démontre les méthodes et les défis de la pré-formation continue dans différentes dimensions, et met l'accent sur les applications dans le domaine vertical, le domaine linguistique et le domaine temporel. La nécessité et l'efficacité de l'apprentissage tout au long de la vie.

4. Un affinement continu

Une pré-formation continue peut améliorer les éléments internes des grands modèles de langage La connaissance, sur cette base, un ajustement continu améliore la connaissance interne du grand modèle de langage et adapte le grand modèle de langage à des tâches spécifiques telles que la classification de texte, la reconnaissance d'entités nommées, l'extraction de relations, la traduction automatique ou les tâches de génération générale tels que l'ajustement des instructions, les connaissances éditées et alignées sur les préférences humaines. Pour faire face à des défis tels que l'oubli catastrophique et l'interférence des tâches, des techniques telles que la distillation, la relecture, la régularisation, les méthodes basées sur l'architecture et les gradients sont utilisées. Les auteurs illustrent 7 scénarios de réglage fin consécutifs dans la figure 5.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

Ce diagramme montre comment sept types différents de tâches sont implémentés dans un grand modèle de langage grâce à l'apprentissage continu. Ce qui suit est une explication détaillée de chaque partie :

(a) Classification continue du texte

  • Exemple : une tâche de classification de texte continue entraîne le modèle en introduisant progressivement de nouvelles catégories de classification (telles que Intention : Transfert -> Intention : Pointage de crédit -> Intention : Fait amusant) afin qu'il puisse s'adapter aux besoins changeants de classification.

(b) Reconnaissance continue d'entités nommées

  • Exemple : La tâche continue de reconnaissance d'entités nommées montre comment introduire progressivement de nouveaux types d'entités (tels que Athlète -> Équipe sportive -> Politicien) tout en reconnaissant des entités spécifiques, de sorte que le modèle puisse toujours maintenir la reconnaissance des anciennes entités tout en reconnaissant la capacité des nouvelles entités. .

(c) Extraction de relations continues

  • Exemple : La tâche d'extraction continue de relations montre comment le modèle étend progressivement ses capacités d'extraction de relations en introduisant continuellement de nouveaux types de relations (tels que Relation : Fondé par -> Relation : État ou province de naissance -> Relation : Pays du siège social).

(d) Édition continue des connaissances

  • Exemple : La tâche d'édition continue des connaissances garantit qu'elle peut répondre avec précision aux faits les plus récents en mettant continuellement à jour la base de connaissances du modèle (telle que Qui est le président des États-Unis ? -> Pour quel club Cristiano Ronaldo joue-t-il actuellement ? -> Où s'est passé le dernier hiver Jeux olympiques organisés ?).

(e) Traduction automatique continue

  • Exemple : La tâche de traduction automatique continue démontre l'adaptabilité du modèle dans un environnement multilingue en étendant progressivement les capacités de traduction du modèle dans différentes langues (telles que anglais -> chinois, anglais -> espagnol, anglais -> français).

(f) Mise au point de l'enseignement continu

  • Exemple : La tâche de réglage fin de l'instruction continue entraîne les capacités de performance du modèle dans plusieurs types de tâches en introduisant progressivement de nouveaux types d'instructions (tels que Résumation -> Transfert de style -> Mathématiques).

(g) Alignement continu

  • Exemple : Continu La tâche d'alignement démontre les capacités d'apprentissage continu du modèle selon différentes normes morales et comportementales en introduisant de nouveaux objectifs d'alignement (tels que Utile et inoffensif -> Concis et organisé -> Sentiment positif).

5.Connaissances externes

Pré-formation continue Un ajustement continu est crucial pour l'apprentissage tout au long de la vie du LLM. Cependant, à mesure que le LLM devient plus grand et plus puissant, deux directions émergentes deviennent de plus en plus populaires. Elles peuvent exécuter de grands paramètres de modèle de langage sans les modifier. grands modèles de langage. Les auteurs considèrent l’apprentissage tout au long de la vie basé sur la récupération et l’apprentissage tout au long de la vie basé sur des outils, car les deux approches sont des moyens prometteurs de parvenir à un apprentissage tout au long de la vie en LLM. La figure 6 illustre les deux approches.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

Retrieval-basiertes lebenslanges Lernen

  • Einführung: Mit der kontinuierlichen Zunahme der Informationen in der Welt nehmen sie zu und entwickeln sich weiter Statische Modelle, die auf historischen Daten trainiert wurden, veralten schnell schnell und sind nicht mehr in der Lage, neue Entwicklungen zu verstehen oder Inhalte darüber zu generieren. Das auf Abruf basierende lebenslange Lernen befasst sich mit dem dringenden Bedarf großer Sprachmodelle, das neueste Wissen aus externen Quellen zu erwerben und zu assimilieren, und das Modell ergänzt oder aktualisiert seine Wissensbasis, indem es diese externen Ressourcen bei Bedarf abruft. Diese externen Ressourcen bieten eine große aktuelle Wissensbasis und stellen eine wichtige Ergänzung zur Verbesserung der statischen Eigenschaften vorab trainierter LLMs dar.
  • Beispiel: Diese externen Ressourcen im Diagramm sind für das Modell zugänglich und abrufbar. Durch den Zugriff auf externe Informationsquellen wie Wikipedia, Bücher, Datenbanken usw. ist das Modell in der Lage, sein Wissen zu aktualisieren und sich anzupassen, wenn es auf neue Informationen stößt.

Werkzeugbasiertes lebenslanges Lernen

  • Einleitung: Toolbasiertes lebenslanges Lernen entsteht aus der Notwendigkeit, seine Funktionalität über statisches Wissen hinaus zu erweitern und es in die Lage zu versetzen, dynamisch mit der Umwelt zu interagieren. In realen Anwendungen müssen Modelle häufig Aufgaben ausführen, die über die direkte Textgenerierung oder -interpretation hinausgehen.
  • Beispiel: Das Modell in der Abbildung nutzt diese Tools, um seine eigenen Fähigkeiten zu erweitern und zu aktualisieren und so lebenslanges Lernen durch Interaktion mit externen Tools zu ermöglichen. Beispielsweise können Modelle über Anwendungsprogrammierschnittstellen Echtzeitdaten abrufen oder über physische Werkzeuge mit der externen Umgebung interagieren, um bestimmte Aufgaben zu erledigen oder neues Wissen zu erwerben.

6. Diskussion und Fazit

6.1 Hauptherausforderungen

  • Katastrophales Vergessen: Dies ist eine der zentralen Herausforderungen des lebenslangen Lernens, und die Einführung neuer Informationen kann überschreiben was das Modell zuvor gelernt hat.
  • Plastizität-Stabilitäts-Dilemma: Es ist sehr wichtig, ein Gleichgewicht zwischen der Aufrechterhaltung der Lernfähigkeit und der Stabilität des Modells zu finden, was sich direkt auf die Fähigkeit des Modells auswirkt, neues Wissen zu erwerben und gleichzeitig sein Wissen zu behalten breite allgemeine Fähigkeiten.
  • Hohe Rechenkosten: Die Rechenanforderungen für die vollständige Feinabstimmung eines großen Sprachmodells können sehr hoch sein.
  • Nichtverfügbarkeit von Modellgewichten oder vorab trainierten Daten: Aufgrund von Datenschutz, proprietären Einschränkungen oder kommerziellen Lizenzen sind rohe Trainingsdaten oder Modellgewichte oft nicht für weitere Verbesserungen verfügbar.

6.2 Aktuelle Trends

  • Von spezifischen Aufgaben zu allgemeinen Aufgaben: Die Forschung verlagert sich allmählich von der Konzentration auf spezifische Aufgaben (z. B. Textklassifizierung, Erkennung benannter Entitäten) hin zu einem breiteren Spektrum allgemeiner Aufgaben, z. B. Anleitungsoptimierung, Wissensbearbeitung usw.
  • Von der vollständigen Feinabstimmung zur teilweisen Feinabstimmung: Angesichts des hohen Ressourcenverbrauchs der vollständigen Feinabstimmung werden teilweise Feinabstimmungsstrategien (z. B. Adapterschicht, Prompt-Tuning, LoRA) erfreuen sich immer größerer Beliebtheit.
  • Von internem Wissen zu externem Wissen: Um die Einschränkungen häufiger interner Aktualisierungen zu überwinden, nutzen immer mehr Strategien externe Wissensquellen, wie z. B. Retrieval-Augmented Generation und Tools, die das Lernen ermöglichen um dynamisch auf aktuelle externe Daten zuzugreifen und diese zu nutzen.

6.3 Zukünftige Ausrichtung

  • Multimodales lebenslanges Lernen: Integrieren Sie mehrere über Text hinausgehende Modalitäten (wie Bilder, Videos, Audios, Zeitreihendaten, Wissensdiagramme) in lebenslanges Lernen, um ein umfassenderes und anpassungsfähigeres Sexualmodell zu entwickeln.
  • Effizientes lebenslanges Lernen: Forscher arbeiten an der Entwicklung effizienterer Strategien zur Bewältigung der Rechenanforderungen von Modelltraining und -aktualisierungen, wie z. B. Modellbereinigung, Modellzusammenführung, Modellerweiterung und andere Methoden.
  • Universelles lebenslanges Lernen: Das ultimative Ziel besteht darin, großen Sprachmodellen die Möglichkeit zu geben, sich aktiv neues Wissen anzueignen und durch dynamische Interaktion mit der Umgebung zu lernen, ohne sich mehr nur auf statische Datensätze zu verlassen.

6.4 Fazit

Der Autor teilt die vorhandene Forschung auf into Es bietet eine umfassende Zusammenfassung von 12 Szenarien für lebenslanges Lernen. Die Analyse unterstreicht auch die Notwendigkeit, ein Gleichgewicht zwischen der Bewältigung des katastrophalen Vergessens, der Gewährleistung der Recheneffizienz und zwischen Spezifität und Allgemeingültigkeit beim Wissenserwerb aufrechtzuerhalten. Während sich das Gebiet weiterentwickelt, wird die Integration dieser fortschrittlichen Strategien eine Schlüsselrolle bei der Gestaltung der nächsten Generation künstlicher Intelligenzsysteme spielen und ihnen helfen, einem wirklich menschenähnlichen Lernen und Anpassungsfähigkeit näher zu kommen.

Durch eine detaillierte Untersuchung dieser technologischen Ansätze und ihrer jeweiligen Kategorien zielt dieser Bericht darauf ab, die Integration von Fähigkeiten des lebenslangen Lernens in Tools für lebenslanges Lernen hervorzuheben und so deren reale Welt zu verbessern Anpassungsfähigkeit, Zuverlässigkeit und Gesamtleistung in der Anwendung.Gleichzeitig bietet es Forschern und Ingenieuren eine umfassende Perspektive, die ihnen hilft, die Technologie des lebenslangen Lernens besser zu verstehen und anzuwenden und die Weiterentwicklung großer Sprachmodelle zu fördern. Wenn Sie an dem Artikel interessiert sind, können Sie sich das Originalpapier ansehen, um mehr über die Forschung zu erfahren.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn