ホームページ  >  記事  >  テクノロジー周辺機器  >  200以上の関連研究を統合した、大規模モデル「生涯学習」の最新レビューはこちら

200以上の関連研究を統合した、大規模モデル「生涯学習」の最新レビューはこちら

WBOY
WBOYオリジナル
2024-09-02 15:24:03178ブラウズ
整合 200 多项相关研究,大模型「终生学习」最新综述来了

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

该论文作者均来自于华南理工大学马千里教授团队,所在实验室为机器学习与数据挖掘实验室。论文的三位共同第一作者为博士生郑俊豪、硕士生邱圣洁、硕士生施成明,主要研究方向包括大模型和终生学习等,通讯作者为马千里教授(IEEE/ACM TASLP 副主编)。马千里教授团队近年来在国际权威期刊(如 TPAMI 等)和国际顶级学术会议(如 NeurIPS、AAAI、IJCAI、ACL、KDD、ICDE 等)上发表多篇 Time Series/NLP/Recommendation System 相关的研究工作,和国内外知名高校、科研机构广泛开展合作。

随着大语言模型在各个领域应用的不断拓展,如何让这些模型能够连续适应数据、任务和用户偏好的变化成为一个关键问题。传统的静态数据集训练方法已经无法满足现实世界的动态需求。

为了解决这一挑战,终生学习(Lifelong Learning)或连续学习(Continual Learning)技术应运而生。它能让大语言模型在其工作寿命中不断学习和适应,在整合新知识的同时保留以前学习过的信息,防止灾难性遗忘(Catastrophic Forgetting)。

最近,来自华南理工大学的研究者调研、整理并总结了大语言模型(LLMs)的终生学习(Lifelong Learning)方法及其发展前景,并将其总结为一篇全面且前沿的综述。

整合 200 多项相关研究,大模型「终生学习」最新综述来了

  • 论文标题:Towards Lifelong Learning of Large Language Models: A Survey
  • 机构:华南理工大学
  • 论文地址:https://arxiv.org/abs/2406.06391
  • 项目地址:https://github.com/qianlima-lab/awesome-lifelong-learning-methods-for-llm

图 1 展示了终生学习(Lifelong Learning)在大语言模型和人类学习过程中的类比。图中通过两条平行的学习路径来展示人类和大语言模型在终生学习中的进化过程。

整合 200 多项相关研究,大模型「终生学习」最新综述来了

Apprentissage humain

1. Marcher : les humains commencent à apprendre à partir des compétences les plus élémentaires (telles que la marche).
2. Faire du vélo : au fur et à mesure que l'apprentissage progresse, les humains maîtrisent des compétences plus complexes (comme faire du vélo).
3. Conduire une voiture : à terme, les humains peuvent maîtriser des compétences plus complexes et avancées (telles que la conduite automobile).

Chaque étape représente le processus par lequel les humains continuent d'acquérir de nouvelles compétences et connaissances dans le processus d'apprentissage tout au long de la vie.

Apprentissage de grands modèles de langage (LLMs Learning)

1. Nouveau langage (Nouveau Langue) : les grands modèles de langage commencent par l'apprentissage de nouvelles langues (comme apprendre à traiter différentes langues naturelles).
2. Nouveau domaine : Ensuite, le modèle apprend de nouvelles connaissances dans un domaine (comme l'extension du traitement du langage naturel au domaine médical).
3. Nouvelles informations : En fin de compte, le modèle peut apprendre et intégrer de nouvelles informations, qu'il s'agisse de langue ou de domaine.

Chaque étape représente le processus du grand modèle linguistique qui élargit et met à jour continuellement les connaissances dans le processus d'apprentissage tout au long de la vie. Ce diagramme met l'accent sur le processus d'apprentissage tout au long de la vie : L'apprentissage tout au long de la vie est un processus continu qui couvre une évolution étape par étape du niveau de base au niveau avancé. L’apprentissage tout au long de la vie n’est pas une simple accumulation de connaissances, mais un processus dynamique et évolutif.

Ces dernières années, l'apprentissage tout au long de la vie est devenu un sujet de recherche de plus en plus populaire, et des enquêtes à grande échelle sur l'apprentissage tout au long de la vie par les réseaux neuronaux ont vu le jour. La plupart des recherches existantes se concentrent principalement sur divers scénarios d'application de l'apprentissage tout au long de la vie des réseaux de neurones convolutifs (CNN) et de l'apprentissage tout au long de la vie des réseaux de neurones graphes. Cependant, seule une petite quantité de littérature se concentre sur l’apprentissage tout au long de la vie des modèles linguistiques. Bien que certaines revues récentes aient rassemblé la littérature la plus récente sur l'apprentissage tout au long de la vie, aucune d'entre elles n'a couvert des scénarios tels que la classification continue de textes, la reconnaissance continue d'entités nommées, l'extraction continue de relations et la traduction automatique continue. L'apprentissage tout au long de la vie basé sur la récupération est également peu abordé. .

Cette revue est la première enquête complète et systématique sur les méthodes d'apprentissage tout au long de la vie pour les grands modèles linguistiques à partir de 12 scénarios.

Dans l'ensemble, les principales contributions de la revue comprennent :

  • Classification des romans : introduction Un cadre structuré détaillé a été développé qui a divisé la vaste littérature sur l'apprentissage tout au long de la vie en 12 scénarios
  • Techniques universelles : des techniques communes à toutes les situations d'apprentissage tout au long de la vie ont été identifiées et présentées. Il existe une littérature divisée en différents ; groupes techniques dans chaque scénario ;
  • Orientations futures : accent sur certaines technologies émergentes telles que l'extension de modèle et la sélection de données, qui étaient moins explorées à l'ère pré-LLM.

1 Introduction

Cette revue est systématiquement résumée. Les méthodes technologiques d’apprentissage tout au long de la vie existantes sont divisées en deux catégories : les connaissances internes et les connaissances externes dans la figure 2.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

  • Les connaissances internes font référence à l'absorption de nouvelles connaissances dans les paramètres du modèle par le biais d'une formation complète ou partielle, y compris une pré-formation continue et un réglage fin continu.
  • Les connaissances externes font référence à l'incorporation de nouvelles connaissances provenant de ressources externes telles que Wikipédia ou des interfaces de programmes d'application dans le modèle sans mettre à jour les paramètres du modèle, y compris l'apprentissage tout au long de la vie basé sur la récupération et les outils d'apprentissage tout au long de la vie.

Connaissances internes

1. 🎜>

  • Préformation continue dans le domaine vertical : pour des domaines verticaux spécifiques (tels que la finance, la médecine, etc.).
  • Préformation continue dans le domaine du langage : Préformation continue pour le langage naturel et le langage codé.
  • Pré-entraînement continu du domaine temporel : pré-entraînement continu pour les données liées au temps (telles que les données de séries chronologiques).

2. Affinement continu :

     Spécifique à la tâche :

    Classification continue de texte : pour les tâches de classification de texte Affinement continu.
  • Reconnaissance continue d'entités nommées : ajustement continu des tâches de reconnaissance d'entités nommées.
  • Extraction continue de relations : réglage fin continu des tâches d'extraction de relations.
  • Traduction automatique continue : ajustement continu des tâches de traduction automatique.

    Agnostique de la tâche :

    Réglage continu des instructions : l'apprentissage continu du modèle est obtenu grâce à un réglage fin des instructions.
  • Édition continue des connaissances : Apprentissage continu pour la mise à jour des connaissances.
  • Alignement continu : apprentissage continu pour aligner le modèle avec de nouvelles tâches.

Connaissance externe (Connaissance externe)

1. Apprentissage tout au long de la vie basé sur la récupération : apprentissage tout au long de la vie obtenu en récupérant des bases de connaissances externes.

2. Apprentissage tout au long de la vie basé sur des outils : apprentissage tout au long de la vie obtenu en faisant appel à des outils externes.

2. Aperçu de l'apprentissage tout au long de la vie

2.1 Définition du problème

L'objectif de l'apprentissage tout au long de la vie est d'apprendre un modèle de langage à partir d'une série de tâches et de générer un résultat cible en saisissant un langage naturel. Plus précisément, pour les tâches de génération, telles que les questions et les réponses, l'entrée et la sortie représentent respectivement les questions et les réponses ; pour les tâches de traduction automatique, l'entrée et la sortie représentent la langue source et la langue cible pour les tâches de classification de texte, l'entrée est le contenu du texte et la langue cible ; la sortie est des étiquettes de catégorie ; Pour la tâche de pré-entraînement du modèle de langage autorégressif, l'entrée est une série de jetons et la sortie est le jeton suivant correspondant.

2.2 Indicateurs d'évaluation

L'aperçu introduit l'évaluation tout au long de la vie Les indicateurs de l'effet d'apprentissage sont principalement évalués sous trois angles : performance globale, stabilité et adaptabilité :

    Mesure globale : y compris Précision moyenne (AA) et moyenne précision incrémentielle (AIA). AA fait référence à la performance moyenne du modèle après l'apprentissage de toutes les tâches, tandis que AIA prend en compte les changements historiques après l'apprentissage de chaque tâche.
  • Mesure de stabilité : y compris la mesure de l'oubli (FGT) et le transfert vers l'arrière (BWT). FGT évalue la dégradation moyenne des performances des anciennes tâches, tandis que BWT évalue le changement moyen des performances des anciennes tâches.
  • Mesure de plasticité : y compris le transfert vers l'avant (FWD), qui est l'amélioration moyenne des performances du modèle sur de nouvelles tâches.

2.3 Technologie générale

Résumé dans la figure 3 Quatre Il a été démontré que les principales méthodes d'apprentissage tout au long de la vie traitent le problème d'oubli catastrophique des grands modèles de langage lors du traitement de tâches continues (Tâche
t-1
à Tâche t). Voici une explication de chaque méthode :

(a) Méthodes basées sur la relecture :

  • Signification : Cette méthode est utilisée lors de l'entraînement de nouvelles tâches. Rejouez les données des tâches précédentes pour consolider le mémoire du modèle des anciennes tâches. Habituellement, les données rejouées sont stockées dans un tampon et utilisées pour l'entraînement avec les données de la tâche en cours. Incluent principalement :

– Replay d'expérience : réduisez les oublis en enregistrant une partie des échantillons de données d'anciennes tâches et en réutilisant ces données pour l'entraînement lors de l'entraînement de nouvelles tâches.

–Replay génératif : contrairement à la sauvegarde d'anciennes données, cette méthode utilise un modèle génératif pour créer des pseudo-échantillons, introduisant ainsi la connaissance des anciennes tâches dans l'entraînement de nouvelles tâches.

  • Illustration : La figure 3 montre le processus de la tâche t-1 à la tâche t Le modèle entraîne la tâche lorsque t. , les anciennes données du tampon (Input t-1 ) sont utilisées.

(b) Méthodes basées sur la régularisation :

  • Signification : Cette méthode empêche le modèle de surajuster les anciens paramètres de tâche lors de l'apprentissage d'une nouvelle tâche en imposant des contraintes de régularisation sur les paramètres du modèle. Les contraintes de régularisation peuvent aider le modèle à conserver la mémoire des anciennes tâches. Incluent principalement :

– Régularisation des poids : en imposant des contraintes supplémentaires sur les paramètres du modèle, elle limite la modification des poids importants lors de l'entraînement de nouvelles tâches, protégeant ainsi l'intégrité des anciennes tâches. Par exemple, la régularisation L2 et la consolidation élastique du poids (EWC) sont des techniques courantes.

–Régularisation des fonctionnalités : la régularisation peut non seulement agir sur les poids, mais également garantir que la répartition des fonctionnalités entre les nouvelles et les anciennes tâches reste stable en limitant les performances du modèle dans l'espace des fonctionnalités.

  • Illustration : La figure 3 montre le processus de la tâche t-1 à la tâche t Le modèle entraîne la tâche lorsque t. , la régularisation des paramètres est utilisée pour maintenir les performances sur la tâche t-1.

(c) Méthodes basées sur l'architecture :

整合 200 多项相关研究,大模型「终生学习」最新综述来了

  • Signification : Cette approche se concentre sur l'adaptation de la structure du modèle pour intégrer de manière transparente de nouvelles tâches tout en minimisant les interférences avec les connaissances précédemment acquises. Il comprend principalement les six méthodes de la figure 4 :

–(a) Réglage des invites : en ajoutant des « invites logicielles » avant la saisie du modèle, pour guider les tâches de génération ou de classification du modèle. Cette méthode nécessite uniquement d'ajuster un petit nombre de paramètres (c'est-à-dire des mots d'invite) sans modifier la structure principale du modèle.

–(b) Réglage du préfixe : ajoutez des paramètres réglables entraînés à la partie préfixe de la séquence d'entrée. Ces paramètres sont insérés dans le mécanisme d'auto-attention de la couche Transformer pour aider le modèle à mieux capturer les informations contextuelles.

–(c) Adaptation de bas rang (LoRA, Low-Rank Adaptation) : LoRA s'adapte aux nouvelles tâches en ajoutant des matrices de bas rang à des niveaux spécifiques sans modifier les poids principaux du grand modèle. Cette approche réduit considérablement le nombre d'ajustements de paramètres tout en maintenant les performances du modèle.

–(d) Adaptateurs : les adaptateurs sont des modules pouvant être entraînés insérés entre différentes couches du modèle. Ces modules peuvent s'adapter avec un petit nombre de paramètres supplémentaires sans modifier les poids du modèle d'origine. Généralement appliqué dans les parties FFN (Feed Forward Network) et MHA (Multi-Head Attention).

–(e) Mélange d'experts : Traitez différentes entrées en activant sélectivement certains modules « experts », qui peuvent être des couches ou des sous-réseaux spécifiques dans le modèle. Le module Routeur est chargé de décider quel module expert doit être activé.

–(f) Extension du modèle : augmentez la capacité du modèle en ajoutant un nouveau calque (Nouveau calque) tout en conservant le calque d'origine (Ancien calque). Cette approche permet au modèle d'augmenter progressivement sa capacité à répondre à des exigences de tâches plus complexes.

  • Abbildung: Abbildung 3 zeigt den Prozess von Aufgabe t-1 bis Aufgabe t Wenn das Modell eine neue Aufgabe lernt, werden einige Parameter eingefroren. während das neu hinzugefügte Modul zum Trainieren neuer Aufgaben verwendet wird (trainierbar).

(d) Destillationsbasierte Methoden:

  • Bedeutung: Diese Methode überträgt das Wissen des alten Modells durch Wissensdestillation auf das neue Modell. Beim Training einer neuen Aufgabe lernt das neue Modell nicht nur die Daten der aktuellen Aufgabe, sondern ahmt auch die Ausgabe des alten Modells für die alte Aufgabe nach und behält so das Wissen der alten Aufgabe bei. Dazu gehören hauptsächlich:

– Destillation aus neuen Daten: Das Schülermodell lernt unter Anleitung des Lehrermodells neue Aufgaben und destilliert altes Modellwissen um das Vergessen alten Wissens zu reduzieren.

– Destillation aus alten Daten: Nutzen Sie die Leistung des Lehrermodells anhand alter Daten, um das Schülermodell beim Erlernen neuer Aufgaben anzuleiten und so die alten Daten beizubehalten. Die Wirkung von Wissen .

–Destillation aus Pseudo-Altdaten: Durch die Generierung von Pseudo-Altdaten (Pseudo-Altdaten) kann das Schülermodell neue Aufgaben erlernen und die Erinnerung an altes Wissen lebendig halten .

  • Abbildung: Abbildung 3 zeigt den Übergang von Task t-1 zu Task t im Wenn das Modell eine neue Aufgabe trainiert, behält es das Wissen über die alte Aufgabe bei, indem es die Vorhersageergebnisse des alten Modells imitiert.

3. Kontinuierliches Vortraining

Kontinuierliches Vortraining -Training Das interne Wissen großer Sprachmodelle kann aktualisiert werden, ohne dass die hohen Kosten einer umfassenden Vorschulung anfallen, wodurch die Fähigkeiten großer Sprachmodelle verbessert werden. Die aktuelle Forschung umfasst vertikale, sprachliche und zeitliche Bereiche und befasst sich mit schwierigen Themen wie katastrophalem Vergessen und zeitlicher Anpassung. Technologien wie Erfahrungswiedergabe, Wissensdestillation, effiziente Feinabstimmung von Parametern, Modellerweiterung und Wiedererwärmung haben gute Aussichten gezeigt.

3.1 Kontinuierliches Vertikalfeld-Vortraining

Kontinuierliches Vertikalfeld-Vortraining -training (Continual Vertical Domain Pretraining) zielt darauf ab, sicherzustellen, dass das Modell in mehreren vertikalen Feldern oder Aufgaben eine gute Leistung erbringt, indem Sprachmodelle kontinuierlich anhand einer Reihe domänenspezifischer Datensätze trainiert werden und gleichzeitig zuvor erworbenes Wissen erhalten bleibt.

Hauptmethoden:

1. Parametereffiziente Feinabstimmung:

  • Beispiel: CorpusBrain++ verwendet eine Backbone-Adapter-Architektur und eine Erfahrungswiedergabestrategie, um wissensintensive Sprachaufgaben in der Praxis zu bewältigen.
  • Beispiel: Med-PaLM führt anhand einer kleinen Anzahl von Beispielen die Abstimmung von Anweisungen zur Eingabeaufforderung im medizinischen Bereich ein.

2. Modellerweiterung:

  • Beispiel: ELLE wendet eine funktionserhaltende Modellerweiterungsstrategie an, um die Effizienz des Wissenserwerbs und der Wissensintegration zu verbessern, indem die Breite und Tiefe vorhandener vorab trainierter Sprachmodelle flexibel erweitert wird.
  • Beispiel: LLaMA Pro zeichnet sich durch die Erweiterung des Transformer-Blocks und die Feinabstimmung mit einem neuen Korpus im allgemeinen Gebrauch sowie bei Programmier- und Mathematikaufgaben aus.

3. Wiedererwärmung:

  • Beispiel: Die von Gupta et al. vorgeschlagene Strategie passt die Lernrate bei der Einführung neuer Datensätze an, um zu verhindern, dass die Lernrate während des Langzeittrainings zu niedrig ist, und verbessert so den Effekt der Anpassung an neue Datensätze.

4. Datenauswahl:

  • Beispiel: RHO -1 wird mit einem Selective Language Model (SLM) trainiert, das Token priorisiert, die einen größeren Einfluss auf den Trainingsprozess haben.
  • Beispiel: EcomGPT-CT verbessert die Modellleistung bei domänenspezifischen Aufgaben mit halbstrukturierten E-Commerce-Daten.

3.2 Vorschulung im kontinuierlichen Sprachbereich

Kontinuierliches Sprachdomänen-Vortraining (Continual Language Domain Pretraining) zielt darauf ab, das Sprachmodell in die Lage zu versetzen, kontinuierlich neue Daten zu integrieren und sich an die sich ändernde Sprachdomäne anzupassen, ohne Vorkenntnisse zu vergessen.

Hauptmethoden:

1. Architekturbasierte Methoden:

  • Beispiel: Yadav et al. verbessern die Abstimmung von Eingabeaufforderungen, indem sie einen Mechanismus zur Lehrererzwingung einführen und eine Reihe von Eingabeaufforderungen erstellen, um die Feinabstimmung des Modells bei neuen Aufgaben zu steuern.
  • Beispiel: ModuleFormer und Lifelong-MoE verwenden einen Mix-of-Experts-Ansatz (MoE), um die Effizienz und Anpassungsfähigkeit von LLM durch Modularität und dynamisch steigende Modellkapazität zu verbessern.

2. Réchauffement :

  • Exemple : La méthode de réchauffement proposée par Ibrahim et al. aide le modèle à s'adapter plus rapidement aux nouvelles langues en augmentant temporairement le taux d'apprentissage lors de la formation de nouvelles données.

3.3 Pré-formation continue dans le domaine temporel

Continu time Le pré-entraînement continu dans le domaine temporel implique la mise à jour continue du modèle de langage pour maintenir son exactitude et sa pertinence sur les données sensibles au temps.

Principaux défis :

Dégradation des performances : L'étude de Lazaridou et al. le modèle sur les données futures Les performances chutent significativement, mettant en évidence la difficulté du LLM en généralisation temporelle.
2. Amélioration limitée : Röttger et al. ont constaté que bien que l'adaptation temporelle présente une légère amélioration par rapport à la tâche de modèle de langage de masque, par rapport à l'adaptation de domaine pure, l'amélioration des performances des tâches en aval n'est pas significative.

À travers ces méthodes et recherches, l'auteur démontre les méthodes et les défis de la pré-formation continue dans différentes dimensions, et met l'accent sur les applications dans le domaine vertical, le domaine linguistique et le domaine temporel. La nécessité et l'efficacité de l'apprentissage tout au long de la vie.

4. Un affinement continu

Une pré-formation continue peut améliorer les éléments internes des grands modèles de langage La connaissance, sur cette base, un ajustement continu améliore la connaissance interne du grand modèle de langage et adapte le grand modèle de langage à des tâches spécifiques telles que la classification de texte, la reconnaissance d'entités nommées, l'extraction de relations, la traduction automatique ou les tâches de génération générale tels que l'ajustement des instructions, les connaissances éditées et alignées sur les préférences humaines. Pour faire face à des défis tels que l'oubli catastrophique et l'interférence des tâches, des techniques telles que la distillation, la relecture, la régularisation, les méthodes basées sur l'architecture et les gradients sont utilisées. Les auteurs illustrent 7 scénarios de réglage fin consécutifs dans la figure 5.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

この図は、7 つの異なるタイプのタスクが継続的な学習を通じて大規模な言語モデルにどのように実装されるかを示しています。以下に各部の詳細を説明します。

(a) 連続テキスト分類

  • 例: 連続テキスト分類タスクは、変化する分類ニーズに適応できるように、新しい分類カテゴリ (目的: 転送 -> 目的: クレジット スコア -> 目的: 楽しい事実など) を徐々に導入することでモデルをトレーニングします。

(b) 継続的な固有表現認識

  • の例: 継続的な名前付きエンティティ認識タスクは、モデルが新しいエンティティの能力を認識しながら古いエンティティの認識を維持できるように、特定のエンティティを認識しながら、新しいエンティティ タイプ (スポーツ選手 -> スポーツ チーム -> 政治家など) を徐々に導入する方法を示します。 。

(c) 連続関係抽出

  • 例:継続的関係抽出タスクは、新しい関係タイプ (関係: 創設者 -> 関係: 州または出身地 -> 関係: 本社の国など) を継続的に導入することによって、モデルが関係抽出機能を徐々に拡張する方法を示します。

(d) 継続的知識編集

  • 例:継続的なナレッジ編集タスクでは、モデルのナレッジ ベースを継続的に更新することで、最新の事実に正確に答えることができます (米国の大統領は誰ですか? -> クリスティアーノ ロナウドは現在どのクラブでプレーしていますか? -> 最後の冬はどこでしたか?オリンピック開催?)

(e) 連続機械翻訳

  • 例:継続的機械翻訳タスクは、モデルの翻訳機能をさまざまな言語 (英語 -> 中国語、英語 -> スペイン語、英語 -> フランス語など) に徐々に拡張することで、多言語環境におけるモデルの適応性を実証します。

(f) 連続命令微調整

  • 例: 継続的命令微調整タスクは、新しい命令タイプ (要約 -> スタイル転送 -> 数学など) を段階的に導入することによって、複数のタスク タイプでモデルのパフォーマンス能力をトレーニングします。

(g) 連続整列

  • 例: 連続アライメント タスクは、新しいアライメント目標 (有益で無害 -> 簡潔で組織的 -> ポジティブな感情など) を導入することにより、さまざまな道徳的および行動基準の下でのモデルの継続的な学習能力を実証します。

5. 外部知識

継続的な事前トレーニングLLM の生涯学習には継続的な微調整が不可欠ですが、LLM が大きくなり強力になるにつれて、パラメータを変更せずに大規模な言語モデルを作成できる 2 つの新しい方向性がますます普及しています。言語モデル。著者らは、検索ベースの生涯学習とツールベースの生涯学習を検討しています。どちらのアプローチも、LLM で生涯学習を達成する有望な方法であるためです。図 6 は両方のアプローチを示しています。

整合 200 多项相关研究,大模型「终生学习」最新综述来了

基于检索的终生学习(Retrieval-Based Lifelong Learning)

  • 介绍:随着世界信息的不断扩大和快速发展,根据历史数据训练的静态模型很快就会过时,无法理解或生成有关新发展的内容。基于检索的终生学习解决了大型语言模型从外部来源获取和吸收最新知识的关键需求,在需要时,模型通过检索这些外部资源,来补充或更新其知识库。这些外部资源提供了一个巨大的当前知识库,为增强预训练 LLM 的静态特性提供了重要的补充资产。
  • 示例:图中的这些外部资源是模型能够访问并检索的。通过访问外部信息源,如维基百科、书籍、数据库等,模型能够更新自身的知识,并在遇到新信息时作出适应。

基于工具的终生学习(Tool-Based Lifelong Learning)

  • 介绍:基于工具的终生学习源于将其功能扩展到静态知识之外并使其能够与环境动态交互的必要性。在现实世界的应用中,模型往往需要执行一些任务,这些任务涉及直接文本生成或解释之外的操作。
  • 示例:图中模型利用这些工具来扩展和更新自身的能力,通过与外部工具的交互来实现终生学习。例如,模型可以通过应用程序编程接口获取实时数据,或通过物理工具与外部环境互动,以此来完成特定任务或获取新知识。

六、讨论与结论

6.1 主要挑战

  • 灾难性遗忘(Catastrophic Forgetting):这是终生学习的核心挑战之一,新信息的引入可能会覆盖模型之前学到的内容。
  • 可塑性 - 稳定性困境(Plasticity-Stability Dilemma):在保持模型的学习能力和稳定性之间找到平衡非常关键,这直接影响模型获取新知识的能力,同时保留其广泛的通用能力。
  • 昂贵的计算成本(Expensive Computation Cost):全量微调大语言模型的计算需求可能非常高。
  • 模型权重或预训练数据的不可用性:由于隐私、专有限制或商业许可,原始训练数据或模型权重往往不可用于进一步的改进。

6.2 当前趋势

  • 从特定任务到通用任务:研究逐渐从专注于特定任务(如文本分类、命名实体识别)转向更广泛的通用任务,如指令调优、知识编辑等。
  • 从全量微调到部分微调:鉴于全量微调的高资源消耗,部分微调策略(如 Adapter 层、Prompt 调优、LoRA)变得越来越受欢迎。
  • 从内部知识到外部知识:为了克服频繁的内部更新限制,越来越多的策略采用外部知识源,如检索增强生成(Retrieval-Augmented Generation)和工具学习,使模型能够动态访问和利用当前的外部数据。

6.3 未来方向

  • 多模态终生学习:将文本以外的多种模态(如图像、视频、音频、时间序列数据、知识图谱)整合到终生学习中,以开发更全面、更具适应性的模型。
  • 高效终生学习:研究人员正致力于开发更高效的策略来管理模型训练和更新的计算需求,如模型剪枝、模型合并、模型扩展等方法。
  • 通用终生学习:最终目标是使大语言模型能够主动获取新知识,并通过与环境的动态交互进行学习,不再仅仅依赖于静态数据集。

6.4 结论

作者将现有研究分为 12 种终生学习场景,并提供了全面的方法归纳整理。此外还分析强调了在管理灾难性遗忘、确保计算效率和在知识获取中的特定性与通用性之间维持平衡的必要性。随着领域的不断发展,这些先进策略的集成将对塑造下一代人工智能系统起到关键作用,帮助它们更接近实现真正的人类般的学习和适应能力。

通过对这些技术方法及其各自类别的详细研究,本综述旨在强调将终生学习能力整合到终生学习工具中,从而提高它们在现实世界应用中的适应性、可靠性和整体性能。同时为研究人员和工程师提供一个全面的视角,帮助他们更好地理解和应用终生学习技术,推动大语言模型的进一步发展。如果对文章感兴趣,可以查阅原始论文以了解更多研究内容。

以上が200以上の関連研究を統合した、大規模モデル「生涯学習」の最新レビューはこちらの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。