Heim >Technologie-Peripheriegeräte >KI >Mit der Integration von mehr als 200 verwandten Studien ist hier die neueste Übersicht über das große Modell „Lebenslanges Lernen'.

Mit der Integration von mehr als 200 verwandten Studien ist hier die neueste Übersicht über das große Modell „Lebenslanges Lernen'.

WBOY
WBOYOriginal
2024-09-02 15:24:03306Durchsuche
整合 200 多项相关研究,大模型「终生学习」最新综述来了

Die AIxiv-Kolumne ist eine Kolumne, in der akademische und technische Inhalte auf dieser Website veröffentlicht werden. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Die Autoren dieses Artikels stammen alle aus dem Team von Professor Ma Qianli von der South China University of Technology, und ihr Labor ist maschinelles Lernen und Data Dig the lab. Die drei Co-Erstautoren der Arbeit sind der Doktorand Zheng Junhao, der Masterstudent Qiu Shengjie und der Masterstudent Shi Chengming. Ihre Hauptforschungsrichtungen umfassen große Modelle und lebenslanges Lernen. Der korrespondierende Autor ist Professor Ma Qianli (Mitherausgeber von IEEE/). ACM TASLP). In den letzten Jahren hat das Team von Professor Ma Qianli zahlreiche Forschungsarbeiten im Zusammenhang mit Zeitreihen/NLP/Empfehlungssystem in renommierten internationalen Fachzeitschriften (wie TPAMI usw.) und auf führenden internationalen akademischen Konferenzen (wie NeurIPS, AAAI, IJCAI, ACL, Umfangreiche Kooperationen mit namhaften Universitäten und wissenschaftlichen Forschungseinrichtungen im In- und Ausland.

Da die Anwendung großer Sprachmodelle in verschiedenen Bereichen immer weiter zunimmt, stellt sich die Frage, wie diese Modelle in die Lage versetzt werden können, sich kontinuierlich an Änderungen in Daten, Aufgaben und Benutzerpräferenzen anzupassen zu einem zentralen Thema werden. Herkömmliche Trainingsmethoden für statische Datensätze können den dynamischen Anforderungen der realen Welt nicht mehr gerecht werden.

Um diese Herausforderung zu lösen, wurde die Technologie des lebenslangen Lernens oder des kontinuierlichen Lernens ins Leben gerufen. Es ermöglicht großen Sprachmodellen, während ihres Arbeitslebens kontinuierlich zu lernen und sich anzupassen, zuvor erlernte Informationen beizubehalten und gleichzeitig neues Wissen zu integrieren und katastrophales Vergessen (katastrophales Vergessen) zu verhindern.

Kürzlich untersuchten, organisierten und fassten Forscher der South China University of Technology die Methode des lebenslangen Lernens und ihre Entwicklungsaussichten für große Sprachmodelle (LLMs) zusammen und fassten sie zusammen eine umfassende und aktuelle Rezension.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

  • Papiertitel: Towards Lifelong Learning of Large Language Models: A Survey
  • Institution: Südchina University of Technology University
  • Papieradresse: https://arxiv.org/abs/2406.06391
  • Projektadresse: https://github .com/ qianlima-lab/awesome-lifelong-learning-methods-for-llm

Abbildung 1 zeigt die Anwendung von lebenslangem Lernen in großer Sprache Modelle Analogie zum menschlichen Lernprozess. Die Abbildung zeigt die Entwicklung des Menschen und großer Sprachmodelle beim lebenslangen Lernen über zwei parallele Lernpfade.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

Menschliches Lernen

1. Gehen: Der Mensch beginnt mit dem Lernen von den grundlegendsten Fähigkeiten (wie dem Gehen).
2. Fahrrad fahren: Mit fortschreitendem Lernen erlernen Menschen komplexere Fähigkeiten (z. B. Fahrradfahren).
3. Auto fahren: Mit der Zeit können Menschen komplexere und fortgeschrittenere Fähigkeiten erlernen (z. B. Autofahren).

Jeder Schritt stellt den Prozess dar, durch den Menschen in einem lebenslangen Lernprozess weiterhin neue Fähigkeiten und Kenntnisse erwerben.

Großes Sprachmodelllernen (LLMs Learning)

1. Neue Sprache (Neu Sprache): Große Sprachmodelle beginnen mit dem Erlernen neuer Sprachen (z. B. dem Erlernen der Verarbeitung verschiedener natürlicher Sprachen).
2. Neue Domäne: Als nächstes lernt das Modell neues Domänenwissen (z. B. die Erweiterung von der Verarbeitung natürlicher Sprache bis zum medizinischen Bereich).
3. Neue Informationen: Letztendlich kann das Modell neue Informationen lernen und integrieren, egal ob es sich um Sprache oder Domäne handelt.

Jeder Schritt stellt den Prozess des großen Sprachmodells dar, das Wissen im lebenslangen Lernprozess kontinuierlich zu erweitern und zu aktualisieren. Dieses Diagramm betont den Prozess des lebenslangen Lernens: Lebenslanges Lernen ist ein kontinuierlicher Prozess, der eine schrittweise Entwicklung von der Grundausbildung zur Fortgeschrittenen umfasst. Lebenslanges Lernen ist nicht nur eine einfache Anhäufung von Wissen, sondern ein dynamischer und sich entwickelnder Prozess.

In den letzten Jahren ist lebenslanges Lernen zu einem immer beliebteren Forschungsthema geworden, und es sind groß angelegte Umfragen zum lebenslangen Lernen neuronaler Netze entstanden. Die meisten vorhandenen Forschungsarbeiten konzentrieren sich hauptsächlich auf verschiedene Anwendungsszenarien des lebenslangen Lernens von Faltungs-Neuronalen Netzen (CNN) und des lebenslangen Lernens von graphischen neuronalen Netzen. Allerdings konzentriert sich nur ein kleiner Teil der Literatur auf das lebenslange Lernen von Sprachmodellen. Obwohl einige neuere Übersichten die neueste Literatur zum lebenslangen Lernen gesammelt haben, deckt keine davon Szenarien wie kontinuierliche Textklassifizierung, kontinuierliche Erkennung benannter Entitäten, kontinuierliche Beziehungsextraktion und kontinuierliche maschinelle Übersetzung ab. Auch über abrufbasiertes lebenslanges Lernen wird wenig diskutiert .

Dieser Review ist die erste umfassende und systematische Untersuchung von Methoden des lebenslangen Lernens für große Sprachmodelle ausgehend von 12 Szenarien.

Insgesamt umfassen die Hauptbeiträge der Rezension:

  • Romanklassifizierung: Einführung Es wurde ein detaillierter strukturierter Rahmen entwickelt, der die umfangreiche Literatur zum lebenslangen Lernen in 12 Szenarien unterteilt.
  • Universelle Techniken: Gemeinsame Techniken für alle Situationen des lebenslangen Lernens wurden identifiziert und vorhanden. Die Literatur ist in verschiedene unterteilt technische Gruppen in jedem Szenario;
  • Zukünftige Richtungen: Schwerpunkt auf einigen neuen Technologien wie Modellerweiterung und Datenauswahl, die in der Zeit vor LLM weniger erforscht wurden.

1. Einleitung

Diese Rezension ist systematisch zusammengefasst Die vorhandenen Technologiemethoden für lebenslanges Lernen sind in zwei Kategorien unterteilt: internes Wissen und externes Wissen in Abbildung 2.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

  • Internes Wissen bezieht sich auf die Aufnahme neuen Wissens in Modellparameter durch vollständiges oder teilweises Training, einschließlich kontinuierlicher Vorschulung und kontinuierlicher Feinabstimmung.
  • Externes Wissen bezieht sich auf die Integration neuen Wissens aus externen Ressourcen wie Wikipedia oder Anwendungsprogrammschnittstellen in das Modell, ohne die Modellparameter zu aktualisieren, einschließlich abrufbasiertem lebenslangem Lernen und Tools für lebenslanges Lernen.

Internes Wissen

1 🎜>

  • Kontinuierliches Vertical Domain Pretraining: für bestimmte vertikale Bereiche (wie Finanzen, Medizin usw.).
  • Kontinuierliches Sprachdomänen-Vortraining: Kontinuierliches Vortraining für natürliche Sprache und Codesprache.
  • Kontinuierliches Vortraining im zeitlichen Bereich: Kontinuierliches Vortraining für zeitbezogene Daten (z. B. Zeitreihendaten).

2. Kontinuierliche Feinabstimmung:

  • Aufgabenspezifisch:

  • Kontinuierliche Textklassifizierung: Für Textklassifizierungsaufgaben Kontinuierliche Feinabstimmung.
  • Kontinuierliche Erkennung benannter Entitäten: Kontinuierliche Feinabstimmung für Erkennungsaufgaben benannter Entitäten.
  • Kontinuierliche Relationsextraktion: Kontinuierliche Feinabstimmung für Relationsextraktionsaufgaben.
  • Kontinuierliche maschinelle Übersetzung: Kontinuierliche Feinabstimmung für maschinelle Übersetzungsaufgaben.

  • Aufgabenunabhängig:

  • Kontinuierliche Instruktionsoptimierung: Kontinuierliches Lernen des Modells wird durch Instruktionsfeinabstimmung erreicht.
  • Kontinuierliche Wissensbearbeitung: Kontinuierliches Lernen zur Wissensaktualisierung.
  • Kontinuierliche Ausrichtung: Kontinuierliches Lernen, um das Modell an neue Aufgaben anzupassen.

Externes Wissen (Externes Wissen)

1. Abrufbasiertes lebenslanges Lernen: Lebenslanges Lernen, das durch den Abruf externer Wissensdatenbanken erreicht wird.

2. Tool-basiertes lebenslanges Lernen: Lebenslanges Lernen, das durch den Aufruf externer Tools erreicht wird.

2. Überblick über lebenslanges Lernen

2.1 Problemdefinition

Das Ziel des lebenslangen Lernens besteht darin, aus einer Reihe von Aufgaben ein Sprachmodell zu lernen und durch die Eingabe natürlicher Sprache eine Zielausgabe zu generieren. Insbesondere bei Generierungsaufgaben wie Fragen und Antworten stellen Eingabe und Ausgabe jeweils Fragen und Antworten dar. Bei Aufgaben zur maschinellen Übersetzung stellen Eingabe und Ausgabe die Quellsprache und die Zielsprache dar. Bei Textklassifizierungsaufgaben handelt es sich bei der Eingabe um Textinhalte Die Ausgabe besteht aus Kategoriebezeichnungen. Für die Vortrainingsaufgabe des autoregressiven Sprachmodells ist die Eingabe eine Reihe von Token und die Ausgabe das entsprechende nächste Token.

2.2 Bewertungsindikatoren

Übersicht führt die Beurteilung während des gesamten Lebens ein Indikatoren für den Lerneffekt werden hauptsächlich aus drei Perspektiven bewertet: Gesamtleistung, Stabilität und Anpassungsfähigkeit:

  • Gesamtmessung: einschließlich durchschnittlicher Genauigkeit (AA) und Durchschnitt inkrementelle Genauigkeit (AIA). AA bezieht sich auf die durchschnittliche Leistung des Modells nach dem Erlernen aller Aufgaben, während AIA die historischen Änderungen nach dem Erlernen jeder Aufgabe berücksichtigt.
  • Stabilitätsmessung: einschließlich Vergessensmessung (FGT) und Rückwärtsübertragung (BWT). FGT bewertet die durchschnittliche Leistungsverschlechterung alter Aufgaben, während BWT die durchschnittliche Leistungsänderung alter Aufgaben bewertet.
  • Plastizitätsmessung: einschließlich Vorwärtstransfer (FWD), der die durchschnittliche Verbesserung der Modellleistung bei neuen Aufgaben darstellt.

2.3 Allgemeine Technologie

Zusammenfassung in Abbildung 3 Vier Es werden die wichtigsten Methoden des lebenslangen Lernens demonstriert, um das katastrophale Vergessensproblem großer Sprachmodelle bei der Verarbeitung kontinuierlicher Aufgaben (Aufgabe
t-1 bis Aufgabe t) zu bewältigen. Hier finden Sie eine Erklärung zu jeder Methode:

整合 200 多项相关研究,大模型「终生学习」最新综述来了

(a) Wiederholungsbasierte Methoden:

  • Bedeutung: Diese Methode wird beim Training neuer Aufgaben verwendet. Wiederholen Sie Daten aus früheren Aufgaben, um die zu konsolidieren Erinnerung des Modells an alte Aufgaben. Normalerweise werden die wiedergegebenen Daten in einem Puffer gespeichert und zusammen mit den Daten der aktuellen Aufgabe für das Training verwendet. Dazu gehören hauptsächlich:

– Erleben Sie Wiederholungen: Reduzieren Sie das Vergessen, indem Sie einen Teil der Datenproben alter Aufgaben speichern und diese Daten für das Training beim Training neuer Aufgaben wiederverwenden.

–Generative Replay: Im Gegensatz zum Speichern alter Daten verwendet diese Methode ein generatives Modell, um Pseudobeispiele zu erstellen und so das Wissen über alte Aufgaben in das Training neuer Aufgaben einzubringen.

  • Abbildung: Abbildung 3 zeigt den Prozess von Aufgabe t-1 bis Aufgabe t Das Modell trainiert Aufgabe Wenn t , die alten Daten im Puffer (Eingabe t-1 ) werden verwendet.

(b) Regularisierungsbasierte Methoden:

  • Bedeutung: Diese Methode verhindert, dass das Modell beim Erlernen einer neuen Aufgabe alte Aufgabenparameter übermäßig anpasst, indem den Modellparametern Regularisierungsbeschränkungen auferlegt werden. Regularisierungseinschränkungen können dem Modell helfen, die Erinnerung an alte Aufgaben beizubehalten. Dazu gehören hauptsächlich:

– Gewichtsregulierung: Durch die Auferlegung zusätzlicher Einschränkungen für Modellparameter wird die Änderung wichtiger Gewichte beim Training neuer Aufgaben begrenzt und so die Integrität alter Aufgaben geschützt. Beispielsweise sind L2-Regularisierung und Elastic Weight Consolidation (EWC) gängige Techniken.

–Feature-Regularisierung: Die Regularisierung kann nicht nur auf Gewichte einwirken, sondern auch sicherstellen, dass die Feature-Verteilung zwischen neuen und alten Aufgaben stabil bleibt, indem sie die Leistung des Modells im Feature-Raum begrenzt.

  • Abbildung: Abbildung 3 zeigt den Prozess von Aufgabe t-1 bis Aufgabe t Das Modell trainiert Aufgabe Wenn t , Parameterregularisierung wird verwendet, um die Leistung bei Aufgabe t-1 aufrechtzuerhalten.

(c) Architekturbasierte Methoden:

整合 200 多项相关研究,大模型「终生学习」最新综述来了

  • Bedeutung: Dieser Ansatz konzentriert sich auf die Anpassung der Modellstruktur, um neue Aufgaben nahtlos zu integrieren und gleichzeitig die Beeinträchtigung bereits erlernten Wissens zu minimieren. Es umfasst hauptsächlich die sechs Methoden in Abbildung 4:

–(a) Prompt-Tuning: Durch Hinzufügen von „Soft Prompts“ vor der Eingabe des Modells, um Modellgenerierungs- oder Klassifizierungsaufgaben zu leiten. Diese Methode erfordert nur die Anpassung einer kleinen Anzahl von Parametern (z. B. Eingabeaufforderungswörter), ohne die Grundstruktur des Modells zu ändern.

–(b) Präfix-Tuning: Fügen Sie trainierte einstellbare Parameter zum Präfixteil der Eingabesequenz hinzu. Diese Parameter werden in den Selbstaufmerksamkeitsmechanismus der Transformer-Ebene eingefügt, um dem Modell dabei zu helfen, Kontextinformationen besser zu erfassen.

–(c) Low-Rank-Adaption (LoRA, Low-Rank-Adaption): LoRA passt sich an neue Aufgaben an, indem es Low-Rank-Matrizen auf bestimmten Ebenen hinzufügt, ohne die Hauptgewichte des großen Modells zu ändern. Dieser Ansatz reduziert die Anzahl der Parameteranpassungen erheblich und behält gleichzeitig die Modellleistung bei.

–(d) Adapter: Adapter sind trainierbare Module, die zwischen verschiedenen Schichten des Modells eingefügt werden. Diese Module können sich mit einer kleinen Anzahl zusätzlicher Parameter anpassen, ohne die ursprünglichen Modellgewichte zu ändern. Wird normalerweise in den Teilen FFN (Feed Forward Network) und MHA (Multi-Head Attention) angewendet.

–(e) Mischung von Experten: Verarbeiten Sie verschiedene Eingaben durch selektive Aktivierung bestimmter „Experten“-Module, bei denen es sich um bestimmte Schichten oder Teilnetzwerke im Modell handeln kann. Das Router-Modul ist für die Entscheidung verantwortlich, welches Expertenmodul aktiviert werden muss.

–(f) Modellerweiterung: Erweitern Sie die Kapazität des Modells, indem Sie eine neue Ebene (Neue Ebene) hinzufügen und gleichzeitig die ursprüngliche Ebene (Alte Ebene) beibehalten. Dieser Ansatz ermöglicht es dem Modell, seine Kapazität schrittweise zu erhöhen, um komplexere Aufgabenanforderungen zu erfüllen.

  • Abbildung: Abbildung 3 zeigt den Prozess von Aufgabe t-1 bis Aufgabe t Wenn das Modell eine neue Aufgabe lernt, werden einige Parameter eingefroren. während das neu hinzugefügte Modul zum Trainieren neuer Aufgaben verwendet wird (trainierbar).

(d) Destillationsbasierte Methoden:

  • Bedeutung: Diese Methode überträgt das Wissen des alten Modells durch Wissensdestillation auf das neue Modell. Beim Training einer neuen Aufgabe lernt das neue Modell nicht nur die Daten der aktuellen Aufgabe, sondern ahmt auch die Ausgabe des alten Modells für die alte Aufgabe nach und behält so das Wissen der alten Aufgabe bei. Dazu gehören hauptsächlich:

– Destillation aus neuen Daten: Das Schülermodell lernt unter Anleitung des Lehrermodells neue Aufgaben und destilliert altes Modellwissen um das Vergessen alten Wissens zu reduzieren.

– Destillation aus alten Daten: Nutzen Sie die Leistung des Lehrermodells anhand alter Daten, um das Schülermodell beim Erlernen neuer Aufgaben anzuleiten und so die alten Daten beizubehalten. Die Wirkung von Wissen .

–Destillation aus Pseudo-Altdaten: Durch die Generierung von Pseudo-Altdaten (Pseudo-Altdaten) kann das Schülermodell neue Aufgaben erlernen und die Erinnerung an altes Wissen lebendig halten .

  • Abbildung: Abbildung 3 zeigt den Übergang von Task t-1 zu Task t im Wenn das Modell eine neue Aufgabe trainiert, behält es das Wissen über die alte Aufgabe bei, indem es die Vorhersageergebnisse des alten Modells imitiert.

3. Kontinuierliches Vortraining

Kontinuierliches Vortraining -Training Das interne Wissen großer Sprachmodelle kann aktualisiert werden, ohne dass die hohen Kosten einer umfassenden Vorschulung anfallen, wodurch die Fähigkeiten großer Sprachmodelle verbessert werden. Die aktuelle Forschung umfasst vertikale, sprachliche und zeitliche Bereiche und befasst sich mit schwierigen Themen wie katastrophalem Vergessen und zeitlicher Anpassung. Technologien wie Erfahrungswiedergabe, Wissensdestillation, effiziente Feinabstimmung von Parametern, Modellerweiterung und Wiedererwärmung haben gute Aussichten gezeigt.

3.1 Kontinuierliches Vertikalfeld-Vortraining

Kontinuierliches Vertikalfeld-Vortraining -training (Continual Vertical Domain Pretraining) zielt darauf ab, sicherzustellen, dass das Modell in mehreren vertikalen Feldern oder Aufgaben eine gute Leistung erbringt, indem Sprachmodelle kontinuierlich anhand einer Reihe domänenspezifischer Datensätze trainiert werden und gleichzeitig zuvor erworbenes Wissen erhalten bleibt.

Hauptmethoden:

1. Parametereffiziente Feinabstimmung:

  • Beispiel: CorpusBrain++ verwendet eine Backbone-Adapter-Architektur und eine Erfahrungswiedergabestrategie, um wissensintensive Sprachaufgaben in der Praxis zu bewältigen.
  • Beispiel: Med-PaLM führt anhand einer kleinen Anzahl von Beispielen die Abstimmung von Anweisungen zur Eingabeaufforderung im medizinischen Bereich ein.

2. Modellerweiterung:

  • Beispiel: ELLE wendet eine funktionserhaltende Modellerweiterungsstrategie an, um die Effizienz des Wissenserwerbs und der Wissensintegration zu verbessern, indem die Breite und Tiefe vorhandener vorab trainierter Sprachmodelle flexibel erweitert wird.
  • Beispiel: LLaMA Pro zeichnet sich durch die Erweiterung des Transformer-Blocks und die Feinabstimmung mit einem neuen Korpus im allgemeinen Gebrauch sowie bei Programmier- und Mathematikaufgaben aus.

3. Wiedererwärmung:

  • Beispiel: Die von Gupta et al. vorgeschlagene Strategie passt die Lernrate bei der Einführung neuer Datensätze an, um zu verhindern, dass die Lernrate während des Langzeittrainings zu niedrig ist, und verbessert so den Effekt der Anpassung an neue Datensätze.

4. Datenauswahl:

  • Beispiel: RHO -1 wird mit einem Selective Language Model (SLM) trainiert, das Token priorisiert, die einen größeren Einfluss auf den Trainingsprozess haben.
  • Beispiel: EcomGPT-CT verbessert die Modellleistung bei domänenspezifischen Aufgaben mit halbstrukturierten E-Commerce-Daten.

3.2 Vorschulung im kontinuierlichen Sprachbereich

Kontinuierliches Sprachdomänen-Vortraining (Continual Language Domain Pretraining) zielt darauf ab, das Sprachmodell in die Lage zu versetzen, kontinuierlich neue Daten zu integrieren und sich an die sich ändernde Sprachdomäne anzupassen, ohne Vorkenntnisse zu vergessen.

Hauptmethoden:

1. Architekturbasierte Methoden:

  • Beispiel: Yadav et al. verbessern die Abstimmung von Eingabeaufforderungen, indem sie einen Mechanismus zur Lehrererzwingung einführen und eine Reihe von Eingabeaufforderungen erstellen, um die Feinabstimmung des Modells bei neuen Aufgaben zu steuern.
  • Beispiel: ModuleFormer und Lifelong-MoE verwenden einen Mix-of-Experts-Ansatz (MoE), um die Effizienz und Anpassungsfähigkeit von LLM durch Modularität und dynamisch steigende Modellkapazität zu verbessern.

2. Wiedererwärmung:

  • Beispiel: Die von Ibrahim et al. vorgeschlagene Wiederaufwärmmethode hilft dem Modell, sich schneller an neue Sprachen anzupassen, indem sie die Lernrate beim Training neuer Daten erhöht.

3.3 Kontinuierliches Zeitbereichs-Vortraining

Kontinuierlich Beim zeitkontinuierlichen temporalen Domänen-Vortraining wird das Sprachmodell kontinuierlich aktualisiert, um seine Genauigkeit und Relevanz für zeitkritische Daten aufrechtzuerhalten.

Hauptherausforderungen:

1. Die Studie von Lazaridou et al Die Leistung des Modells auf zukünftigen Daten sinkt erheblich, was die Schwierigkeit von LLM bei der zeitlichen Generalisierung verdeutlicht.
2. Begrenzte Verbesserung: Röttger et al. stellten fest, dass die zeitliche Anpassung zwar eine leichte Verbesserung gegenüber der reinen Domänenanpassung mit sich bringt, die Verbesserung der nachgelagerten Aufgabenleistung jedoch nicht signifikant ist.

Anhand dieser Methoden und Forschung demonstriert der Autor die Methoden und Herausforderungen des kontinuierlichen Vortrainings in verschiedenen Dimensionen und betont Anwendungen im vertikalen Bereich, im Sprachbereich und im Zeitbereich Die Notwendigkeit und Wirksamkeit lebenslangen Lernens.

4. Kontinuierliche Feinabstimmung

Kontinuierliches Vortraining kann die inneren Werte verbessern von großen Sprachmodellen Wissen, auf dieser Grundlage erweitert eine kontinuierliche Feinabstimmung das interne Wissen des großen Sprachmodells und passt das große Sprachmodell an spezifische Aufgaben wie Textklassifizierung, Erkennung benannter Entitäten, Relationsextraktion, maschinelle Übersetzung oder allgemeine Generierungsaufgaben an wie z. B. Anpassung von Anweisungen, Wissen, bearbeitet und an menschliche Vorlieben angepasst. Um Herausforderungen wie katastrophales Vergessen und Aufgabeninterferenzen zu bewältigen, werden Techniken wie Destillation, Wiederholung, Regularisierung sowie architekturbasierte und gradientenbasierte Methoden eingesetzt. Die Autoren veranschaulichen in Abbildung 5 sieben aufeinanderfolgende Feinabstimmungsszenarien.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

Dieses Diagramm zeigt, wie sieben verschiedene Arten von Aufgaben durch kontinuierliches Lernen in einem großen Sprachmodell implementiert werden. Im Folgenden finden Sie eine detaillierte Erläuterung jedes Teils:

(a) Kontinuierliche Textklassifizierung

  • Beispiel: Die kontinuierliche Textklassifizierungsaufgabe trainiert das Modell durch schrittweise Einführung neuer Klassifizierungskategorien (z. B. Absicht: Übertragung -> Absicht: Kreditwürdigkeit -> Absicht: Fun Fact), damit es sich an sich ändernde Klassifizierungsanforderungen anpassen kann.

(b) Kontinuierliche Erkennung benannter Entitäten

  • Beispiel : Die kontinuierliche Aufgabe zur Erkennung benannter Entitäten zeigt, wie nach und nach neue Entitätstypen (z. B. Athlet -> Sportmannschaft -> Politiker) eingeführt werden, während bestimmte Entitäten erkannt werden, sodass das Modell weiterhin die Erkennung alter Entitäten aufrechterhalten und gleichzeitig die Fähigkeiten neuer Entitäten erkennen kann .

(c) Kontinuierliche Beziehungsextraktion

  • Beispiel: Die Aufgabe zur kontinuierlichen Beziehungsextraktion zeigt, wie das Modell seine Fähigkeiten zur Beziehungsextraktion schrittweise erweitert, indem es kontinuierlich neue Beziehungstypen einführt (z. B. Beziehung: Gegründet von -> Beziehung: Geburtsstaat oder -provinz -> Beziehung: Land des Hauptsitzes).

(d) Kontinuierliche Wissensbearbeitung

  • Beispiel: Die kontinuierliche Wissensbearbeitungsaufgabe stellt sicher, dass die neuesten Fakten genau beantwortet werden können, indem die Wissensbasis des Modells kontinuierlich aktualisiert wird (z. B. Wer ist der Präsident der USA? -> Für welchen Verein spielt Cristiano Ronaldo derzeit? -> Wo war der letzte Winter). Olympiade stattgefunden?).

(e) Kontinuierliche maschinelle Übersetzung

  • Beispiel: Die kontinuierliche maschinelle Übersetzungsaufgabe demonstriert die Anpassungsfähigkeit des Modells in einer mehrsprachigen Umgebung, indem die Übersetzungsfähigkeiten des Modells schrittweise in verschiedene Sprachen erweitert werden (z. B. Englisch -> Chinesisch, Englisch -> Spanisch, Englisch -> Französisch).

(f) Kontinuierliche Feinabstimmung der Anleitung

  • Beispiel: Die Aufgabe zur kontinuierlichen Feinabstimmung von Anweisungen trainiert die Leistungsfähigkeit des Modells in mehreren Aufgabentypen, indem nach und nach neue Befehlstypen eingeführt werden (z. B. Zusammenfassung -> Stilübertragung -> Mathematik).

(g) Kontinuierliche Ausrichtung

  • Beispiel: Kontinuierlich Die Ausrichtungsaufgabe demonstriert die kontinuierlichen Lernfähigkeiten des Modells unter verschiedenen Moral- und Verhaltensstandards, indem neue Ausrichtungsziele eingeführt werden (z. B. hilfreich und harmlos -> prägnant und organisiert -> positive Stimmung).

5. Externes Wissen

Kontinuierliche Vorschulung Kontinuierliche Feinabstimmung ist für das lebenslange Lernen von LLM von entscheidender Bedeutung. Da LLM jedoch größer und leistungsfähiger wird, werden zwei neue Richtungen immer beliebter. Sie können große Sprachmodellparameter ausführen, ohne sie zu ändern große Sprachmodelle. Die Autoren betrachten abrufbasiertes lebenslanges Lernen und werkzeugbasiertes lebenslanges Lernen, da beide Ansätze vielversprechende Wege sind, um lebenslanges Lernen im LLM zu erreichen. Abbildung 6 veranschaulicht beide Ansätze.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

基於檢索的終身學習(Retrieval-Based Lifelong Learning)

  • 介紹:隨著世界資訊的不斷變化:隨著世界資訊的不斷變化擴大和快速發展,根據歷史資料訓練的靜態模型很快就會過時,無法理解或產生有關新發展的內容。基於檢索的終身學習解決了大型語言模型從外部來源獲取和吸收最新知識的關鍵需求,在需要時,模型透過檢索這些外部資源,來補充或更新其知識庫。這些外部資源提供了一個龐大的當前知識庫,為增強預訓練 LLM 的靜態特性提供了重要的補充資產。
  • 範例:圖中的這些外部資源是模型能夠存取並檢索的。透過存取外部資訊來源,如維基百科、書籍、資料庫等,模型能夠更新自身的知識,並在遇到新資訊時作出適應。

工具的終身學習(Tool-Based Lifelong Learning)

  • 介紹:基於工具的終身學習源於將其功能擴展到靜態知識之外並使其能夠與環境動態交互的必要性。在現實世界的應用中,模型往往需要執行一些任務,這些任務涉及直接文本生成或解釋之外的操作。
  • 範例:圖中模型利用這些工具來擴展和更新自身的能力,透過與外部工具的互動來實現終身學習。例如,模型可以透過應用程式介面來取得即時數據,或透過實體工具與外部環境互動,以此來完成特定任務或獲取新知識。

六、討論與結論


  • 災難性遺忘(Catastrophic Forgetting):這是終身學習的核心挑戰之一,新資訊的引入可能會覆蓋模型之前學到的內容。
  • 可塑性- 穩定困境(Plasticity-Stability Dilemma):在保持模型的學習能力和穩定性之間找到平衡非常關鍵,這直接影響模型獲取新知識的能力,同時保留其廣泛的通用能力。
  • 昂貴的計算成本(Expensive Computation Cost):全量微調大語言模型的運算需求可能非常高。
  • 模型權重或預訓練資料的不可用性:由於隱私、專有限製或商業許可,原始訓練資料或模型權重往往不可用於進一步的改進。

6.2 目前趨勢


從特定任務到通用任務:研究逐漸從專注於特定任務(如文本分類、命名實體識別)轉向更廣泛的通用任務,如指令調優、知識編輯等。
從全量微調到部分微調:鑑於全量微調的高資源消耗,部分微調策略(如 Adapter 層、Prompt 調優、LoRA)變得越來越受歡迎。

從內部知識到外部知識:為了克服頻繁的內部更新限制,越來越多的策略採用外部知識源,如檢索增強生成(Retrieval-Augmented Generation)和工具學習,使模型能夠動態存取和利用當前的外部資料。
  • 6.3 未來方向



多模態終身學習:將文字以外的多種模態(如圖像、視訊、音訊、時間序列資料、知識圖譜)整合到終身學習中,以開發更全面、更具適應性的模型。
高效終身學習:研究人員正致力於開發更有效率的策略來管理模型訓練和更新的運算需求,如模型剪枝、模型合併、模型擴展等方法。 一般終身學習:最終目標是使大語言模型能夠主動獲取新知識,並透過與環境的動態互動進行學習,不再僅僅依賴靜態資料集。 6.4 結論透過這些技術方法及其各自類別的詳細研究,本綜述旨在強調將終身學習能力整合到終身學習工具中,從而提高它們在現實世界應用中的適應性、可靠性和整體性能。同時為研究人員和工程師提供一個全面的視角,幫助他們更好地理解和應用終身學習技術,並推動大語言模型的進一步發展。如果對文章有興趣,可以查閱原始論文以了解更多研究內容。

Das obige ist der detaillierte Inhalt vonMit der Integration von mehr als 200 verwandten Studien ist hier die neueste Übersicht über das große Modell „Lebenslanges Lernen'.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn