Maison  >  Article  >  Périphériques technologiques  >  Intégrant plus de 200 études connexes, la dernière revue du grand modèle « apprentissage tout au long de la vie » est ici

Intégrant plus de 200 études connexes, la dernière revue du grand modèle « apprentissage tout au long de la vie » est ici

WBOY
WBOYoriginal
2024-09-02 15:24:40889parcourir
整合 200 多项相关研究,大模型「终生学习」最新综述来了

La rubrique AIxiv est une rubrique où des contenus académiques et techniques sont publiés sur ce site. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Les auteurs de cet article sont tous issus de l'équipe du professeur Ma Qianli de l'Université de technologie de Chine du Sud, et leur laboratoire est Machine Learning and Data Dig the lab. Les trois co-premiers auteurs de l'article sont le doctorant Zheng Junhao, l'étudiant à la maîtrise Qiu Shengjie et l'étudiant à la maîtrise Shi Chengming. Leurs principaux axes de recherche incluent les grands modèles et l'apprentissage tout au long de la vie. L'auteur correspondant est le professeur Ma Qianli (éditeur associé de l'IEEE/). ACM-TASLP). Ces dernières années, l'équipe du professeur Ma Qianli a publié de nombreux travaux de recherche liés aux séries temporelles/PNL/systèmes de recommandation dans des revues internationales faisant autorité (telles que TPAMI, etc.) et dans des conférences universitaires internationales de premier plan (telles que NeurIPS, AAAI, IJCAI, ACL, KDD, ICDE, etc.). Coopération étendue avec des universités et des instituts de recherche scientifique renommés au pays et à l’étranger.

Alors que l'application de grands modèles de langage continue de se développer dans divers domaines, la manière de permettre à ces modèles de s'adapter en permanence aux changements de données, de tâches et de préférences des utilisateurs a été devenir un enjeu clé. Les méthodes traditionnelles de formation d’ensembles de données statiques ne peuvent plus répondre aux besoins dynamiques du monde réel.

Pour résoudre ce défi, la technologie d'apprentissage tout au long de la vie ou d'apprentissage continu a vu le jour. Il permet aux grands modèles linguistiques d'apprendre et de s'adapter en permanence au cours de leur vie professionnelle, en conservant les informations précédemment apprises tout en intégrant de nouvelles connaissances et en évitant les oublis catastrophiques (Catastrophic Forgetting).

Récemment, des chercheurs de l'Université de technologie de Chine du Sud ont étudié, organisé et résumé la méthode d'apprentissage tout au long de la vie et ses perspectives de développement de grands modèles de langage (LLM), et l'ont résumé dans une revue complète et avant-gardiste.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

  • Titre de l'article : Vers un apprentissage tout au long de la vie des grands modèles linguistiques : une enquête
  • Institution : Chine du Sud Université de technologie
  • Adresse papier : https://arxiv.org/abs/2406.06391
  • Adresse du projet : https://github .com/ qianlima-lab/awesome-lifelong-learning-methods-for-llm

La figure 1 montre l'application de l'apprentissage tout au long de la vie dans les grandes langues modèles Analogie avec le processus d’apprentissage humain. La figure montre l’évolution des humains et des grands modèles linguistiques dans l’apprentissage tout au long de la vie à travers deux parcours d’apprentissage parallèles.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

Apprentissage humain

1. Marcher : les humains commencent à apprendre à partir des compétences les plus élémentaires (telles que la marche).
2. Faire du vélo : au fur et à mesure que l'apprentissage progresse, les humains maîtrisent des compétences plus complexes (comme faire du vélo).
3. Conduire une voiture : à terme, les humains peuvent maîtriser des compétences plus complexes et avancées (telles que la conduite automobile).

Chaque étape représente le processus par lequel les humains continuent d'acquérir de nouvelles compétences et connaissances dans le processus d'apprentissage tout au long de la vie.

Apprentissage de grands modèles de langage (LLMs Learning)

1. Nouveau langage (Nouveau Langue) : les grands modèles de langage commencent par l'apprentissage de nouvelles langues (comme apprendre à traiter différentes langues naturelles).
2. Nouveau domaine : Ensuite, le modèle apprend de nouvelles connaissances dans un domaine (comme l'extension du traitement du langage naturel au domaine médical).
3. Nouvelles informations : En fin de compte, le modèle peut apprendre et intégrer de nouvelles informations, qu'il s'agisse de langue ou de domaine.

Chaque étape représente le processus du grand modèle linguistique qui élargit et met à jour continuellement les connaissances dans le processus d'apprentissage tout au long de la vie. Ce diagramme met l'accent sur le processus d'apprentissage tout au long de la vie : L'apprentissage tout au long de la vie est un processus continu qui couvre une évolution étape par étape du niveau de base au niveau avancé. L’apprentissage tout au long de la vie n’est pas une simple accumulation de connaissances, mais un processus dynamique et évolutif.

Ces dernières années, l'apprentissage tout au long de la vie est devenu un sujet de recherche de plus en plus populaire, et des enquêtes à grande échelle sur l'apprentissage tout au long de la vie par les réseaux neuronaux ont vu le jour. La plupart des recherches existantes se concentrent principalement sur divers scénarios d'application de l'apprentissage tout au long de la vie des réseaux de neurones convolutifs (CNN) et de l'apprentissage tout au long de la vie des réseaux de neurones graphes. Cependant, seule une petite quantité de littérature se concentre sur l’apprentissage tout au long de la vie des modèles linguistiques. Bien que certaines revues récentes aient rassemblé la littérature la plus récente sur l'apprentissage tout au long de la vie, aucune d'entre elles n'a couvert des scénarios tels que la classification continue de textes, la reconnaissance continue d'entités nommées, l'extraction continue de relations et la traduction automatique continue. L'apprentissage tout au long de la vie basé sur la récupération est également peu abordé. .

Cette revue est la première enquête complète et systématique sur les méthodes d'apprentissage tout au long de la vie pour les grands modèles linguistiques à partir de 12 scénarios.

Dans l'ensemble, les principales contributions de la revue comprennent :

  • Classification des romans : introduction Un cadre structuré détaillé a été développé qui a divisé la vaste littérature sur l'apprentissage tout au long de la vie en 12 scénarios
  • Techniques universelles : des techniques communes à toutes les situations d'apprentissage tout au long de la vie ont été identifiées et présentées. Il existe une littérature divisée en différents ; groupes techniques dans chaque scénario ;
  • Orientations futures : accent sur certaines technologies émergentes telles que l'extension de modèle et la sélection de données, qui étaient moins explorées à l'ère pré-LLM.

1 Introduction

Cette revue est systématiquement résumée. Les méthodes technologiques d’apprentissage tout au long de la vie existantes sont divisées en deux catégories : les connaissances internes et les connaissances externes dans la figure 2.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

  • Les connaissances internes font référence à l'absorption de nouvelles connaissances dans les paramètres du modèle par le biais d'une formation complète ou partielle, y compris une pré-formation continue et un réglage fin continu.
  • Les connaissances externes font référence à l'incorporation de nouvelles connaissances provenant de ressources externes telles que Wikipédia ou des interfaces de programmes d'application dans le modèle sans mettre à jour les paramètres du modèle, y compris l'apprentissage tout au long de la vie basé sur la récupération et les outils d'apprentissage tout au long de la vie.

Connaissances internes

1. 🎜>

  • Préformation continue dans le domaine vertical : pour des domaines verticaux spécifiques (tels que la finance, la médecine, etc.).
  • Préformation continue dans le domaine du langage : Préformation continue pour le langage naturel et le langage codé.
  • Pré-entraînement continu du domaine temporel : pré-entraînement continu pour les données liées au temps (telles que les données de séries chronologiques).

2. Affinement continu :

     Spécifique à la tâche :

    Classification continue de texte : pour les tâches de classification de texte Affinement continu.
  • Reconnaissance continue d'entités nommées : ajustement continu des tâches de reconnaissance d'entités nommées.
  • Extraction continue de relations : réglage fin continu des tâches d'extraction de relations.
  • Traduction automatique continue : ajustement continu des tâches de traduction automatique.

    Agnostique de la tâche :

    Réglage continu des instructions : l'apprentissage continu du modèle est obtenu grâce à un réglage fin des instructions.
  • Édition continue des connaissances : Apprentissage continu pour la mise à jour des connaissances.
  • Alignement continu : apprentissage continu pour aligner le modèle avec de nouvelles tâches.

Connaissance externe (Connaissance externe)

1. Apprentissage tout au long de la vie basé sur la récupération : apprentissage tout au long de la vie obtenu en récupérant des bases de connaissances externes.

2. Apprentissage tout au long de la vie basé sur des outils : apprentissage tout au long de la vie obtenu en faisant appel à des outils externes.

2. Aperçu de l'apprentissage tout au long de la vie

2.1 Définition du problème

L'objectif de l'apprentissage tout au long de la vie est d'apprendre un modèle de langage à partir d'une série de tâches et de générer un résultat cible en saisissant un langage naturel. Plus précisément, pour les tâches de génération, telles que les questions et les réponses, l'entrée et la sortie représentent respectivement les questions et les réponses ; pour les tâches de traduction automatique, l'entrée et la sortie représentent la langue source et la langue cible pour les tâches de classification de texte, l'entrée est le contenu du texte et la langue cible ; la sortie est des étiquettes de catégorie ; Pour la tâche de pré-entraînement du modèle de langage autorégressif, l'entrée est une série de jetons et la sortie est le jeton suivant correspondant.

2.2 Indicateurs d'évaluation

L'aperçu introduit l'évaluation tout au long de la vie Les indicateurs de l'effet d'apprentissage sont principalement évalués sous trois angles : performance globale, stabilité et adaptabilité :

    Mesure globale : y compris Précision moyenne (AA) et moyenne précision incrémentielle (AIA). AA fait référence à la performance moyenne du modèle après l'apprentissage de toutes les tâches, tandis que AIA prend en compte les changements historiques après l'apprentissage de chaque tâche.
  • Mesure de stabilité : y compris la mesure de l'oubli (FGT) et le transfert vers l'arrière (BWT). FGT évalue la dégradation moyenne des performances des anciennes tâches, tandis que BWT évalue le changement moyen des performances des anciennes tâches.
  • Mesure de plasticité : y compris le transfert vers l'avant (FWD), qui est l'amélioration moyenne des performances du modèle sur de nouvelles tâches.

2.3 Technologie générale

Résumé dans la figure 3 Quatre Il a été démontré que les principales méthodes d'apprentissage tout au long de la vie traitent le problème d'oubli catastrophique des grands modèles de langage lors du traitement de tâches continues (Tâche
t-1
à Tâche t). Voici une explication de chaque méthode :

(a) 재생 기반 방법:

  • 의미: 이 방법은 새 작업을 훈련할 때 사용됩니다. 이전 작업의 데이터를 재생하여 모델의 오래된 작업 기억. 일반적으로 재생된 데이터는 버퍼에 저장되어 현재 작업의 데이터와 함께 학습에 사용됩니다. 주로 다음을 포함합니다:

– 경험 재생: 이전 작업의 데이터 샘플 중 일부를 저장하고 새로운 작업 발생을 훈련할 때 이러한 데이터를 훈련에 재사용하여 망각을 줄입니다.

– 생성적 재생: 이전 데이터를 저장하는 것과 달리 이 방법은 생성 모델을 사용하여 유사 샘플을 생성함으로써 이전 작업에 대한 지식을 새 작업 학습에 도입합니다.

  • 그림 3은 Task t-1에서 Task t까지의 과정을 보여줍니다. , 버퍼에 있는 이전 데이터(입력 t-1 )가 사용됩니다.

(b) 정규화 기반 방법:

  • 의미: 이 방법은 모델 매개변수에 정규화 제약 조건을 적용하여 새 작업을 학습할 때 모델이 이전 작업 매개변수를 과도하게 조정하는 것을 방지합니다. 정규화 제약조건은 모델이 이전 작업의 메모리를 유지하는 데 도움이 될 수 있습니다. 주로 다음을 포함합니다:
– 가중치 정규화: 모델 매개변수에 추가 제약을 적용하여 새로운 작업을 훈련할 때 중요한 가중치의 수정을 제한하여 이전 작업 지식의 무결성을 보호합니다. 예를 들어 L2 정규화 및 EWC(Elastic Weight Consolidation)는 일반적인 기술입니다.

– 특성 정규화: 정규화는 가중치에 작용할 뿐만 아니라 특성 공간에서 모델 성능을 제한하여 새 작업과 기존 작업 간의 특성 분포가 안정적으로 유지되도록 보장합니다.

  • 그림 3은 Task
    t-1에서 Task t까지의 과정을 보여줍니다. , 매개변수 정규화는 Task t-1의 성능을 유지하는 데 사용됩니다.

(c) 아키텍처 기반 방법:

整合 200 多项相关研究,大模型「终生学习」最新综述来了

    의미: 이 접근 방식은 이전에 학습한 지식과의 간섭을 최소화하면서 새로운 작업을 원활하게 통합하기 위해 모델 구조를 조정하는 데 중점을 둡니다. 여기에는 주로 그림 4의 6가지 방법이 포함됩니다.
  • –(a) 프롬프트 조정: 모델 입력 앞에 "소프트 프롬프트"를 추가하여 모델 생성 또는 분류 작업을 안내합니다. 이 방법은 모델의 백본 구조를 변경하지 않고 소수의 매개변수(예: 프롬프트 단어)만 조정하면 됩니다.

–(b) 접두사 조정: 훈련된 조정 가능한 매개변수를 입력 시퀀스의 접두사 부분에 추가합니다. 이러한 매개변수는 모델이 상황별 정보를 더 잘 캡처하는 데 도움이 되도록 Transformer 레이어의 self-attention 메커니즘에 삽입됩니다.

–(c) Low-Rank Adaptation(LoRA, Low-Rank Adaptation): LoRA는 대형 모델의 주요 가중치를 변경하지 않고 특정 수준에 하위 행렬을 추가하여 새로운 작업에 적응합니다. 이 접근 방식은 모델 성능을 유지하면서 매개변수 조정 횟수를 크게 줄입니다.

–(d) 어댑터: 어댑터는 모델의 여러 레이어 사이에 삽입된 학습 가능한 모듈입니다. 이러한 모듈은 원래 모델 가중치를 변경하지 않고 소수의 추가 매개변수로 적응할 수 있습니다. 일반적으로 FFN(Feed Forward Network) 및 MHA(Multi-Head Attention) 부분에 적용됩니다.

–(e) 전문가 혼합: 모델의 특정 계층 또는 하위 네트워크일 수 있는 특정 "전문가" 모듈을 선택적으로 활성화하여 다양한 입력을 처리합니다. 라우터 모듈은 활성화해야 할 전문가 모듈을 결정하는 역할을 담당합니다.

–(f) 모델 확장: 원본 레이어(Old Layer)를 유지하면서 새 레이어(New Layer)를 추가하여 모델의 용량을 확장합니다. 이 접근 방식을 통해 모델은 보다 복잡한 작업 요구 사항을 수용할 수 있도록 용량을 점진적으로 늘릴 수 있습니다.

  • 그림: 그림 3은 Task t-1에서 Task t까지의 과정을 보여줍니다. 모델이 새로운 작업을 학습하면 일부 매개변수가 동결됩니다. 새로 추가된 모듈은 새로운 작업을 훈련하는 데 사용됩니다(Trainable).

(d) 증류 기반 방법:

  • 의미: 이 방법은 지식 증류를 통해 이전 모델의 지식을 새 모델로 전달합니다. 새 작업을 훈련할 때 새 모델은 현재 작업의 데이터를 학습할 뿐만 아니라 이전 작업에 대해 이전 모델의 출력을 모방하여 이전 작업에 대한 지식을 유지합니다. 주로 다음을 포함합니다:

– 새로운 데이터의 추출: 학생 모델은 교사 모델의 지도에 따라 새로운 작업을 학습하고 기존 데이터를 추출합니다. 오래된 지식의 망각을 줄이기 위해.

– 기존 데이터의 증류: 기존 데이터에 대한 교사 모델의 성능을 사용하여 학생 모델이 새로운 과제를 학습하도록 안내함으로써 기존 데이터를 유지하는 지식의 효과 .

–Pseudo-Old Data의 증류: Pseudo-Old Data(Pseudo-Old Data)를 생성하여 학생 모델이 새로운 과제를 학습할 수 있음 오래된 지식에 대한 기억 유지 .

  • 그림: 그림 3은 작업 t-1에서 작업 t으로의 전환을 보여줍니다. 프로세스에서 모델이 새로운 작업을 훈련할 때 이전 모델의 예측 결과를 모방하여 이전 작업에 대한 지식을 유지합니다.

3. 지속적인 사전 교육

지속적인 사전 교육 -훈련 포괄적인 사전 훈련에 드는 많은 비용을 들이지 않고 대규모 언어 모델의 내부 지식을 업데이트할 수 있으므로 대규모 언어 모델의 기능이 향상됩니다. 현재 연구는 수직적, 언어적, 시간적 영역을 포괄하여 치명적인 망각 및 시간적 적응과 같은 어려운 문제를 다루고 있습니다. 경험 재생, 지식 증류, 매개변수의 효율적인 미세 조정, 모델 확장 및 재가열과 같은 기술은 좋은 전망을 보여주었습니다.

3.1 연속 수직장 사전 훈련

연속 수직장 사전 훈련 -훈련(지속적 수직 도메인 사전 훈련)은 이전에 획득한 지식을 유지하면서 일련의 도메인별 데이터 세트에 대해 언어 모델을 지속적으로 훈련하여 모델이 여러 수직 분야 또는 작업에서 잘 수행되도록 하는 것을 목표로 합니다.

주요 방법:

1. 매개변수 효율적인 미세 조정:

  • 예: CorpusBrain++는 백본 어댑터 아키텍처와 경험 재생 전략을 사용하여 실제 지식 집약적인 언어 작업을 처리합니다.
  • 예: Med-PaLM은 소수의 예를 사용하여 의료 분야의 지시 프롬프트 튜닝을 도입합니다.

2. 모델 확장:

  • 예: ELLE 기존 사전 학습된 언어 모델의 폭과 깊이를 유연하게 확장하여 지식 획득 및 통합의 효율성을 높이기 위해 기능 보존 모델 확장 전략을 채택합니다.
  • 예: LLaMA Pro는 Transformer 블록을 확장하고 새로운 코퍼스로 미세 조정하여 일반 사용, 프로그래밍 및 수학 작업에 탁월합니다.

3. 다시 데우기:

  • 예: Gupta et al.이 제안한 전략은 새로운 데이터 세트를 도입할 때 학습률을 조정하여 장기 훈련 중에 학습률이 너무 낮아지는 것을 방지함으로써 새로운 데이터 세트에 대한 적응 효과를 향상시킵니다.

4. 데이터 선택:

  • 예: RHO -1은 훈련 프로세스에 더 큰 영향을 미치는 토큰의 우선순위를 지정하는 SLM(선택적 언어 모델)로 훈련됩니다.
  • 예: EcomGPT-CT는 반구조화된 전자상거래 데이터를 사용하여 도메인별 작업에 대한 모델 성능을 향상합니다.

3.2 연속 언어 영역 사전 훈련

지속적인 언어 도메인 사전 훈련(Continual Language Domain Pretraining)은 언어 모델이 이전 지식을 잊지 않으면서 새로운 데이터를 지속적으로 통합하고 변화하는 언어 도메인에 적응할 수 있도록 하는 것을 목표로 합니다.

주요 방법:

1. 아키텍처 기반 방법:

  • 예: Yadav 등은 교사 강제 메커니즘을 도입하여 새로운 작업에 대한 모델의 미세 조정을 안내하는 프롬프트 세트를 생성하여 프롬프트 조정을 개선합니다.
  • 예: ModuleFormer와 Lifelong-MoE는 전문가 혼합(MoE) 접근 방식을 사용하여 모듈화 및 동적으로 모델 용량 증가를 통해 LLM의 효율성과 적응성을 향상합니다.

2. 다시 데우기:

  • 예: Ibrahim et al.이 제안한 재가열 방법은 새로운 데이터를 훈련할 때 학습 속도를 일시적으로 높여 모델이 새로운 언어에 더 빠르게 적응하도록 돕습니다.

3.3 연속 시간 영역 사전 훈련

지속 시간 지속적인 시간 영역 사전 훈련에는 시간에 민감한 데이터에 대한 정확성과 관련성을 유지하기 위해 언어 모델을 지속적으로 업데이트하는 작업이 포함됩니다.

주요 과제:

1. 성능 저하: Lazaridou et al. 미래 데이터에 대한 모델 성능이 크게 저하되어 시간적 일반화에서 LLM의 어려움이 강조됩니다.
2. 제한된 개선: Röttger et al.은 시간적 적응이 마스크 언어 모델 작업에서 약간의 개선을 보였지만 순수 도메인 적응에 비해 다운스트림 작업 성능의 개선은 크지 않다는 것을 발견했습니다.

이러한 방법과 연구를 통해 저자는 다양한 차원에서 지속적인 사전 훈련의 방법과 과제를 보여주고 수직 영역, 언어 영역 및 시간 영역에서의 적용을 강조합니다. 평생학습의 필요성과 효과.

4. 지속적인 미세 조정

지속적인 사전 교육을 통해 내부 역량을 강화할 수 있습니다. 대규모 언어 모델의 지식을 바탕으로 지속적인 미세 조정을 통해 대규모 언어 모델의 내부 지식을 향상시키고 텍스트 분류, 명명된 엔터티 인식, 관계 추출, 기계 번역 또는 일반 생성 작업과 같은 특정 작업에 대규모 언어 모델을 적용합니다. 지시 조정, 지식 편집 및 인간 선호도에 맞춰 정렬 등. 치명적인 망각 및 작업 간섭과 같은 문제를 해결하기 위해 증류, 재생, 정규화, 아키텍처 기반 및 그래디언트 기반 방법과 같은 기술이 사용됩니다. 저자는 그림 5에서 7개의 연속적인 미세 조정 시나리오를 보여줍니다.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

이 다이어그램은 지속적인 학습을 통해 대규모 언어 모델에서 7가지 유형의 작업이 어떻게 구현되는지 보여줍니다. 각 부분에 대한 자세한 설명은 다음과 같습니다.

(a) 연속 텍스트 분류

  • 예: 지속적인 텍스트 분류 작업은 변화하는 분류 요구 사항에 적응할 수 있도록 새로운 분류 범주(예: 의도: 전송 -> 의도: 신용 점수 -> 의도: 재미있는 사실)를 점진적으로 도입하여 모델을 교육합니다.

(b) 연속 명명된 엔터티 인식

  • 예 : 지속적인 명명된 엔터티 인식 작업은 특정 엔터티를 인식하면서 새로운 엔터티 유형(예: 운동선수 -> 스포츠팀 -> 정치인)을 점진적으로 도입하는 방법을 보여 주므로 모델은 새로운 엔터티 능력을 인식하면서 이전 엔터티에 대한 인식을 계속 유지할 수 있습니다. .

(c) 연속 관계 추출

  • 예: 지속적인 관계 추출 작업은 새로운 관계 유형(예: 관계: 설립자 -> 관계: 출생지 또는 도 -> 관계: 본사 국가)을 지속적으로 도입하여 모델이 관계 추출 기능을 점진적으로 확장하는 방법을 보여줍니다.

(d) 지속적인 지식 편집

  • 예: 지속적인 지식 편집 작업을 통해 모델의 지식 기반(예: 미국 대통령은 누구입니까? -> 크리스티아누 호날두가 현재 어느 클럽에서 뛰고 있습니까? -> 지난 겨울은 어디였습니까?)을 지속적으로 업데이트하여 최신 사실에 정확하게 답할 수 있습니다. 올림픽 개최?).

(e) 연속 기계 번역

  • 예: 지속적인 기계 번역 작업은 모델의 번역 기능을 다양한 언어(예: 영어 -> 중국어, 영어 -> 스페인어, 영어 -> 프랑스어)로 점진적으로 확장하여 다국어 환경에서 모델의 적응성을 보여줍니다.

(f) 지속적인 지시 미세 조정

  • 예: 지속적인 지침 미세 조정 작업은 새로운 지침 유형(예: 요약 -> 스타일 전송 -> 수학)을 점진적으로 도입하여 여러 작업 유형에서 모델의 성능 능력을 훈련합니다.

(g) 연속 정렬

  • 예: 연속 정렬 작업은 새로운 정렬 목표(예: 유용하고 무해함 -> 간결하고 조직적 -> 긍정적인 감정)를 도입하여 다양한 도덕적 및 행동 표준 하에서 모델의 지속적인 학습 기능을 보여줍니다.

5. 외부 지식

지속적인 사전 교육 LLM의 평생 학습에는 지속적인 미세 조정이 중요합니다. 그러나 LLM이 더 커지고 강력해짐에 따라 새로운 외부 지식을 수정하지 않고 수행할 수 있는 두 가지 새로운 방향이 점점 더 대중화되고 있습니다. 대규모 언어 모델. 저자는 검색 기반 평생 학습과 도구 기반 평생 학습을 고려합니다. 두 접근 방식 모두 LLM에서 평생 학습을 달성하는 유망한 방법이기 때문입니다. 그림 6에서는 두 가지 접근 방식을 모두 보여줍니다.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

검색 기반 평생학습

  • 서론: 전 세계적으로 정보가 지속적으로 증가함에 따라 확장 및 진화 과거 데이터를 기반으로 훈련된 정적 모델은 빠르게 구식이 되어 새로운 개발에 대한 콘텐츠를 이해하거나 생성할 수 없게 됩니다. 검색 기반 평생 학습은 외부 소스로부터 최신 지식을 획득하고 동화하기 위한 대규모 언어 모델의 중요한 요구 사항을 해결하며, 모델은 필요할 때 이러한 외부 리소스를 검색하여 지식 기반을 보완하거나 업데이트합니다. 이러한 외부 리소스는 사전 훈련된 LLM의 정적 속성을 향상시키기 위한 중요한 보완 자산을 제공하는 대규모 최신 지식 기반을 제공합니다.
  • 예: 다이어그램의 이러한 외부 리소스는 모델에서 액세스하고 검색할 수 있습니다. Wikipedia, 서적, 데이터베이스 등과 같은 외부 정보 소스에 액세스함으로써 모델은 지식을 업데이트하고 새로운 정보를 접할 때 적응할 수 있습니다.

도구 기반 평생학습

  • 소개: 도구 기반 평생 학습은 정적인 지식을 넘어 기능을 확장하고 환경과 동적으로 상호 작용할 수 있도록 해야 한다는 필요성에서 비롯되었습니다. 실제 애플리케이션에서 모델은 직접적인 텍스트 생성이나 해석 이상의 작업을 수행해야 하는 경우가 많습니다.
  • 예: 그림의 모델은 이러한 도구를 사용하여 자체 기능을 확장 및 업데이트하고 외부 도구와의 상호 작용을 통해 평생 학습을 가능하게 합니다. 예를 들어 모델은 애플리케이션 프로그래밍 인터페이스를 통해 실시간 데이터를 얻거나 물리적 도구를 통해 외부 환경과 상호 작용하여 특정 작업을 완료하거나 새로운 지식을 얻을 수 있습니다.

6. 고찰 및 결론

6.1 주요 과제

  • 재난적 망각: 이는 평생 학습의 핵심 과제 중 하나이며, 새로운 정보의 도입으로 덮어쓰게 될 수 있습니다. 모델이 이전에 학습한 내용.
  • 가소성-안정성 딜레마: 모델의 학습 능력과 안정성 사이의 균형을 찾는 것이 매우 중요합니다. 이는 모델이 새로운 지식을 획득하는 능력에 직접적인 영향을 미칩니다. 광범위한 일반 기능.
  • 비싼 계산 비용: 대규모 언어 모델을 완전히 미세 조정하기 위한 계산 요구 사항은 매우 높을 수 있습니다.
  • 모델 가중치 또는 사전 학습된 데이터를 사용할 수 없음: 개인 정보 보호, 독점 제한 또는 상용 라이선스로 인해 추가 개선을 위해 원시 학습 데이터 또는 모델 가중치를 사용할 수 없는 경우가 많습니다.

6.2 최근 동향

  • 특정 작업에서 일반 작업으로: 연구는 특정 작업(예: 텍스트 분류, 명명된 엔터티 인식)에 초점을 맞추는 것에서 명령 조정, 지식 편집 등과 같은 더 넓은 범위의 일반 작업으로 점차 이동합니다.
  • 전체 미세 조정에서 부분 미세 조정까지: 전체 미세 조정의 높은 리소스 소비를 고려하여 부분 미세 조정 전략(예: 어댑터 계층, 프롬프트 조정, LoRA)가 점점 인기를 얻고 있습니다.
  • 내부 지식에서 외부 지식으로: 잦은 내부 업데이트의 한계를 극복하기 위해 검색-증강 생성 및 도구와 같은 외부 지식 소스를 사용하는 전략이 점점 더 많아지고 있습니다. 학습을 통해 모델을 사용할 수 있습니다. 현재 외부 데이터에 동적으로 액세스하고 활용합니다.

6.3 향후 방향

  • 다중 평생 학습: 텍스트를 넘어 다양한 양식(예: 이미지, 비디오, 오디오, 시계열 데이터, 지식 그래프)을 평생 학습에 통합하여 보다 포괄적이고 적응 가능한 성적 모델을 개발합니다.
  • 효율적인 평생 학습: 연구원들은 모델 가지치기, 모델 병합, 모델 확장 및 기타 방법과 같은 모델 교육 및 업데이트의 계산 요구 사항을 관리하기 위한 보다 효율적인 전략을 개발하기 위해 노력하고 있습니다.
  • 보편적 평생 학습: 궁극적인 목표는 대규모 언어 모델이 더 이상 정적 데이터 세트에만 의존하지 않고 환경과의 동적 상호 작용을 통해 적극적으로 새로운 지식을 습득하고 학습할 수 있도록 하는 것입니다.

6.4 결론

저자는 기존 연구를 나누어 12가지 평생학습 시나리오를 포괄적으로 요약하여 제공합니다. 분석은 또한 치명적인 망각 관리, 계산 효율성 보장, 지식 획득의 특이성과 일반성 사이의 균형을 유지할 필요성을 강조합니다. 분야가 계속 발전함에 따라 이러한 고급 전략의 통합은 차세대 인공 지능 시스템을 형성하는 데 핵심적인 역할을 하여 진정으로 인간과 같은 학습 및 적응성을 달성하는 데 더 가까워지도록 돕습니다.

이러한 기술적 접근 방식과 해당 범주에 대한 자세한 연구를 통해 이 리뷰는 평생 학습 기능을 평생 학습 도구에 통합하여 실제 학습 능력을 향상시키는 것을 목표로 합니다. 애플리케이션의 적응성, 안정성 및 전반적인 성능.동시에 연구원과 엔지니어에게 평생 학습 기술을 더 잘 이해하고 적용할 수 있도록 돕는 포괄적인 관점을 제공하고 대규모 언어 모델의 추가 개발을 촉진합니다. 기사에 관심이 있으시면 원본 논문을 확인하여 연구에 대해 자세히 알아볼 수 있습니다.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn