首頁  >  文章  >  科技週邊  >  整合 200 多項相關研究,大模型「終身學習」最新綜述來了

整合 200 多項相關研究,大模型「終身學習」最新綜述來了

WBOY
WBOY原創
2024-09-02 15:24:03176瀏覽
整合 200 多项相关研究,大模型「终生学习」最新综述来了

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

這篇論文作者皆來自於華南理工大學馬千里教授團隊,所在實驗室為機器學習資料挖掘實驗室。論文的三位共同第一作者為博士生鄭俊豪、碩士生邱聖潔、碩士生施成明,主要研究方向包括大模型和終身學習等,通訊作者為千里教授(IEEE/ACM TASLP 副主編)。馬千里教授團隊近年來在國際權威期刊(如TPAMI 等)和國際頂尖學術會議(如NeurIPS、AAAI、IJCAI、ACL、KDD、ICDE 等)上發表多篇Time Series/NLP/Recommendation System 相關的研究工作,和國內外知名大學、研究機構廣泛開展合作。

隨著大語言模型在各個領域應用的不斷拓展,如何讓這些模型能夠連續適應數據、任務和用戶偏好的變化成為一個關鍵問題。傳統的靜態資料集訓練方法已經無法滿足現實世界的動態需求。

為了解決這個挑戰,終身學習(Lifelong Learning)或連續學習(Continual Learning)技術應運而生。它能讓大語言模型在其工作壽命中不斷學習和適應,在整合新知識的同時保留以前學習過的信息,防止災難性遺忘(Catastrophic Forgetting)。

最近,來自華南理工大學的研究者調查、整理並總結了大語言模型(LLMs)的終身學習(Lifelong Learning)方法及其發展前景,並將其總結為一篇全面且前沿的綜述。

整合 200 多项相关研究,大模型「终生学习」最新综述来了

  • 論文標題:Towards Lifelong Learning of Large Language Models: A Survey
  • 機構::大學
  • 論文網址:https://arxiv.org/abs/2406.06391
  • 專案網址:https://github.com/ qianlima-lab/awesome-lifelong-learning-methods-for-llm

圖1 展示了終身學習(Lifelong Learning)在大語言模型和人類學習過程中的類比。圖中透過兩條平行的學習路徑來展示人類和大語言模型在終身學習中的演化過程。

整合 200 多项相关研究,大模型「终生学习」最新综述来了

人類學習(Human Learning)

1. 步行(Walk):人類從最基礎的技能(如步行)開始學習。
2. 騎自行車(Ride a Bike):隨著學習的進展,人類掌握了更複雜的技能(如騎自行車)。
3. 開車(Drive a Car):最終,人類可以掌握更複雜和高級的技能(如開車)。

每一步都代表人類在終身學習過程中不斷獲取新技能和知識的過程。

大語言模型學習(LLMs Learning)

1. Language):大語言模式從學習新的語言開始(如學會處理不同的自然語言)。
2. 新領域(New Domain):接下來,模型學習新的領域知識(如從自然語言處理擴展到醫學領域)。
3. 新資訊(New Information):最終,模型可以學習和整合新的訊息,無論是語言還是領域。

每一步代表著大語言模型在終身學習過程中不斷擴展和更新知識的過程。這張圖強調終身學習的過程:終身學習是一個連續的過程,涵蓋了從基礎到高階的逐步演化。終身學習不只是簡單的知識積累,而是一個動態的、不斷進化的過程。

近年來,終身學習已成為越來越熱門的研究課題,湧現出有關神經網路終身學習的大規模調查。大多數現有研究主要關注卷積神經網路(CNN)的終身學習的各種應用場景和圖神經網路的終身學習。然而,只有少量文獻關注語言模型的終身學習。儘管最近的一些綜述收集了終身學習的最新文獻,但都沒有涉及連續文本分類、連續命名實體識別、連續關係提取和連續機器翻譯等場景,對連續對齊、連續知識編輯、基於工具的終身學習和基於檢索的終身學習的討論也很少。

這篇綜述是第一個從 12 個場景出發,對大語言模型終身學習方法進行全面系統研究的調查。

整體來說,綜述的主要貢獻包括:

  • 新穎分類:引進了一個詳細的結構化框架,將大量有關終身學習的文獻分為12 個場景;
  • 通用技術:確定了所有終身學習情況下的通用技術,並將現有文獻分為每個場景中不同的技術組;
  • 未來方向:強調了一些新興技術,如模型擴展和數據選擇,這些技術在前LLM 時代探索較少。

一、引言

本綜述系統總結了現有的終身學習技術方法,在圖2 中將其分為內部知識和外部知識兩大類。

整合 200 多项相关研究,大模型「终生学习」最新综述来了

  • 內部知識是指透過完全或部分訓練將新知識吸收到模型參數中,包括連續預訓練和連續微調。
  • 外部知識是指在不更新模型參數的情況下,將維基百科或應用程式介面等外部資源中的新知識納入模型,包括基於檢索的終身學習和基於工具的終身學習。

內部知識(Internal Knowledge)

1.連續預訓練(Continual Pretraining):

  • 連續垂直領域預先訓練(Continual Vertical Domain Pretraining):針對特定垂直領域(如金融、醫療保健等)進行的連續預訓練。
  • 連續語言領域預訓練(Continual Language Domain Pretraining):針對自然語言和程式語言進行的連續預訓練。
  • 連續時間領域預訓練(Continual Temporal Domain Pretraining):針對時間相關資料(如時間序列資料)的連續預訓練。

2. 連續微調(Continual Finetuning):

  • 特定任務(Task Specific):

  • 連續文字分類(Continual Text Classification):針對文字分類任務進行的連續微調。
  • 連續命名實體辨識(Continual Named Entity Recognition):針對命名實體辨識任務進行的連續微調。
  • 連續關係抽取(Continual Relation Extraction):針對關係抽取任務進行的連續微調。
  • 連續機器翻譯(Continual Machine Translation):針對機器翻譯任務進行的連續微調。

  • 任務無關(Task Agnostic):

連續指令微調(Continual Instruction-Tuning):透過指令微調實現模型的連續學習。
  • 連續知識編輯(Continual Knowledge Editing):針對知識更新進行的連續學習。
  • 連續對齊(Continual Alignment):針對模型與新任務對齊進行的連續學習。

外部知識(External Knowledge)

.基於檢索的終身學習(Retrieval-Based Lifelong Learning):透過檢索外部知識庫實現的終身學習。

2. 工具為基礎的終身學習(Tool-Based Lifelong Learning):透過呼叫外部工具實現的終身學習。

二、終身學習概況


終身學習的目標是從一系列任務中學習一個語言模型,透過輸入自然語言,產生目標輸出。具體來說,對於生成任務,如問答,輸入和輸出分別代表問題和答案;對於機器翻譯任務,輸入和輸出代表來源語言和目標語言;對於文字分類任務,輸入為文字內容,輸出為類別標籤;自迴歸語言模型的預訓練任務,輸入為一系列的詞元,輸出為對應的下一個詞元。

2.2 評估指標


    整體表現(Overall Measurement):包括平均準確率(AA)和平均增量準確率(AIA)。 AA 是指模型在學習所有任務後的平均表現,而 AIA 則考慮了每個任務學習後的歷史變化。
  • 穩定性測量(Stability Measurement):包括遺忘測量(FGT)和向後轉移(BWT)。 FGT 評估舊任務的平均表現下降,而 BWT 評估舊任務的平均表現變化。
  • 適應性測量(Plasticity Measurement):包含向前轉移(FWD),即模型在新任務上表現的平均提升。

2.3 通用技術

t-1 到Task t
)時的災難性遺忘問題。以下是每種方法的解釋:

整合 200 多项相关研究,大模型「终生学习」最新综述来了

(a) 基於重播的方法(Replay-Based Methods):

  • 意義:這種方法透過在訓練新任務時重播先前任務的數據,來鞏固模型對舊任務的記憶。通常,重播的資料會被儲存在一個緩衝區(Buffer)中,並與目前任務的資料一起用於訓練。主要包括:

–經驗重播(Experience Replay):透過保存一部分舊任務的資料樣本,並在訓練新任務時將這些資料重新用於訓練,從而減少遺忘的發生。

–生成重播(Generative Replay):不同於保存舊數據,這種方法利用生成模型來創建偽樣本,從而在新任務的訓練中引入舊任務的知識。

  • 圖示:圖3 顯示了從Task t-1 到Task t 的過程,模型在訓練Task t 時,使用了緩衝區中的舊資料(Input t-1 )。

(b) 以正規化為基礎的方法(Regularization-Based Methods):

>
  • 意義:這種方法透過對模型參數施加正規化約束,來防止模型在學習新任務時對舊任務參數的過度調整。正則化約束可以幫助模型保留對舊任務的記憶。主要包括:
    –權重正則化(Weight Regularization):透過對模型參數施加額外的約束,限制新任務訓練時對重要權重的修改,以此保護舊任務的知識。例如,L2 正規化和彈性權重鞏固(Elastic Weight Consolidation,EWC)就是常見的技術。 –特徵正則化(Feature Regularization):正則化不僅可以作用於權重,還可以透過限制模型在特徵空間中的表現,確保新舊任務之間的特徵分佈保持穩定。
    圖示:圖3 顯示了從Task
  • t-1
到Task
t
的過程,模型在訓練Task
t
時,透過參數正規化來維持對Task
t-1

的效能。 整合 200 多项相关研究,大模型「终生学习」最新综述来了

  • (c) 以架構為基礎的方法(Architecture-Based Methods):

意義:這種方法著重於調整模型結構,以便無縫整合新任務,同時盡量減少對先前所學知識的干擾。主要包括圖4 中的六種方法:

–(a) 提示詞微調(Prompt Tuning):透過在模型的輸入前加上「軟提示詞」(Soft Prompts) ,以引導模型的生成或分類任務。這種方法只需要調整少量的參數(即提示詞),而不需要改變模型的主幹結構。

–(b) 前綴微調(Prefix Tuning):在輸入序列的前綴部分添加訓練好的可調參數,這些參數被插入到Transformer 層的自註意力機制中,幫助模型更好地捕捉上下文資訊。 –(c) 低秩適應(LoRA,Low-Rank Adaptation):LoRA 透過在特定層級增加低秩矩陣來適應新的任務,而不需要改變大模型的主要權重。這種方法大大減少了參數調整的數量,同時保持了模型的效能。 –(d) 適配器(Adapters):Adapters 是插入到模型不同層之間的可訓練模組,這些模組能夠在不改變原有模型權重的情況下,透過少量的附加參數來適應新任務。通常應用在 FFN(Feed Forward Network)和 MHA(Multi-Head Attention)部分。 –(e) 專家混合(Mixture of Experts):透過選擇性地啟動某些 「專家」 模組來處理不同的輸入,這些專家模組可以是模型中的特定層或子網路。 Router 模組負責決定哪個專家模組需要啟動。 –(f) 模型擴充(Model Expansion):透過新增圖層(New Layer)來擴充模型的容量,而保留原有的層(Old Layer)。這種方法允許模型逐漸增加其容量,以適應更複雜的任務需求。
  • 圖示:圖3 中顯示了從Task t-1 到Task t 的過程,模型在學習新任務時,部分參數被凍結(Frozen),而新增的模組用於訓練新任務(Trainable)。

(d) 以蒸餾為基礎的方法(Distillation-Based Methods):


意義:這種方法透過知識蒸餾(Knowledge Distillation),將舊模型的知識傳遞給新模型。在訓練新任務時,新模型不僅學習當前任務的數據,還要模仿舊模型對舊任務的輸出,從而保持舊任務的知識。主要包括:


–從新數據蒸餾(Distillation from New Data):學生模型在教師模型的指導下學習新任務,透過蒸餾舊模型的知識來減少對舊知識的遺忘。

–從舊數據蒸餾(Distillation from Old Data):利用教師模型在舊數據上的表現來引導學生模型對新任務的學習,從而達到保留舊知識的效果。
  • –從偽舊資料蒸餾(Distillation from Pseudo-Old Data):透過產生偽舊資料(Pseudo-Old Data),讓學生模型在學習新任務時保持對舊知識的記憶。
圖示:圖3 中顯示了從Task
t-1
到Task
t 的過程,模型在訓練新任務時,透過模仿舊模型的預測結果來保持對舊任務的知識。

三、連續預訓練

經驗重播、知識蒸餾、參數高效微調、模型擴展和再加熱等技術已顯示出良好的前景。

3.1 連續垂直領域預訓練

(Continual Vertical Domain Pretraining)旨在透過在一系列領域特定的資料集上連續訓練語言模型,確保模型在多個垂直領域或任務中表現出色,同時保留先前獲得的知識。
主要方法:
  • 1. 參數高效率微調(Parameter-Efficient Fine-Tuning):
  • 範例:CorpusBrain++ 採用骨幹- 適配器架構和經驗重播策略來應對現實世界中的知識密集型語言任務。

範例:Med-PaLM 透過使用少量範例引入醫學領域的指令提示調優。

  • 2. 模型擴展(Model Expansion):
  • 範例:ELLE 採用功能保留的模型擴展策略,透過靈活擴展現有預訓練語言模型的寬度和深度來提高知識獲取和整合的效率。

範例:LLaMA Pro 透過擴展 Transformer 區塊並使用新語料庫進行微調,在通用使用、程式設計和數學任務中表現出色。

  • 3. 再預熱(Re-warming):



範例:Gupta 等提出的策略,透過引入新資料集時調整學習率,防止長期訓練期間學習率過低,從而提高適應新資料集的效果。

4. 資料選擇(Data Selection):


範例:RHO-1 透過選擇性語言模型(SLM)訓練,優先選擇對訓練過程有更大影響的標記。

範例:EcomGPT-CT 透過半結構化電子商務資料增強模型在領域特定任務中的表現。
  • 3.2 連續語言領域預訓練領域預訓練(Continual Language Domain Pretraining)旨在使語言模型能夠不斷整合新數據,並適應不斷變化的語言領域而不遺忘先前的知識。 主要方法:1. 架構調整方法(Architecture-Based Methods):範例:Yadav 等透過引入教師強制機制改進提示調優,創建一組提示引導模型在新任務上的微調。 範例:ModuleFormer 和 Lifelong-MoE 使用專家混合(MoE)方法,透過模組化和動態增加模型容量來增強 LLM 的效率和適應性。

2. 再預熱(Re-warming):




範例:Ibrahim 等提出的再預熱方法,透過在訓練新資料時暫時增加學習率,幫助模型更快適應新語言。

3.3 連續時間領域預訓練


領域預訓練(Continual Temporal Domain Pretraining)涉及不斷更新語言模型,以保持其在時間敏感資料上的準確性和相關性。

整合 200 多项相关研究,大模型「终生学习」最新综述来了

主要挑戰:1. 表現下降:Lazaridou 等的研究顯示,模型在未來資料上的表現顯著下降,凸顯了LLM 在時間泛化上的困難。 2. 有限改進:Röttger 等發現,雖然時間適應在掩碼語言模型任務上有輕微改進,但與單純的領域適應相比,對下游任務性能的提升並不顯著。 透過這些方法和研究,作者展示了連續預訓練在不同維度上的方法和挑戰,並強調了在垂直領域、語言領域和時間域中應用終身學習的必要性和有效性。 四、連續微調連續預訓練可增強大語言模型的內部可增強大語言模型的內部訓練可增強大語言模型的內部訓練可增強大語言模型的內部訓練可增強大語言模型的內部訓練可增強大語言模型的內部訓練可增強大語言模型的內部訓練可增強大語模型知識,在此基礎上,連續微調增強了大語言模型的內部知識,並使大語言模型適應特定任務,如文本分類、命名實體識別、關係提取、機器翻譯或一般生成任務,如指令調整、知識編輯和與人類偏好對齊。為了應對災難性遺忘和任務幹擾等挑戰,採用了蒸餾、重播、正則化、基於架構和基於梯度的方法等技術。作者在圖 5 中對 7 種連續微調場景進行了說明。
這張圖展示了七種不同類型的任務如何透過連續學習在大語言模型中實現。以下是每個部分的詳細解釋:

(a) 連續文本分類

  • 範例:連續文字分類任務透過逐步引入新的分類類別(如Intent: Transfer -> Intent: Credit Score -> Intent: Fun Fact)來訓練模型,使其能夠適應不斷變化的分類需求。

(b) 連續命名實體辨識

  • 例如:連續命名實體辨識任務展示如何在識別特定實體的同時,逐步引入新的實體類型(如Athlete -> Sports Team -> Politician),使模型能夠在識別新的實體時仍保持對舊實體的識別能力。

(c) 連續關係抽取

  • 連續關係抽取任務透過不斷引入新的關係類型(如Relation: Founded By -> Relation: State or Province of Birth -> Relation: Country of Headquarters),展示了模型如何逐步擴展其關係抽取能力。

(d) 連續知識編輯

Which club does Cristiano Ronaldo currently play for? -> Where was the last Winter Olympics held?)。


(e) 連續機器翻譯
連續機器翻譯任務透過逐步擴展模型對不同語言的翻譯能力(如English -> Chinese, English -> Spanish, English -> French),展示了模型在多語言環境中的適應能力。


(f) 連續指令微調
連續指令微調任務透過逐步引入新的指令類型(如Summarization -> Style Transfer -> Mathematics),訓練模型在多種任務類型下的表現能力。


(g) 連續對齊

Concise and Organized -> Positive Sentiment),展示了模型在不同道德和行為標準下的連續學習能力。

五、外在知識

整合 200 多项相关研究,大模型「终生学习」最新综述来了

Retrieval-Based Lifelong Learning

  • Introduction: With the continuous increase of information in the world Scaling up and evolving rapidly, static models trained on historical data quickly become outdated and unable to understand or generate content about new developments. Retrieval-based lifelong learning addresses the critical need for large language models to acquire and assimilate the latest knowledge from external sources, and the model supplements or updates its knowledge base by retrieving these external resources when needed. These external resources provide a large current knowledge base, providing an important complementary asset for enhancing the static properties of pretrained LLMs.
  • Example: These external resources in the diagram are accessible and retrievable by the model. By accessing external information sources such as Wikipedia, books, databases, etc., the model is able to update its knowledge and adapt when encountering new information.

Tool-Based Lifelong Learning

  • Introduction: Tool-based lifelong learning arises from the necessity to extend its functionality beyond static knowledge and enable it to dynamically interact with the environment. In real-world applications, models are often required to perform tasks that involve operations beyond direct text generation or interpretation.
  • Example: The model in the figure uses these tools to extend and update its own capabilities, enabling lifelong learning through interaction with external tools. For example, models can obtain real-time data through application programming interfaces, or interact with the external environment through physical tools to complete specific tasks or acquire new knowledge.

6. Discussion and Conclusion

6.1 Main Challenges

  • Catastrophic Forgetting: This is one of the core challenges of lifelong learning, and the introduction of new information may Will overwrite what the model has learned previously.
  • Plasticity-Stability Dilemma: It is very critical to find a balance between maintaining the learning ability and stability of the model, which directly affects the model's ability to acquire new knowledge. while retaining its broad general capabilities.
  • Expensive Computation Cost: The computational requirements for fully fine-tuning a large language model can be very high.
  • Unavailability of model weights or pre-trained data: Due to privacy, proprietary restrictions, or commercial licenses, raw training data or model weights are often unavailable for further improvements.

6.2 Current Trends

  • From specific tasks to general tasks: Research gradually shifts from focusing on specific tasks (such as text classification, named entity recognition) to a wider range of general tasks, such as instruction tuning, knowledge editing, etc.
  • From full fine-tuning to partial fine-tuning: In view of the high resource consumption of full fine-tuning, partial fine-tuning strategies (such as Adapter layer, Prompt tuning, LoRA) are becoming more and more popular.
  • From internal knowledge to external knowledge: In order to overcome the limitations of frequent internal updates, more and more strategies use external knowledge sources, such as Retrieval-Augmented Generation and tools Learning enables models to dynamically access and exploit current external data.

6.3 Future Direction

  • Multimodal lifelong learning: Integrate multiple modalities beyond text (such as images, videos, audios, time series data, knowledge graphs) into lifelong learning to develop more comprehensive and adaptive sexual model.
  • Efficient lifelong learning: Researchers are working on developing more efficient strategies to manage the computational requirements of model training and updates, such as model pruning, model merging, model expansion and other methods.
  • Universal lifelong learning: The ultimate goal is to enable large language models to actively acquire new knowledge and learn through dynamic interaction with the environment, no longer relying solely on static data sets.

6.4 Conclusion

The author divides the existing research into It provides a comprehensive summary of 12 lifelong learning scenarios. The analysis also highlights the need to maintain a balance between managing catastrophic forgetting, ensuring computational efficiency, and between specificity and generality in knowledge acquisition. As the field continues to evolve, the integration of these advanced strategies will play a key role in shaping the next generation of artificial intelligence systems, helping them get closer to achieving truly human-like learning and adaptability.

Through a detailed study of these technological approaches and their respective categories, this review aims to highlight the integration of lifelong learning capabilities into lifelong learning tools, thereby enhancing their real-world Adaptability, reliability and overall performance in the application.At the same time, it provides researchers and engineers with a comprehensive perspective to help them better understand and apply lifelong learning technology and promote the further development of large language models. If you are interested in the article, you can check out the original paper to learn more about the research.

以上是整合 200 多項相關研究,大模型「終身學習」最新綜述來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn