了解當代大型語言模型背後的設計、限制和演變,你可以遵循本文的閱讀清單。
大型語言模型已經引起了公眾的注意,短短五年內,Transforme等模型幾乎完全改變了自然語言處理領域。此外,它們也開始在電腦視覺和計算生物學等領域引發革命。
鑑於Transformers對每個人的研究進程都有如此大的影響,本文將為大家介紹一個簡短的閱讀清單,供機器學習研究人員和從業者入門使用。
下面的清單主要是按時間順序展開的,主要是一些學術研究論文。當然,還有許多其他有用的資源。例如:
# 如果你是Transformers、大型語言模型新手,那麼這幾篇文章最適合你。
論文1:《Neural Machine Translation by Jointly Learning to Align and Translate》
##論文地址:https:// arxiv.org/pdf/1409.0473.pdf本文引入了一種循環神經網路(RNN)注意力機制,提高了模型遠端序列建模能力。這使得RNN能夠更準確地翻譯較長的句子——這也是後來開發原始Transformer架構的動機。圖源: https://arxiv.org/abs/1409.0473
論文2:《Attention Is All You Need 》
論文網址:https://arxiv.org/abs/1706.03762本文介紹了由編碼器和解碼器組成的原始Transformer架構,這些部分將在以後作為單獨模組進行相關介紹。此外,本文也介紹了縮放點積注意力機制、多頭注意力塊和位置輸入編碼等概念,這些概念仍然是現代Transformer的基礎。圖源:https://arxiv.org/abs/1706.03762
論文3:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
#論文網址:https://arxiv.org/abs/1810.04805大型語言模型研究遵循最初的Transformer架構,然後開始向兩個方向延伸:用於預測建模任務(如文本分類)的Transformer和用於生成建模任務(如翻譯、摘要和其他形式的文本創建)的Transformer 。 BERT論文介紹了遮罩語言建模原始概念,如果你對這個研究分支感興趣,那麼可以跟進RoBERTa,其簡化了預訓練目標。圖片來源:https://arxiv.org/abs/1810.04805
論文4:《Improving Language Understanding by Generative Pre-Training》
#論文網址:https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative- Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035最初的GPT論文介紹了流行的解碼器風格的架構和透過下一個單字預測進行預訓練。 BERT由於其掩碼語言模型預訓練目標,可以被認為是雙向Transformer,而GPT是一個單向自回歸模型。雖然GPT嵌入也可以用於分類,但GPT方法是當今最有影響力的LLMs(如ChatGPT)的核心。 如果你對這個研究分支有興趣,那麼可以跟進GPT-2和GPT-3的論文。此外,本文將在後面單獨介紹InstructGPT方法。論文5:《BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》
#論文網址https://arxiv.org/abs/1910.13461.
如上所述, BERT型編碼器風格的LLM通常是預測建模任務的首選,而GPT型解碼器風格的LLM更擅長生成文字。為了兩全其美,上面的BART論文結合了編碼器和解碼器部分。
如果你想了解更多關於提高Transformer效率的技術,可以參考以下論文
此外,還有論文《Training Compute-Optimal Large Language Models》
論文網址:https://arxiv.org/abs /2203.15556
本文介紹了700億參數的Chinchilla模型,在產生建模任務上優於流行的1750億參數的GPT-3模型。然而,它的主要點睛之處在於,當代大型語言模式訓練嚴重不足。
本文定義了用於大型語言模型訓練的線性scaling law。例如,雖然Chinchilla的大小只有GPT-3的一半,但它的表現優於GPT-3,因為它是在1.4萬億(而不是3000億)token上進行訓練的。換句話說,訓練token的數量和模型大小一樣重要。
對齊-將大型語言模型朝著預期的目標和興趣引導
##近年來出現了許多相對強大的大型語言模型,它們可以產生真實的文字(例如GPT-3和Chinchilla)。就常用的預訓練範式而言,目前似乎已經達到了一個上限。 為了讓語言模型更能幫助人類,減少錯誤訊息和不良語言,研究人員設計了額外的訓練範式來微調預訓練的基礎模型,包括以下論文。#在這篇在論文中,研究人員進一步推進了對齊的想法,提出了創建「harmless」的AI系統的訓練機制。研究人員提出了一種基於規則清單(由人類提供)的自訓練機制,而不是直接由人類監督。與上述的InstructGPT論文類似,所提出的方法使用了強化學習方法。
本文對上方表單的排列盡量保持簡潔美觀,建議重點關注前10篇論文,以了解當代大型語言模型背後的設計、限制和演變。
如果想深入閱讀,建議參考上述論文的參考文獻。或者,這裡有一些額外的資源,供讀者進一步研究:
GPT的開源替代方案
#ChatGPT的替代方案
計算生物學中的大型語言模型
以上是全面了解大語言模型,這有一份閱讀清單的詳細內容。更多資訊請關注PHP中文網其他相關文章!