全面了解大語言模型，這有一份閱讀清單-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

全面了解大語言模型，這有一份閱讀清單

PHPz

Mar 31, 2023 pm 10:40 PM

ai模型

了解當代大型語言模型背後的設計、限制和演變，你可以遵循本文的閱讀清單。

大型語言模型已經引起了公眾的注意，短短五年內，Transforme等模型幾乎完全改變了自然語言處理領域。此外，它們也開始在電腦視覺和計算生物學等領域引發革命。

鑑於Transformers對每個人的研究進程都有如此大的影響，本文將為大家介紹一個簡短的閱讀清單，供機器學習研究人員和從業者入門使用。

下面的清單主要是按時間順序展開的，主要是一些學術研究論文。當然，還有許多其他有用的資源。例如：

Jay Alammar撰寫的《The Illustrated Transformer》
Lilian Weng撰寫的《The Transformer Family》
Xavier Amatriain撰寫的《Transformer models: an introduction and catalog — 2023 Edition》
Andrej Karpathy寫的nanoGPT庫

對主要架構和任務的理解

# 如果你是Transformers、大型語言模型新手，那麼這幾篇文章最適合你。

論文1：《Neural Machine Translation by Jointly Learning to Align and Translate》

全面了解大語言模型，這有一份閱讀清單

##論文地址：https:// arxiv.org/pdf/1409.0473.pdf

本文引入了一種循環神經網路（RNN）注意力機制，提高了模型遠端序列建模能力。這使得RNN能夠更準確地翻譯較長的句子——這也是後來開發原始Transformer架構的動機。

全面了解大語言模型，這有一份閱讀清單

圖源: https://arxiv.org/abs/1409.0473

論文2：《Attention Is All You Need 》

全面了解大語言模型，這有一份閱讀清單

論文網址：https://arxiv.org/abs/1706.03762

本文介紹了由編碼器和解碼器組成的原始Transformer架構，這些部分將在以後作為單獨模組進行相關介紹。此外，本文也介紹了縮放點積注意力機制、多頭注意力塊和位置輸入編碼等概念，這些概念仍然是現代Transformer的基礎。

全面了解大語言模型，這有一份閱讀清單

圖源：https://arxiv.org/abs/1706.03762

論文3：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

全面了解大語言模型，這有一份閱讀清單

#論文網址：https://arxiv.org/abs/1810.04805

大型語言模型研究遵循最初的Transformer架構，然後開始向兩個方向延伸：用於預測建模任務（如文本分類）的Transformer和用於生成建模任務（如翻譯、摘要和其他形式的文本創建）的Transformer 。

BERT論文介紹了遮罩語言建模原始概念，如果你對這個研究分支感興趣，那麼可以跟進RoBERTa，其簡化了預訓練目標。

全面了解大語言模型，這有一份閱讀清單

圖片來源：https://arxiv.org/abs/1810.04805

論文4：《Improving Language Understanding by Generative Pre-Training》

全面了解大語言模型，這有一份閱讀清單

#論文網址：https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative- Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

最初的GPT論文介紹了流行的解碼器風格的架構和透過下一個單字預測進行預訓練。 BERT由於其掩碼語言模型預訓練目標，可以被認為是雙向Transformer，而GPT是一個單向自回歸模型。雖然GPT嵌入也可以用於分類，但GPT方法是當今最有影響力的LLMs（如ChatGPT）的核心。

如果你對這個研究分支有興趣，那麼可以跟進GPT-2和GPT-3的論文。此外，本文將在後面單獨介紹InstructGPT方法。

全面了解大語言模型，這有一份閱讀清單

論文5：《BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》

全面了解大語言模型，這有一份閱讀清單

#論文網址https://arxiv.org/abs/1910.13461.

如上所述， BERT型編碼器風格的LLM通常是預測建模任務的首選，而GPT型解碼器風格的LLM更擅長生成文字。為了兩全其美，上面的BART論文結合了編碼器和解碼器部分。

全面了解大語言模型，這有一份閱讀清單

擴展定律與效率提升

如果你想了解更多關於提高Transformer效率的技術，可以參考以下論文

論文1：《A Survey on Efficient Training of Transformers》
論文網址：https://arxiv.org/abs/2302.01107

#論文2：《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》
論文地址：https://arxiv.org/abs/2205.14135

#論文3：《Cramming: Training a Language Model on a Single GPU in One Day》
論文地址：https://arxiv .org/abs/2212.14034

論文4：《Training Compute-Optimal Large Language Models》
論文地址：https: //arxiv.org/abs/2203.15556

此外，還有論文《Training Compute-Optimal Large Language Models》

論文網址：https://arxiv.org/abs /2203.15556

本文介紹了700億參數的Chinchilla模型，在產生建模任務上優於流行的1750億參數的GPT-3模型。然而，它的主要點睛之處在於，當代大型語言模式訓練嚴重不足。

本文定義了用於大型語言模型訓練的線性scaling law。例如，雖然Chinchilla的大小只有GPT-3的一半，但它的表現優於GPT-3，因為它是在1.4萬億（而不是3000億）token上進行訓練的。換句話說，訓練token的數量和模型大小一樣重要。

全面了解大語言模型，這有一份閱讀清單

對齊－將大型語言模型朝著預期的目標和興趣引導

##近年來出現了許多相對強大的大型語言模型，它們可以產生真實的文字（例如GPT-3和Chinchilla）。就常用的預訓練範式而言，目前似乎已經達到了一個上限。

為了讓語言模型更能幫助人類，減少錯誤訊息和不良語言，研究人員設計了額外的訓練範式來微調預訓練的基礎模型，包括以下論文。

論文網址：https://arxiv.org/abs/2203.02155

在這篇所謂的InstructGPT論文中，研究人員使用了RLHF（Reinforcement Learning from Human Feedback）。他們從預先訓練的GPT-3基礎模型開始，並使用監督學習對人類生成的提示反應對進行進一步微調（步驟1）。接下來，他們要求人類對模型輸出進行排序以訓練獎勵模型（步驟2）。最後，他們使用獎勵模型透過近端策略優化（步驟3）使用強化學習來更新預訓練和微調的GPT-3模型。

順便說一句，這篇論文也被稱為描述ChatGPT背後想法的論文——根據最近的傳言，ChatGPT是InstructGPT的擴展版本，它在更大的數據集上進行了微調。

全面了解大語言模型，這有一份閱讀清單

論文2：《Constitutional AI: Harmlessness from AI Feedback》
論文網址：https://arxiv.org/abs/2212.08073

#在這篇在論文中，研究人員進一步推進了對齊的想法，提出了創建「harmless」的AI系統的訓練機制。研究人員提出了一種基於規則清單（由人類提供）的自訓練機制，而不是直接由人類監督。與上述的InstructGPT論文類似，所提出的方法使用了強化學習方法。

全面了解大語言模型，這有一份閱讀清單

總結

本文對上方表單的排列盡量保持簡潔美觀，建議重點關注前10篇論文，以了解當代大型語言模型背後的設計、限制和演變。

如果想深入閱讀，建議參考上述論文的參考文獻。或者，這裡有一些額外的資源，供讀者進一步研究：

GPT的開源替代方案

論文1：《BLOOM: A 176B-Parameter Open-Access Multilingual Language Model》
論文網址：https://arxiv.org/abs/2211.05100

論文2 ：《OPT: Open Pre-trained Transformer Language Models》
論文網址：https://arxiv.org/abs/2205.01068

#ChatGPT的替代方案

論文1《LaMDA: Language Models for Dialog Applications》
論文網址：https://arxiv.org/abs/2201.08239

#論文2：《Improving alignment of dialogue agents via targeted human judgements》
論文地址：https://arxiv.org/abs/2209.14375

#論文3：《BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage》
論文地址：https://arxiv. org/abs/2208.03188

計算生物學中的大型語言模型

論文1：《 ProtTrans: Towards Cracking the Language of Life's Code Through Self-Supervised Learning 》
論文網址：https://arxiv.org/abs/2007.06225

論文2：《Highly accurate protein structure prediction with AlphaFold》
論文地址：https://www.nature.com/articles/s41586-021-03819-2

################################################# ########論文3：《Large Language Models Generate Functional Protein Sequences Across Diverse Families》######論文地址：https://www.nature.com/articles/s41587-022-01618- 2######

以上是全面了解大語言模型，這有一份閱讀清單的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51cto。如有侵權，請聯絡admin@php.cn刪除

讓我們跳舞：結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡（如秀麗隱桿線蟲中的神經網絡），以了解其功能。但是，出現了一個關鍵問題：我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級：新的訂閱層即將到來目前，訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。但是，Android Authority報告暗示了即將發生的變化。最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作，但企業AI部署中潛伏的巨大挑戰：數據處理瓶頸。首席執行官慶祝AI的進步時，工程師努力應對緩慢的查詢時間，管道超載，一個

Markitdown MCP可以將任何文檔轉換為Markdowns！Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件，而是將混亂變成清晰度。諸如PDF，PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理？ - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件（ADK）的力量創建具有現實世界功能的智能代理！該教程通過使用ADK來構建對話代理，並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要：小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中，它們比大型語言模型 (LLM) 更勝一籌。最適合專注型任務，尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品，但在精度、速度和成本效益至關重要時，它們是理想之選。技術幫助我們用更少的資源取得更多成就。它一直是推動者，而非驅動者。從蒸汽機時代到互聯網泡沫時期，技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例