了解當代大型語言模型背後的設計、限制和演變,你可以遵循本文的閱讀清單。
大型語言模型已經引起了公眾的注意,短短五年內,Transforme等模型幾乎完全改變了自然語言處理領域。此外,它們也開始在電腦視覺和計算生物學等領域引發革命。
鑑於Transformers對每個人的研究進程都有如此大的影響,本文將為大家介紹一個簡短的閱讀清單,供機器學習研究人員和從業者入門使用。
下面的清單主要是按時間順序展開的,主要是一些學術研究論文。當然,還有許多其他有用的資源。例如:
- Jay Alammar撰寫的《The Illustrated Transformer》
- Lilian Weng撰寫的《The Transformer Family》
- Xavier Amatriain撰寫的《Transformer models: an introduction and catalog — 2023 Edition》
- Andrej Karpathy寫的nanoGPT庫
對主要架構和任務的理解
# 如果你是Transformers、大型語言模型新手,那麼這幾篇文章最適合你。
論文1:《Neural Machine Translation by Jointly Learning to Align and Translate》
圖源: https://arxiv.org/abs/1409.0473
論文2:《Attention Is All You Need 》
圖源:https://arxiv.org/abs/1706.03762
論文3:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
圖片來源:https://arxiv.org/abs/1810.04805
論文4:《Improving Language Understanding by Generative Pre-Training》
論文5:《BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》
#論文網址https://arxiv.org/abs/1910.13461.
如上所述, BERT型編碼器風格的LLM通常是預測建模任務的首選,而GPT型解碼器風格的LLM更擅長生成文字。為了兩全其美,上面的BART論文結合了編碼器和解碼器部分。
擴展定律與效率提升
如果你想了解更多關於提高Transformer效率的技術,可以參考以下論文
- 論文1:《A Survey on Efficient Training of Transformers》
- 論文網址:https://arxiv.org/abs/2302.01107
- #論文2:《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》
- 論文地址:https://arxiv.org/abs/2205.14135
- #論文3:《Cramming: Training a Language Model on a Single GPU in One Day》
- 論文地址:https://arxiv .org/abs/2212.14034
- 論文4:《Training Compute-Optimal Large Language Models》
- 論文地址:https: //arxiv.org/abs/2203.15556
此外,還有論文《Training Compute-Optimal Large Language Models》
論文網址:https://arxiv.org/abs /2203.15556
本文介紹了700億參數的Chinchilla模型,在產生建模任務上優於流行的1750億參數的GPT-3模型。然而,它的主要點睛之處在於,當代大型語言模式訓練嚴重不足。
本文定義了用於大型語言模型訓練的線性scaling law。例如,雖然Chinchilla的大小只有GPT-3的一半,但它的表現優於GPT-3,因為它是在1.4萬億(而不是3000億)token上進行訓練的。換句話說,訓練token的數量和模型大小一樣重要。
對齊-將大型語言模型朝著預期的目標和興趣引導
##近年來出現了許多相對強大的大型語言模型,它們可以產生真實的文字(例如GPT-3和Chinchilla)。就常用的預訓練範式而言,目前似乎已經達到了一個上限。 為了讓語言模型更能幫助人類,減少錯誤訊息和不良語言,研究人員設計了額外的訓練範式來微調預訓練的基礎模型,包括以下論文。- 論文1:《Training Language Models to Follow Instructions with Human Feedback》
- 論文網址:https://arxiv.org/abs/2203.02155
- 論文2:《Constitutional AI: Harmlessness from AI Feedback》
- 論文網址:https://arxiv.org/abs/2212.08073
#在這篇在論文中,研究人員進一步推進了對齊的想法,提出了創建「harmless」的AI系統的訓練機制。研究人員提出了一種基於規則清單(由人類提供)的自訓練機制,而不是直接由人類監督。與上述的InstructGPT論文類似,所提出的方法使用了強化學習方法。
總結
本文對上方表單的排列盡量保持簡潔美觀,建議重點關注前10篇論文,以了解當代大型語言模型背後的設計、限制和演變。
如果想深入閱讀,建議參考上述論文的參考文獻。或者,這裡有一些額外的資源,供讀者進一步研究:
GPT的開源替代方案
- 論文1:《BLOOM: A 176B-Parameter Open-Access Multilingual Language Model》
- 論文網址:https://arxiv.org/abs/2211.05100
- 論文2 :《OPT: Open Pre-trained Transformer Language Models》
- 論文網址:https://arxiv.org/abs/2205.01068
#ChatGPT的替代方案
- 論文1《LaMDA: Language Models for Dialog Applications》
- 論文網址:https://arxiv.org/abs/2201.08239
- #論文2:《Improving alignment of dialogue agents via targeted human judgements》
- 論文地址:https://arxiv.org/abs/2209.14375
- #論文3:《BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage》
- 論文地址:https://arxiv. org/abs/2208.03188
計算生物學中的大型語言模型
- 論文1:《 ProtTrans: Towards Cracking the Language of Life's Code Through Self-Supervised Learning 》
- 論文網址:https://arxiv.org/abs/2007.06225
- 論文2: 《Highly accurate protein structure prediction with AlphaFold》
- 論文地址:https://www.nature.com/articles/s41586-021-03819-2
以上是全面了解大語言模型,這有一份閱讀清單的詳細內容。更多資訊請關注PHP中文網其他相關文章!

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

WebStorm Mac版
好用的JavaScript開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

禪工作室 13.0.1
強大的PHP整合開發環境