了解當代大型語言模型背後的設計、限制和演變,你可以遵循本文的閱讀清單。
大型語言模型已經引起了公眾的注意,短短五年內,Transforme等模型幾乎完全改變了自然語言處理領域。此外,它們也開始在電腦視覺和計算生物學等領域引發革命。
鑑於Transformers對每個人的研究進程都有如此大的影響,本文將為大家介紹一個簡短的閱讀清單,供機器學習研究人員和從業者入門使用。
下面的清單主要是按時間順序展開的,主要是一些學術研究論文。當然,還有許多其他有用的資源。例如:
- Jay Alammar撰寫的《The Illustrated Transformer》
- Lilian Weng撰寫的《The Transformer Family》
- Xavier Amatriain撰寫的《Transformer models: an introduction and catalog — 2023 Edition》
- Andrej Karpathy寫的nanoGPT庫
對主要架構和任務的理解
# 如果你是Transformers、大型語言模型新手,那麼這幾篇文章最適合你。
論文1:《Neural Machine Translation by Jointly Learning to Align and Translate》
圖源: https://arxiv.org/abs/1409.0473
論文2:《Attention Is All You Need 》
圖源:https://arxiv.org/abs/1706.03762
論文3:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
圖片來源:https://arxiv.org/abs/1810.04805
論文4:《Improving Language Understanding by Generative Pre-Training》
論文5:《BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》
#論文網址https://arxiv.org/abs/1910.13461.
如上所述, BERT型編碼器風格的LLM通常是預測建模任務的首選,而GPT型解碼器風格的LLM更擅長生成文字。為了兩全其美,上面的BART論文結合了編碼器和解碼器部分。
擴展定律與效率提升
如果你想了解更多關於提高Transformer效率的技術,可以參考以下論文
- 論文1:《A Survey on Efficient Training of Transformers》
- 論文網址:https://arxiv.org/abs/2302.01107
- #論文2:《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》
- 論文地址:https://arxiv.org/abs/2205.14135
- #論文3:《Cramming: Training a Language Model on a Single GPU in One Day》
- 論文地址:https://arxiv .org/abs/2212.14034
- 論文4:《Training Compute-Optimal Large Language Models》
- 論文地址:https: //arxiv.org/abs/2203.15556
此外,還有論文《Training Compute-Optimal Large Language Models》
論文網址:https://arxiv.org/abs /2203.15556
本文介紹了700億參數的Chinchilla模型,在產生建模任務上優於流行的1750億參數的GPT-3模型。然而,它的主要點睛之處在於,當代大型語言模式訓練嚴重不足。
本文定義了用於大型語言模型訓練的線性scaling law。例如,雖然Chinchilla的大小只有GPT-3的一半,但它的表現優於GPT-3,因為它是在1.4萬億(而不是3000億)token上進行訓練的。換句話說,訓練token的數量和模型大小一樣重要。
對齊-將大型語言模型朝著預期的目標和興趣引導
##近年來出現了許多相對強大的大型語言模型,它們可以產生真實的文字(例如GPT-3和Chinchilla)。就常用的預訓練範式而言,目前似乎已經達到了一個上限。 為了讓語言模型更能幫助人類,減少錯誤訊息和不良語言,研究人員設計了額外的訓練範式來微調預訓練的基礎模型,包括以下論文。- 論文1:《Training Language Models to Follow Instructions with Human Feedback》
- 論文網址:https://arxiv.org/abs/2203.02155
- 論文2:《Constitutional AI: Harmlessness from AI Feedback》
- 論文網址:https://arxiv.org/abs/2212.08073
#在這篇在論文中,研究人員進一步推進了對齊的想法,提出了創建「harmless」的AI系統的訓練機制。研究人員提出了一種基於規則清單(由人類提供)的自訓練機制,而不是直接由人類監督。與上述的InstructGPT論文類似,所提出的方法使用了強化學習方法。
總結
本文對上方表單的排列盡量保持簡潔美觀,建議重點關注前10篇論文,以了解當代大型語言模型背後的設計、限制和演變。
如果想深入閱讀,建議參考上述論文的參考文獻。或者,這裡有一些額外的資源,供讀者進一步研究:
GPT的開源替代方案
- 論文1:《BLOOM: A 176B-Parameter Open-Access Multilingual Language Model》
- 論文網址:https://arxiv.org/abs/2211.05100
- 論文2 :《OPT: Open Pre-trained Transformer Language Models》
- 論文網址:https://arxiv.org/abs/2205.01068
#ChatGPT的替代方案
- 論文1《LaMDA: Language Models for Dialog Applications》
- 論文網址:https://arxiv.org/abs/2201.08239
- #論文2:《Improving alignment of dialogue agents via targeted human judgements》
- 論文地址:https://arxiv.org/abs/2209.14375
- #論文3:《BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage》
- 論文地址:https://arxiv. org/abs/2208.03188
計算生物學中的大型語言模型
- 論文1:《 ProtTrans: Towards Cracking the Language of Life's Code Through Self-Supervised Learning 》
- 論文網址:https://arxiv.org/abs/2007.06225
- 論文2: 《Highly accurate protein structure prediction with AlphaFold》
- 論文地址:https://www.nature.com/articles/s41586-021-03819-2
以上是全面了解大語言模型,這有一份閱讀清單的詳細內容。更多資訊請關注PHP中文網其他相關文章!

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

WebStorm Mac版
好用的JavaScript開發工具

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境