了解當代大型語言模型背後的設計、限制和演變,你可以遵循本文的閱讀清單。
大型語言模型已經引起了公眾的注意,短短五年內,Transforme等模型幾乎完全改變了自然語言處理領域。此外,它們也開始在電腦視覺和計算生物學等領域引發革命。
鑑於Transformers對每個人的研究進程都有如此大的影響,本文將為大家介紹一個簡短的閱讀清單,供機器學習研究人員和從業者入門使用。
下面的清單主要是按時間順序展開的,主要是一些學術研究論文。當然,還有許多其他有用的資源。例如:
- Jay Alammar撰寫的《The Illustrated Transformer》
- Lilian Weng撰寫的《The Transformer Family》
- Xavier Amatriain撰寫的《Transformer models: an introduction and catalog — 2023 Edition》
- Andrej Karpathy寫的nanoGPT庫
對主要架構和任務的理解
# 如果你是Transformers、大型語言模型新手,那麼這幾篇文章最適合你。
論文1:《Neural Machine Translation by Jointly Learning to Align and Translate》
圖源: https://arxiv.org/abs/1409.0473
論文2:《Attention Is All You Need 》
圖源:https://arxiv.org/abs/1706.03762
論文3:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
圖片來源:https://arxiv.org/abs/1810.04805
論文4:《Improving Language Understanding by Generative Pre-Training》
論文5:《BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》
#論文網址https://arxiv.org/abs/1910.13461.
如上所述, BERT型編碼器風格的LLM通常是預測建模任務的首選,而GPT型解碼器風格的LLM更擅長生成文字。為了兩全其美,上面的BART論文結合了編碼器和解碼器部分。
擴展定律與效率提升
如果你想了解更多關於提高Transformer效率的技術,可以參考以下論文
- 論文1:《A Survey on Efficient Training of Transformers》
- 論文網址:https://arxiv.org/abs/2302.01107
- #論文2:《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》
- 論文地址:https://arxiv.org/abs/2205.14135
- #論文3:《Cramming: Training a Language Model on a Single GPU in One Day》
- 論文地址:https://arxiv .org/abs/2212.14034
- 論文4:《Training Compute-Optimal Large Language Models》
- 論文地址:https: //arxiv.org/abs/2203.15556
此外,還有論文《Training Compute-Optimal Large Language Models》
論文網址:https://arxiv.org/abs /2203.15556
本文介紹了700億參數的Chinchilla模型,在產生建模任務上優於流行的1750億參數的GPT-3模型。然而,它的主要點睛之處在於,當代大型語言模式訓練嚴重不足。
本文定義了用於大型語言模型訓練的線性scaling law。例如,雖然Chinchilla的大小只有GPT-3的一半,但它的表現優於GPT-3,因為它是在1.4萬億(而不是3000億)token上進行訓練的。換句話說,訓練token的數量和模型大小一樣重要。
對齊-將大型語言模型朝著預期的目標和興趣引導
##近年來出現了許多相對強大的大型語言模型,它們可以產生真實的文字(例如GPT-3和Chinchilla)。就常用的預訓練範式而言,目前似乎已經達到了一個上限。 為了讓語言模型更能幫助人類,減少錯誤訊息和不良語言,研究人員設計了額外的訓練範式來微調預訓練的基礎模型,包括以下論文。- 論文1:《Training Language Models to Follow Instructions with Human Feedback》
- 論文網址:https://arxiv.org/abs/2203.02155
- 論文2:《Constitutional AI: Harmlessness from AI Feedback》
- 論文網址:https://arxiv.org/abs/2212.08073
#在這篇在論文中,研究人員進一步推進了對齊的想法,提出了創建「harmless」的AI系統的訓練機制。研究人員提出了一種基於規則清單(由人類提供)的自訓練機制,而不是直接由人類監督。與上述的InstructGPT論文類似,所提出的方法使用了強化學習方法。
總結
本文對上方表單的排列盡量保持簡潔美觀,建議重點關注前10篇論文,以了解當代大型語言模型背後的設計、限制和演變。
如果想深入閱讀,建議參考上述論文的參考文獻。或者,這裡有一些額外的資源,供讀者進一步研究:
GPT的開源替代方案
- 論文1:《BLOOM: A 176B-Parameter Open-Access Multilingual Language Model》
- 論文網址:https://arxiv.org/abs/2211.05100
- 論文2 :《OPT: Open Pre-trained Transformer Language Models》
- 論文網址:https://arxiv.org/abs/2205.01068
#ChatGPT的替代方案
- 論文1《LaMDA: Language Models for Dialog Applications》
- 論文網址:https://arxiv.org/abs/2201.08239
- #論文2:《Improving alignment of dialogue agents via targeted human judgements》
- 論文地址:https://arxiv.org/abs/2209.14375
- #論文3:《BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage》
- 論文地址:https://arxiv. org/abs/2208.03188
計算生物學中的大型語言模型
- 論文1:《 ProtTrans: Towards Cracking the Language of Life's Code Through Self-Supervised Learning 》
- 論文網址:https://arxiv.org/abs/2007.06225
- 論文2: 《Highly accurate protein structure prediction with AlphaFold》
- 論文地址:https://www.nature.com/articles/s41586-021-03819-2
以上是全面了解大語言模型,這有一份閱讀清單的詳細內容。更多資訊請關注PHP中文網其他相關文章!

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:https://spj.scien

译者 | 李睿审校 | 孙淑娟近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版
SublimeText3 Linux最新版