搜尋
首頁科技週邊人工智慧全面了解大語言模型,這有一份閱讀清單

了解當代大型語言模型背後的設計、限制和演變,你可以遵循本文的閱讀清單。

大型語言模型已經引起了公眾的注意,短短五年內,Transforme等模型幾乎完全改變了自然語言處理領域。此外,它們也開始在電腦視覺和計算生物學等領域引發革命。

鑑於Transformers對每個人的研究進程都有如此大的影響,本文將為大家介紹一個簡短的閱讀清單,供機器學習研究人員和從業者入門使用。

下面的清單主要是按時間順序展開的,主要是一些學術研究論文。當然,還有許多其他有用的資源。例如:

  • Jay Alammar撰寫的《The Illustrated Transformer》
  • Lilian Weng撰寫的《The Transformer Family》
  • Xavier Amatriain撰寫的《Transformer models: an introduction and catalog — 2023 Edition》
  • Andrej Karpathy寫的nanoGPT庫

對主要架構和任務的理解

# 如果你是Transformers、大型語言模型新手,那麼這幾篇文章最適合你。

論文1:《Neural Machine Translation by Jointly Learning to Align and Translate》

全面了解大語言模型,這有一份閱讀清單

##論文地址:https:// arxiv.org/pdf/1409.0473.pdf

本文引入了一種循環神經網路(RNN)注意力機制,提高了模型遠端序列建模能力。這使得RNN能夠更準確地翻譯較長的句子——這也是後來開發原始Transformer架構的動機。

全面了解大語言模型,這有一份閱讀清單

圖源: https://arxiv.org/abs/1409.0473

論文2:《Attention Is All You Need 》

全面了解大語言模型,這有一份閱讀清單

論文網址:https://arxiv.org/abs/1706.03762

本文介紹了由編碼器和解碼器組成的原始Transformer架構,這些部分將在以後作為單獨模組進行相關介紹。此外,本文也介紹了縮放點積注意力機制、多頭注意力塊和位置輸入編碼等概念,這些概念仍然是現代Transformer的基礎。

全面了解大語言模型,這有一份閱讀清單

圖源:https://arxiv.org/abs/1706.03762

論文3:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

全面了解大語言模型,這有一份閱讀清單

#論文網址:https://arxiv.org/abs/1810.04805

大型語言模型研究遵循最初的Transformer架構,然後開始向兩個方向延伸:用於預測建模任務(如文本分類)的Transformer和用於生成建模任務(如翻譯、摘要和其他形式的文本創建)的Transformer 。 

BERT論文介紹了遮罩語言建模原始概念,如果你對這個研究分支感興趣,那麼可以跟進RoBERTa,其簡化了預訓練目標。

全面了解大語言模型,這有一份閱讀清單

圖片來源:https://arxiv.org/abs/1810.04805

論文4:《Improving Language Understanding by Generative Pre-Training》

全面了解大語言模型,這有一份閱讀清單

#論文網址:https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative- Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

最初的GPT論文介紹了流行的解碼器風格的架構和透過下一個單字預測進行預訓練。 BERT由於其掩碼語言模型預訓練目標,可以被認為是雙向Transformer,而GPT是一個單向自回歸模型。雖然GPT嵌入也可以用於分類,但GPT方法是當今最有影響力的LLMs(如ChatGPT)的核心。 

如果你對這個研究分支有興趣,那麼可以跟進GPT-2和GPT-3的論文。此外,本文將在後面單獨介紹InstructGPT方法。 

全面了解大語言模型,這有一份閱讀清單

論文5:《BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》

全面了解大語言模型,這有一份閱讀清單

#論文網址https://arxiv.org/abs/1910.13461.

如上所述, BERT型編碼器風格的LLM通常是預測建模任務的首選,而GPT型解碼器風格的LLM更擅長生成文字。為了兩全其美,上面的BART論文結合了編碼器和解碼器部分。

全面了解大語言模型,這有一份閱讀清單

擴展定律與效率提升

如果你想了解更多關於提高Transformer效率的技術,可以參考以下論文

  • 論文1:《A Survey on Efficient Training of Transformers》
  • 論文網址:https://arxiv.org/abs/2302.01107


  • #論文2:《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》
  • 論文地址:https://arxiv.org/abs/2205.14135


  • #論文3:《Cramming: Training a Language Model on a Single GPU in One Day》
  • 論文地址:https://arxiv .org/abs/2212.14034


  • 論文4:《Training Compute-Optimal Large Language Models》
  • 論文地址:https: //arxiv.org/abs/2203.15556

此外,還有論文《Training Compute-Optimal Large Language Models》

論文網址:https://arxiv.org/abs /2203.15556

本文介紹了700億參數的Chinchilla模型,在產生建模任務上優於流行的1750億參數的GPT-3模型。然而,它的主要點睛之處在於,當代大型語言模式訓練嚴重不足。

本文定義了用於大型語言模型訓練的線性scaling law。例如,雖然Chinchilla的大小只有GPT-3的一半,但它的表現優於GPT-3,因為它是在1.4萬億(而不是3000億)token上進行訓練的。換句話說,訓練token的數量和模型大小一樣重要。

全面了解大語言模型,這有一份閱讀清單

對齊-將大型語言模型朝著預期的目標和興趣引導

##近年來出現了許多相對強大的大型語言模型,它們可以產生真實的文字(例如GPT-3和Chinchilla)。就常用的預訓練範式而言,目前似乎已經達到了一個上限。

為了讓語言模型更能幫助人類,減少錯誤訊息和不良語言,研究人員設計了額外的訓練範式來微調預訓練的基礎模型,包括以下論文。

    論文1:《Training Language Models to Follow Instructions with Human Feedback》
  • 論文網址:https://arxiv.org/abs/2203.02155
在這篇所謂的InstructGPT論文中,研究人員使用了RLHF(Reinforcement Learning from Human Feedback)。他們從預先訓練的GPT-3基礎模型開始,並使用監督學習對人類生成的提示反應對進行進一步微調(步驟1)。接下來,他們要求人類對模型輸出進行排序以訓練獎勵模型(步驟2)。最後,他們使用獎勵模型透過近端策略優化(步驟3)使用強化學習來更新預訓練和微調的GPT-3模型。

順便說一句,這篇論文也被稱為描述ChatGPT背後想法的論文——根據最近的傳言,ChatGPT是InstructGPT的擴展版本,它在更大的數據集上進行了微調。

全面了解大語言模型,這有一份閱讀清單

  • 論文2:《Constitutional AI: Harmlessness from AI Feedback》
  • 論文網址:https://arxiv.org/abs/2212.08073

#在這篇在論文中,研究人員進一步推進了對齊的想法,提出了創建「harmless」的AI系統的訓練機制。研究人員提出了一種基於規則清單(由人類提供)的自訓練機制,而不是直接由人類監督。與上述的InstructGPT論文類似,所提出的方法使用了強化學習方法。

全面了解大語言模型,這有一份閱讀清單

總結

本文對上方表單的排列盡量保持簡潔美觀,建議重點關注前10篇論文,以了解當代大型語言模型背後的設計、限制和演變。

如果想深入閱讀,建議參考上述論文的參考文獻。或者,這裡有一些額外的資源,供讀者進一步研究:

GPT的開源替代方案

  • 論文1:《BLOOM: A 176B-Parameter Open-Access Multilingual Language Model》
  • 論文網址:https://arxiv.org/abs/2211.05100


  • 論文2 :《OPT: Open Pre-trained Transformer Language Models》
  • 論文網址:https://arxiv.org/abs/2205.01068

#ChatGPT的替代方案

  • 論文1《LaMDA: Language Models for Dialog Applications》
  • 論文網址:https://arxiv.org/abs/2201.08239


  • #論文2:《Improving alignment of dialogue agents via targeted human judgements》
  • 論文地址:https://arxiv.org/abs/2209.14375


  • #論文3:《BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage》
  • 論文地址:https://arxiv. org/abs/2208.03188

計算生物學中的大型語言模型

  • 論文1:《 ProtTrans: Towards Cracking the Language of Life's Code Through Self-Supervised Learning 》
  • 論文網址:https://arxiv.org/abs/2007.06225


  • 論文2: 《Highly accurate protein structure prediction with AlphaFold》
  • 論文地址:https://www.nature.com/articles/s41586-021-03819-2


################################################# ########論文3:《Large Language Models Generate Functional Protein Sequences Across Diverse Families》######論文地址:https://www.nature.com/articles/s41587-022-01618- 2######

以上是全面了解大語言模型,這有一份閱讀清單的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51cto。如有侵權,請聯絡admin@php.cn刪除
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版