搜尋
首頁科技週邊人工智慧全面了解大語言模型,這有一份閱讀清單

了解當代大型語言模型背後的設計、限制和演變,你可以遵循本文的閱讀清單。

大型語言模型已經引起了公眾的注意,短短五年內,Transforme等模型幾乎完全改變了自然語言處理領域。此外,它們也開始在電腦視覺和計算生物學等領域引發革命。

鑑於Transformers對每個人的研究進程都有如此大的影響,本文將為大家介紹一個簡短的閱讀清單,供機器學習研究人員和從業者入門使用。

下面的清單主要是按時間順序展開的,主要是一些學術研究論文。當然,還有許多其他有用的資源。例如:

  • Jay Alammar撰寫的《The Illustrated Transformer》
  • Lilian Weng撰寫的《The Transformer Family》
  • Xavier Amatriain撰寫的《Transformer models: an introduction and catalog — 2023 Edition》
  • Andrej Karpathy寫的nanoGPT庫

對主要架構和任務的理解

# 如果你是Transformers、大型語言模型新手,那麼這幾篇文章最適合你。

論文1:《Neural Machine Translation by Jointly Learning to Align and Translate》

全面了解大語言模型,這有一份閱讀清單

##論文地址:https:// arxiv.org/pdf/1409.0473.pdf

本文引入了一種循環神經網路(RNN)注意力機制,提高了模型遠端序列建模能力。這使得RNN能夠更準確地翻譯較長的句子——這也是後來開發原始Transformer架構的動機。

全面了解大語言模型,這有一份閱讀清單

圖源: https://arxiv.org/abs/1409.0473

論文2:《Attention Is All You Need 》

全面了解大語言模型,這有一份閱讀清單

論文網址:https://arxiv.org/abs/1706.03762

本文介紹了由編碼器和解碼器組成的原始Transformer架構,這些部分將在以後作為單獨模組進行相關介紹。此外,本文也介紹了縮放點積注意力機制、多頭注意力塊和位置輸入編碼等概念,這些概念仍然是現代Transformer的基礎。

全面了解大語言模型,這有一份閱讀清單

圖源:https://arxiv.org/abs/1706.03762

論文3:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

全面了解大語言模型,這有一份閱讀清單

#論文網址:https://arxiv.org/abs/1810.04805

大型語言模型研究遵循最初的Transformer架構,然後開始向兩個方向延伸:用於預測建模任務(如文本分類)的Transformer和用於生成建模任務(如翻譯、摘要和其他形式的文本創建)的Transformer 。 

BERT論文介紹了遮罩語言建模原始概念,如果你對這個研究分支感興趣,那麼可以跟進RoBERTa,其簡化了預訓練目標。

全面了解大語言模型,這有一份閱讀清單

圖片來源:https://arxiv.org/abs/1810.04805

論文4:《Improving Language Understanding by Generative Pre-Training》

全面了解大語言模型,這有一份閱讀清單

#論文網址:https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative- Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

最初的GPT論文介紹了流行的解碼器風格的架構和透過下一個單字預測進行預訓練。 BERT由於其掩碼語言模型預訓練目標,可以被認為是雙向Transformer,而GPT是一個單向自回歸模型。雖然GPT嵌入也可以用於分類,但GPT方法是當今最有影響力的LLMs(如ChatGPT)的核心。 

如果你對這個研究分支有興趣,那麼可以跟進GPT-2和GPT-3的論文。此外,本文將在後面單獨介紹InstructGPT方法。 

全面了解大語言模型,這有一份閱讀清單

論文5:《BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》

全面了解大語言模型,這有一份閱讀清單

#論文網址https://arxiv.org/abs/1910.13461.

如上所述, BERT型編碼器風格的LLM通常是預測建模任務的首選,而GPT型解碼器風格的LLM更擅長生成文字。為了兩全其美,上面的BART論文結合了編碼器和解碼器部分。

全面了解大語言模型,這有一份閱讀清單

擴展定律與效率提升

如果你想了解更多關於提高Transformer效率的技術,可以參考以下論文

  • 論文1:《A Survey on Efficient Training of Transformers》
  • 論文網址:https://arxiv.org/abs/2302.01107


  • #論文2:《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》
  • 論文地址:https://arxiv.org/abs/2205.14135


  • #論文3:《Cramming: Training a Language Model on a Single GPU in One Day》
  • 論文地址:https://arxiv .org/abs/2212.14034


  • 論文4:《Training Compute-Optimal Large Language Models》
  • 論文地址:https: //arxiv.org/abs/2203.15556

此外,還有論文《Training Compute-Optimal Large Language Models》

論文網址:https://arxiv.org/abs /2203.15556

本文介紹了700億參數的Chinchilla模型,在產生建模任務上優於流行的1750億參數的GPT-3模型。然而,它的主要點睛之處在於,當代大型語言模式訓練嚴重不足。

本文定義了用於大型語言模型訓練的線性scaling law。例如,雖然Chinchilla的大小只有GPT-3的一半,但它的表現優於GPT-3,因為它是在1.4萬億(而不是3000億)token上進行訓練的。換句話說,訓練token的數量和模型大小一樣重要。

全面了解大語言模型,這有一份閱讀清單

對齊-將大型語言模型朝著預期的目標和興趣引導

##近年來出現了許多相對強大的大型語言模型,它們可以產生真實的文字(例如GPT-3和Chinchilla)。就常用的預訓練範式而言,目前似乎已經達到了一個上限。

為了讓語言模型更能幫助人類,減少錯誤訊息和不良語言,研究人員設計了額外的訓練範式來微調預訓練的基礎模型,包括以下論文。

    論文1:《Training Language Models to Follow Instructions with Human Feedback》
  • 論文網址:https://arxiv.org/abs/2203.02155
在這篇所謂的InstructGPT論文中,研究人員使用了RLHF(Reinforcement Learning from Human Feedback)。他們從預先訓練的GPT-3基礎模型開始,並使用監督學習對人類生成的提示反應對進行進一步微調(步驟1)。接下來,他們要求人類對模型輸出進行排序以訓練獎勵模型(步驟2)。最後,他們使用獎勵模型透過近端策略優化(步驟3)使用強化學習來更新預訓練和微調的GPT-3模型。

順便說一句,這篇論文也被稱為描述ChatGPT背後想法的論文——根據最近的傳言,ChatGPT是InstructGPT的擴展版本,它在更大的數據集上進行了微調。

全面了解大語言模型,這有一份閱讀清單

  • 論文2:《Constitutional AI: Harmlessness from AI Feedback》
  • 論文網址:https://arxiv.org/abs/2212.08073

#在這篇在論文中,研究人員進一步推進了對齊的想法,提出了創建「harmless」的AI系統的訓練機制。研究人員提出了一種基於規則清單(由人類提供)的自訓練機制,而不是直接由人類監督。與上述的InstructGPT論文類似,所提出的方法使用了強化學習方法。

全面了解大語言模型,這有一份閱讀清單

總結

本文對上方表單的排列盡量保持簡潔美觀,建議重點關注前10篇論文,以了解當代大型語言模型背後的設計、限制和演變。

如果想深入閱讀,建議參考上述論文的參考文獻。或者,這裡有一些額外的資源,供讀者進一步研究:

GPT的開源替代方案

  • 論文1:《BLOOM: A 176B-Parameter Open-Access Multilingual Language Model》
  • 論文網址:https://arxiv.org/abs/2211.05100


  • 論文2 :《OPT: Open Pre-trained Transformer Language Models》
  • 論文網址:https://arxiv.org/abs/2205.01068

#ChatGPT的替代方案

  • 論文1《LaMDA: Language Models for Dialog Applications》
  • 論文網址:https://arxiv.org/abs/2201.08239


  • #論文2:《Improving alignment of dialogue agents via targeted human judgements》
  • 論文地址:https://arxiv.org/abs/2209.14375


  • #論文3:《BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage》
  • 論文地址:https://arxiv. org/abs/2208.03188

計算生物學中的大型語言模型

  • 論文1:《 ProtTrans: Towards Cracking the Language of Life's Code Through Self-Supervised Learning 》
  • 論文網址:https://arxiv.org/abs/2007.06225


  • 論文2: 《Highly accurate protein structure prediction with AlphaFold》
  • 論文地址:https://www.nature.com/articles/s41586-021-03819-2


################################################# ########論文3:《Large Language Models Generate Functional Protein Sequences Across Diverse Families》######論文地址:https://www.nature.com/articles/s41587-022-01618- 2######

以上是全面了解大語言模型,這有一份閱讀清單的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51cto。如有侵權,請聯絡admin@php.cn刪除
烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

AI分析師的崛起:為什麼這可能是AI革命中最重要的工作AI分析師的崛起:為什麼這可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境