搜尋
首頁科技週邊人工智慧這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

千億、兆參數的超大模型需要有人研究,十億、百億參數的大模型也同樣需要。

剛剛,Meta 首席AI 科學家Yann LeCun 宣布,他們「開源」了一個新的大模型系列——LLaMA(Large Language Model Meta AI),參數量從70 億到650 億不等。這些模型的性能非常優異:具有130 億參數的LLaMA 模型「在大多數基準上」可以勝過GPT-3(參數量達1750 億),而且可以在單塊V100 GPU 上運行;而最大的650 億參數的LLaMA 模型可以媲美Google的Chinchilla-70B 和PaLM-540B。

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

眾所周知,參數是機器學習模型用來根據輸入資料進行預測或分類的變數。語言模型中的參數數量是影響其表現的關鍵因素,較大的模型通常能夠處理更複雜的任務並產生更連貫的輸出,這被 Richard Sutton 稱為「苦澀的教訓」。在過去的幾年裡,各大科技巨頭圍繞著千億、萬億參數量的大模型展開了軍備競賽,大大提高了 AI 模型的性能。

但是,這種比拼「鈔能力」的研究競賽對於不在科技巨頭工作的普通研究者來說並不友好,阻礙了他們對於大模型運作原理、潛在問題解決方案等問題的研究。而且,在實際應用中,更多的參數會佔用更多的空間,並且需要更多的運算資源來運行,導致大模型應用成本居高不下。因此,如果一個模型可以用更少的參數來獲得與另一個模型相同的結果,則表示效率顯著提高。這對於普通研究者來說非常友好,模型在現實環境中部署也會更容易。這便是 Meta 這項研究的意義所在。

「我現在認為,在一兩年內,我們將在自己的(頂級)手機和筆記型電腦上運行具有ChatGPT 相當一部分能力的語言模型,」獨立人工智慧研究員Simon Willison 在分析Meta 新AI 模型的影響時寫道。

為了訓練該模型,同時滿足開源和可複現等要求,Meta 只使用了公開可用的資料集,這點不同於大多數依賴非公開資料的大模型。那些模型往往是不開源的,屬於大型科技巨頭私有資產。為了提高模型效能,Meta 在更多的 token 上進行了訓練:在 1.4 兆 token 上訓練了 LLaMA 65B 和 LLaMA 33B,最小的 LLaMA 7B 也用到了 1 兆 token。

在推特上,LeCun 也展示了 LLaMA 模型續寫文字的一些結果。模型被要求續寫:「你知道Yann LeCun 去年發行了一張饒舌專輯嗎?我們聽了一下,我們的想法是這樣的:____ 」

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

##不過,在能否商用方面,Meta 部落格和LeCun 推特表述的差異引發了一些爭議。

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

Meta 在部落格中表示,為了保持完整性和防止濫用,他們將在非商業許可下發布他們的模型,重點是研究用例。此模式的存取權將逐一授予學術研究人員,那些隸屬於政府、民間團體和學術界的組織,以及全世界的工業研究實驗室。有興趣的人可以在以下連結中申請:

https://docs.google.com/forms/d/e/1FAIpQLSfqNECQnMkycAp2jP4Z9TFX0cGR4uf7b_fBxjY_OjhJILlKGA/viewjhJILlKGA/viewjhJILlKGA/viewjhJILlKGA/viewjhJILlK

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

而 LeCun 則表示,Meta 致力於開放研究,在 GPL v3 許可下向研究界發布所有模型(GPL v3 允許商用)。

這一表述是頗具爭議的,因為他沒有說清楚這裡的「模型」指的是代碼還是權重,或者二者均有。在不少研究者看來,模型權重比程式碼重要得多。

對此,LeCun 解釋說,在 GPL v3 許可下開放的是模型程式碼。

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

有人認為,這種程度的開放不算是真正的「AI 民主化」。

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

目前,Meta 已經把論文上傳了arXiv,GitHub 函式庫中也已經上傳了一些內容,大家可以前去瀏覽。

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

  • #論文連結:https://research.facebook.com/publications/llama- open-and-efficient-foundation-language-models/
  • #GitHub 連結:https://github.com/facebookresearch/llama

研究概覽

在大規模的文本語料庫中訓練的大型語言模型(LLMs)已經顯示出它們有能力從文本prompt 或少數樣本中執行新的任務。在將模型擴展到足夠大的規模時,這些少樣本特性首次出現,從而催生了專注於進一步擴展這些模型的工作系列。

這些努力都是基於一個假設:更多的參數會帶來更好的效能。然而,Hoffmann et al. (2022) 最近的工作表明,在給定的計算預算下,最好的性能不是由最大的模型實現的,而是由在更多的數據上訓練的小模型實現的。

Hoffmann et al. (2022) 提出的 scaling laws 的目標是確定在特定的訓練計算預算下,如何最好地縮放資料集和模型大小。然而,這個目標忽略了推理預算,而推理預算在大規模服務語言模型時變得至關重要。在這種情況下,可以給定一個目標表現水平,首選的模型不是訓練速度最快的,而是推理速度最快的。儘管訓練一個大的模型以達到一定的性能水平可能更便宜,但一個訓練時間較長的小模型最終在推理方面會更便宜。例如,儘管 Hoffmann et al. (2022) 建議在 200B 的 tokens 上訓練一個 10B 的模型,但研究者發現 7B 的模型的性能甚至在 1T 的 tokens 之後還能繼續提高。

這項工作的重點是訓練一系列語言模型,透過在比通常使用的更多的 token 上進行訓練,在各種推理預算下達到最佳性能。由此產生的模型被稱為 LLaMA,其參數範圍從 7B 到 65B,與現有的最佳 LLM 相比,此模型的性能具有競爭力。例如,儘管 LLaMA-13B 比 GPT-3 小 10 倍,但在大多數基準測試中都優於 GPT-3。

研究者表示,這個模型將有助於 LLM 的民主化研究,因為它可以在單一 GPU 上運作。在更高的規模上,LLaMA-65B 參數模型也能與最好的大型語言模型(如 Chinchilla 或 PaLM-540B)相媲美。

與Chinchilla、PaLM 或GPT-3 不同,該模型只使用公開可用的數據,使得這項工作與開源相容,而大多數現有模型依賴的數據要么不公開可用、要么沒有記錄(例如Books-2TB 或社交媒體對話)。當然也存在一些例外,特別是OPT (Zhang et al., 2022), GPT-NeoX (Black et al., 2022), BLOOM (Scao et al., 2022) 和GLM (Zeng et al., 2022),但沒有一個能與PaLM-62B 或Chinchilla 競爭。

本文的其餘部分概述了研究者對 transformer 架構的修改以及訓練方法。然後介紹了模型性能,並在一組標準基準上與其他大型語言模型進行了比較。最後,研究者使用了負責任的人工智慧社群的一些最新基準,展示了模型中的偏見和毒性。

方法概述

研究者所使用的訓練方法與(Brown et al., 2020)、(Chowdhery et al., 2022) 等先前工作中所描述的方法相似,並受到Chinchilla scaling laws (Hoffmann et al., 2022) 的啟發。研究者使用了一個標準的優化器在大量的文字資料上訓練大型 transformer。

預訓練資料

#如表1 所示,本研究的訓練資料集是幾個來源的混合物,涵蓋了不同的領域。在大多數情況下,研究者重新使用了已經被用來訓練其他大型語言模型的資料來源,但此處的限制是只能使用公開可用的數據,並與開放資源相容。資料的混合情況以及它們在訓練集中所佔的百分比如下:

  • 英文CommonCrawl [67%];
  • C4 [15%];
  • Github [4.5%];
  • 維基百科[4.5%];

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

  • ##Gutenberg 和Books3 [4.5%];
  • ArXiv [2.5%];
  • Stack Exchange [2%]。

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

整個訓練資料集在 token 化之後大約包含 1.4T 的 token。對於大多數訓練數據,每個 token 在訓練期間只使用一次,但維基百科和 Books 域除外,我們在這兩個域上執行大約兩個 epoch。

架構

#基於最近關於大型語言模型的工作,這項研究同樣使用了 transformer 架構。研究者藉鑒了隨後提出並在不同的模型中使用的各種改進,例如 PaLM。在論文中,研究者介紹了與原始架構的主要差異:

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

預歸一化 [GPT3]。為了提高訓練的穩定性,研究者對每個 transformer 子層的輸入進行歸一化,而不是對輸出進行歸一化。他們使用了 Zhang and Sennrich (2019) 提出的 RMSNorm 歸一化函數。 SwiGLU 激活函數 [PaLM]。研究者以了 Shazeer (2020) 提出的 SwiGLU 活化函數取代了 ReLU 非線性以提高性能。他們分別使用 2D、3D、4D 的維度,而不是 PaLM 中的 4D。

#########旋轉嵌入 [GPTNeo]。研究者刪除了絕對位置嵌入,在網路的每一層增加了 Su et al. (2021) 提出的旋轉位置嵌入(RoPE)。不同模型的超參數細節可見表 2。 ###########################實驗結果############常識性推理###### ##########在表3 中,研究者與現有的各種規模的模型進行比較,並報告了相應論文中的數字。首先,LLaMA-65B 在所有報告的基準上都超過了 Chinchilla-70B,除了 BoolQ。同樣,除了在 BoolQ 和 WinoGrande 上,這個模型在任何方面都超過了 PaLM540B。 LLaMA-13B 模型在大多數基準上也超過了 GPT-3,儘管其體積小了 10 倍。 ##############################結束卷答案#########

表 4 展示了 NaturalQuestions 的性能,表 5 展示了 TriviaQA 的性能。在這兩項基準測試中,LLaMA-65B 在零樣本和少樣本設定中都達到了最先進的效能。更重要的是,儘管 LLaMA-13B 是 GPT-3 和 Chinchilla 的五分之一到十分之一,但在這些基準測試中也同樣備競爭力。該模型的推理過程是在單一 V100 GPU 上運行的。

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

閱讀理解

研究者也在RACE 閱讀理解基準(Lai et al., 2017) 上評估了模型。此處遵循 Brown et al. (2020) 的評估設置,表 6 展示了評估結果。在這些基準上,LLaMA-65B 與 PaLM-540B 具有競爭力,而且,LLaMA-13B 比 GPT-3 還高出幾個百分點。

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

數學推理

#數學推理

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

在表7 中,研究者將其與PaLM 和Minerva (Lewkowycz et al., 2022) 進行了比較。在 GSM8k 上,他們觀察到 LLaMA65B 優於 Minerva-62B,儘管它沒有在數學數據上進行過微調。

程式碼產生

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

如表8 所示,對於類似的參數數量,LLaMA 的表現是優於其他一般模型的,如LaMDA 和PaLM,這些模型沒有經過專門的程式碼訓練或微調。在 HumanEval 和 MBPP 上,13B 以上參數的 LLaMA 超過了 LaMDA 137B。 LLaMA 65B 也優於 PaLM 62B,即使它的訓練時間更長。

大規模多任務語言理解

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

#研究者使用基準所提供的例子,在5-shot 的情況下評估模型,並在表9 中展示了結果。在這個基準上,他們觀察到 LLaMA-65B 在大多數領域都落後於 Chinchilla70B 和 PaLM-540B 平均幾個百分點。一個潛在的解釋是,研究者在預訓練資料中使用了數量有限的書籍和學術論文,即 ArXiv、Gutenberg 和 Books3,總和只有 177GB,而這些模型是在高達 2TB 的書籍上訓練的。 Gopher、Chinchilla 和 PaLM 所使用的大量書籍也可以解釋為什麼 Gopher 在這個基準上的表現優於 GPT-3,而在其他基準上卻不相上下。

訓練期間的效能變化

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3

這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3


####### #在訓練期間,研究者追蹤了LLaMA 模型在一些問題回答和常識性基準上的表現,結果如圖2 所示。在大多數基準上,效能穩定提高,並與模型的訓練困惑度呈正相關(見圖 1)。 ########################################

以上是這是Meta版ChatGPT雛型?開源、一塊GPU就能跑,1/10參數量打敗GPT-3的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
10個生成AI編碼擴展,在VS代碼中,您必須探索10個生成AI編碼擴展,在VS代碼中,您必須探索Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具