搜尋
首頁科技週邊人工智慧Nature:AI模型越大越好嗎?

現在,生成式人工智慧模型變得越來越大了,所以更大就意味著更好嗎?

非也。現在,一些科學家提議,應該採用更精簡、更節能的系統。

Nature:AI模型越大越好嗎?

文章網址:https://www.nature.com/articles/d41586-023-00641-w

#搞不定數學的語言模型

最近科技業的寵兒ChatGPT,在面對需要推理才能回答的數學問題時,表現往往不佳。

例如這個問題「平行於y = 4 x 6的直線穿過(5, 10)。這條線與y軸的交點的y座標是多少?」,它往往答不對。

在一項針對推理能力的早期測驗中,ChatGPT 在回答中學程度的MATH資料集樣本時,分數僅為26(%)。

這當然在我們的意料之中,給定輸入文字後,ChatGPT只是根據訓練資料集的單字、符號和句子的統計規律,產生新文字。

光是學一下語言模式,當然不可能讓語言模型學會模仿數學推理。

但其實,早在2022年6月,Google創建的名為Minerva的大語言模型就已經打破了這個「魔咒」。

Minerva在MATH資料集(2)中的問題得分為50% ,這一結果令研究人員大為​​震驚。

Nature:AI模型越大越好嗎?

Minerva答對了一道「MATH」資料集裡的中學數學問題

微軟研究院的機器學習專家Sébastien Bubeck說,圈內人都震驚了,對此議論紛紛。

Minerva的優勢,當然是因為它接受過數學文本的訓練。

但Google的研究提出了該模型表現如此出色的另一個重要原因——龐大的規模。它的大小大約是ChatGPT的三倍。

Minerva 的結果暗示了一些研究人員長期以來一直懷疑的事情:訓練更大的LLM並為它們提供更多數據,可以使它們僅通過模式識別,就能解決本應需要推理的任務。

如果真的是這樣,研究人員表示,這種「越大越好」的策略可能會為強大的人工智慧提供一條途徑。

但這個論點顯然值得懷疑。

LLM仍然會犯下明顯的錯誤,一些科學家認為,更大的模型只是在回答訓練資料相關範圍內的查詢上變得更好,並不能獲得回答全新問題的能力。

這場辯論現在正在人工智慧的前沿如火如荼地展開。

商業公司已經看到,使用更大的AI模型,就可以獲得更好的結果,因此他們正在推出越來越大的LLM——每個LLM 都需要花費數百萬美元來訓練和運行。

但是這些模型有很大的缺點。除了它們的輸出可能會不可信、因而加劇錯誤訊息的傳播之外,它們價格實在太昂貴了,並且會消耗大量的能量。

Nature:AI模型越大越好嗎?

評家認為,大型LLM永遠無法模仿或獲得使他們能始終如一地回答推理問題的技能。

相反,一些科學家說,更小、更節能的AI才能取得進步,他們的觀點部分受到了大腦學習和建立聯繫方式的啟發。

模型更大就更好嗎?

ChatGPT和Minerva等大語言模型是巨大的分層排列的計算單元網路(也稱為人工神經元)。

LLM 的大小是根據它有多少參數來衡量的,而參數量描述了神經元之間連接強度的可調值。

訓練這樣的網絡,就需要要求它預測已知句子的遮罩部分並調整這些參數,以便演算法下次做得更好。

對數十億個人類書寫的句子重複執行這個操作,神經網路就會學習模擬人類書寫語言方式的內在表徵。

在這個階段,LLM 被認為是經過預先訓練的:它的參數捕捉了它在訓練期間看到的書面語言的統計結構,包括文本中的所有事實、偏見和錯誤。然後可以根據專門數據對它“微調”。

例如,為了製作Minerva,研究人員從Google的Pathways Language Model (PaLM) 入手,該模型擁有5400億個參數,並在7800億個token的資料集上進行了預訓練。

token可以是一個字、數字或一些資訊單元;在PaLM的例子中,token是從英文和多語言網路文件、書籍和程式碼中收集的。 Minerva是PaLM對來自科學論文和數學網頁的數百億個token進行微調的結果。

Minerva可以回答「小於520的30的最大倍數是多少」這樣的問題。

LLM似乎在按步驟思考,但它所做的只是將問題轉化為tokne序列,產生統計上合理的下一個token,將其附加到原始序列,生成另一個token,等等。這個過程就被稱為推理。

Google研究人員使用了具有80億、620億和5400億參數的底層預訓練PaLM模型,對Minerva的三種尺寸進行了微調。 Minerva的性能隨著規模的擴大而提高。

在整個MATH資料集上,最小模型的準確率為25%,中型模型達到43%,最大模型突破50%大關。

Nature:AI模型越大越好嗎?

最大的模型也使用了最少的微調資料——它只對260億個token進行了微調,而最小的模型則微調了1640億個token。

但是最大的模型花了一個月的時間進行微調,專用硬體的算力是最小模型所用算力的八倍,而最小模型的微調時間僅為兩週。

理想情況下,最大的模型應該在更多token上進行微調。谷歌研究院Minerva團隊的成員Ethan Dyer說,這本來可以帶來更好的表現。但團隊認為計算費用不可行。

規模化效應

最大的Minerva模型表現最好,這與Scaling Law(規模效應)的研究是一致的-這些規律決定了表現如何隨著模型大小的增加而提高。

2020年的一項研究表明,模型在給定以下三項之一時表現更好:更多參數、更多訓練資料或更多「計算」(訓練期間執行的計算操作數) 。

效能根據冪律縮放,這意味著它會隨著參數量的增加而提高。

然而,研究人員並不清楚其中的原因。 「這些規律純粹是經驗主義的,」加拿大蒙特婁大學、 Mila- Quebec人工智慧研究所的電腦科學家Irina Rish說。

為了獲得最佳結果,2020年的研究建議,隨著訓練資料增加一倍,模型大小應增加五倍。去年的工作對此略有修改。

今年3月,DeepMind認為,最好同時擴大模型規模和訓練數據,而且在更多數據上訓練的較小模型比在較少數據上訓練的較大模型表現更好。

例如,DeepMind的Chinchilla模型有700億個參數,並在1.4萬億個token上進行了訓練,而2800億參數的Gopher模型在3000億個token上進行了訓練。在隨後的評估中,Chinchilla的表現優於Gopher。

Nature:AI模型越大越好嗎?

在2月,Meta的科學家基於這個概念建構了一個名為LLaMA的小參數模型,該模型訓練了多達1.4兆個token。

研究人員表示,LLaMA的130億參數版本優於ChatGPT的前身GPT-3(1750 億參數),而650億參數的版本比起 Chinchilla甚至PaLM,都更有競爭力。

去年10月,蒙特利爾麥吉爾大學的Ethan Caballero與Rish等人報告稱,他們發現了規模與性能之間更複雜的關係——在某些情況下,多重冪律可以控制性能如何隨模型大小變化。

例如,在一個擬合一般方程式的假設場景中,效能首先逐漸提高,然後隨著模型的大小而更快地提高,但隨著參數數量的繼續增加,效能會略有下降,然後再次增加。這種複雜關係的特徵取決於每個模型的細節及其訓練方式。

最終,研究人員希望能夠在任何特定的LLM擴大規模時提前預測這一點。

一項單獨的理論發現也支持更大模型的驅動——機器學習的「穩健性法則」,這個法則由Bubeck和他的同事在2021年提出。

如果一個模型的答案保持一致,儘管它的輸入有小的擾動,那麼這個模型就是穩健的。

而Bubeck和他的同事從數學上證明,增加模型中的參數數量會提高穩健性,從而提高泛化能力。

Bubeck說,規律證明擴大規模對於泛化是必要的,但還不夠。儘管如此,它仍被用來證明轉向更大模型的合理性。 「我認為這是一件合理的事情。」

Minerva也利用了一項名為思維鏈提示的關鍵創新。使用者在問題前加上文字前綴,包括幾個問題和解決方案的範例,以及導致答案的推理(這就是典型的思維鏈)。

在推理過程中,LLM會從這個上下文中獲取線索,並提供一個看起來像推理的循序漸進的答案。

這不需要更新模型的參數,因此不涉及微調所需的額外運算能力。

只有在具有超過1000億個參數的LLM中,才會出現對思維鏈提示做出回應的能力。

Google研究院的Blaise Agüera y Arcas說,這些發現幫助更大的模型根據經驗縮放定律進行改進。 「更大的模型會越來越好。」

合理的擔憂

Google的人工智慧研究員François Chollet是懷疑論者之一,他們認為無論LLM變得多大,他們都永遠無法具備足夠好的推理(或模仿推理)能力來可靠地解決新問題。

他說,LLM似乎只透過使用它以前遇到過的模板來推理,無論是在訓練資料中還是在提示中。 「它不能即時理解它以前沒有見過的東西。」

或許,LLM能做的最好的事,就是吸收大量的訓練數據,以至於語言的統計模式本身就可以讓他們用非常接近看到答案的方式,來回答問題。

然而,Agüera y Arcas認為,LLM似乎確實獲得了一些他們沒有專門培訓的能力,這些能力令人驚訝。

尤其是顯示一個人是否具有所謂心智理論的測試,這個測試能夠理論化或衡量他人的心理狀態。

例如,愛麗絲把眼鏡放在抽屜裡,然後鮑伯在愛麗絲不知道的情況下將眼鏡藏在墊子下。愛麗絲會先去哪裡找她的眼鏡?

問一個孩子這個問題,是為了測試他們是否理解愛麗絲有自己的信念,這些信念可能與孩子所知道的不一致。

Agüera y Arcas在他對Google的另一個LLM LaMDA的測試中,發現LaMDA在這類更擴展的對話中,會做出正確的回應。

對他來說,這顯示LLM有能力在內部模擬他人的意圖。

Agüera y Arcas說:「這些除了預測序列之外什麼都不做的模型,已經開發了一系列非凡的能力,包括心智理論。

但他承認,這些模型容易出錯,而且他也不確定單獨改變規模是否足以進行可靠的推理,儘管這似乎有必要。

Google研究院的Blaise Agüera y Arcas在博客中記錄了他與LaMDA的對話。Agüera y Arcas認為這是一次令人印象深刻的交流,LaMDA似乎能夠始終如一地模擬故事中兩個對話者知道和不知道的事情,很明顯,這就是對心智理論的模仿。

Nature:AI模型越大越好嗎?

#然而,Chollet說,即使LLM得到了正確的答案,也沒有涉及理解。

「當你稍微探究一下,就會立即發現它是空的。ChatGPT沒有它所談論內容的模型。就彷彿你正在觀看木偶戲,並且相信木偶還活著。」

到目前為止,LLM仍然會犯人類永遠不會犯的荒謬錯誤,Melanie Mitchell說。她在Santa Fe研究所研究人工智慧系統中的概念抽象和類比。

這讓人們很擔憂,在沒有護欄的情況下將LLM釋放到社會中是否安全。

Mitchell 補充說,對於LLM是否能夠解決真正新的、未見過的問題,有一個難題,即我們無法全面測試這種能力。

「我們目前的基準還不夠,」她說。 「它們沒有系統地探索事物。我們還不知道該怎麼做。」

Chollet 提倡他設計的抽象推理測試,它被稱為抽象推理語料庫。

Nature:AI模型越大越好嗎?

因規模而生的問題

#但問題是,訓練大型語言模型所涉及的資料集、運算能力和費用限制了它們的發展。目前來看,只有擁有超大運算資源的公司才能做到。

例如,OpenAI在GPT-3的訓練上,預計花費了超過400萬美元,而為了維持ChatGPT的運轉,每個月可能還要花費數百萬美元。

於是,各國政府紛紛開始介入,希望由此擴大自己在這個領域的優勢。

去年6月,一個由大約1000名學術志工組成的國際團隊,在法國政府、Hugging Face和其他機構的資助下,用價值700萬美元的計算時間,訓練了參數為1760億的BLOOM模型。

而在11月,美國能源部也將自己的超級運算授權給了一個研究大模型專案。據稱,團隊計劃訓練一個類似Chinchilla的700億參數的模型。

Nature:AI模型越大越好嗎?

不過,無論是誰來訓練,LLM對電力的消耗都是不容小覷的。

Google表示,在大約兩個月的時間裡,訓練PaLM花費了大約3.4千兆瓦時,這相當於大約300個美國家庭一年的能源消耗。

雖然Google宣稱自己用的89%就是清潔能源,但對整個產業的調查顯示,大多數的訓練都是使用主要由化石燃料供電的電網。

更小,更聰明?

從這個角度來看,研究人員迫切地需要減少LLM的能源消耗——使神經網路更小、更有效,也許還能更聰明。

除了訓練LLM的能源成本(雖然很可觀,但也是一次性的),推理所需的能源,會隨著用戶數量的增加而激增。例如,BLOOM模型在Google雲端平台上部署的18天裡,共回答了230,768次查詢,平均功率為1,664瓦。

相比而言,我們自己的大腦比任何LLM都要複雜和大得多,有860億個神經元和大約100萬億個突觸連接,但功率只有大約20到50瓦。

於是,有些研究人員便希望透過對大腦的模仿來實現讓模型更小、更聰明、更有效率的願景。

Nature:AI模型越大越好嗎?

從本質上講,LLM是「前饋」網絡,這意味著資訊是單向流動的:從輸入端,透過LLM的各層,到輸出端。

但大腦卻不然。例如,在人類的視覺系統中,神經元除了會將接收到的訊息正向傳輸進大腦外,還有回饋連接,使訊息在神經元之間以相反的方向傳遞。在這其中,反饋連接的數量可能是前饋連接的十倍。

在人工神經網路中,遞歸神經網路(RNN)也同時包含了前饋和回饋連結。與只有前饋網路的LLM不同,RNN可以辨別出資料中隨時間變化的模式。不過,RNN很難訓練,而且速度很慢,因此很難將其擴展到LLM所具有的規模。

Nature:AI模型越大越好嗎?

目前,一些使用小型資料集的研究已經表明,具有脈衝神經元的RNN可以勝過標準的RNN,而且在理論上,計算效率也要高出三個數量級。

然而,只要這種脈衝網路是在軟體中模擬的,它們就不能真正地實現效率的提升(因為模擬它們的硬體仍然會消耗能量)。

節能的大模型

同時,研究人員正在試驗不同的方法,使現有的LLM更加節能。

2021年12月,DeepMind提出了基於檢索的語言模型架構Retro。

Nature:AI模型越大越好嗎?

Retro主要模仿大腦在學習時不光利用當下的知識,也會利用記憶的檢索這個機制。其框架是先準備一個大規模的文字資料集(充當大腦的記憶),透過kNN演算法找到輸入句子的n個最近鄰句子(檢索記憶)。

把輸入的句子和檢索到的句子經過Transformer編碼後,再進行Cross-Attention,這樣模型就可以同時利用輸入句子中的資訊和記憶資訊來完成各種NLP任務。

Nature:AI模型越大越好嗎?

以往模型的超大參數量主要是為了保存住訓練資料中的信息,當使用這種基於檢索的框架後,模型的參數量不用特別大就可以包含更多的文字訊息,自然而然就會加快模型的運行速度,並且還不會損失太多效能。

這種方式還能節省模型訓練時的電費,環保女孩看了都按讚!

實驗結果顯示,一個75億個參數的大語言模型,加上一個2兆個token的資料庫,可以勝過參數多25倍的模型。研究人員寫道,這是一個「當我們尋求建立更強大的語言模型時,比原始參數縮放更有效的方法」。

在同一個月,Google的研究人員提出了另一種在規模上提高能源效率的方法。

這個擁有1.2兆參數的稀疏通用語言模型GLaM,在內部有64個較小的神經網路。

在推理過程中,模型只使用兩個網路來完成任務。也就是說,只用了一萬多億個參數中的大約8%。

Nature:AI模型越大越好嗎?

Google表示,GLaM使用的運算資源與訓練GPT-3所需的相同,但由於訓練軟體和硬體的改進,能耗只有後者的1/3。而推理所需的計算資源,則是GPT-3的一半。此外,在相同數量的數據上進行訓練時,GLaM的表現也要優於GPT-3。

然而,為了進一步的改進,即使是這些更節能的LLM似乎也注定要變得更大,使用更多的數據和計算。

參考資料:

https://www.nature.com/articles/d41586-023-00641-w

#

以上是Nature:AI模型越大越好嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具