首頁  >  文章  >  科技週邊  >  谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

WBOY
WBOY轉載
2023-11-13 08:26:39775瀏覽

GoogleDeepMind最近發現的一項新結果在Transformer領域引起了廣泛爭議:

它的泛化能力,無法擴展到訓練資料以外的內容。

谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

目前這一結論還沒有進一步得到驗證,但已經驚動了一眾大佬,比如Keras之父Francois Chollet表示,如果消息為真,將成為大模型界的一件大事。

谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

GoogleTransformer是今天大模型背後的基礎架構,我們所熟悉的GPT裡的「T」指的就是它。

一系列大模型表現出強大的上下文學習能力,可以快速學習範例並完成新的任務。

但現在,同樣來自Google的研究人員似乎指出了它的致命缺陷──超越訓練資料也就是人類已有知識之外,全都無能為力。

一時間,不少從業人員認為AGI又變得遙不可及。

谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

有些網友指出,論文中還有一些被忽略的關鍵細節,例如實驗只涉及了GPT-2的規模,訓練資料也不夠豐富

谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

隨著時間的推移,更多認真研究了這篇論文的網友則指出,研究結論本身沒什麼問題,但人們卻基於此做出過度的解讀。

谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

在論文引發網友熱議後,其中一位作者也公開進行了兩點澄清:

#首先,實驗中採用的是簡單的Transformer,既不是「大」模型,也不是語言模型;

其次,模型是可以學習新任務的,只是無法泛化到新類型的任務

谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

此後,又有網友在Colab中重複了這項實驗,卻得到了完全不同的結果。

谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

那麼,我們就先來看看這篇論文,還有提出不同結果的Samuel,到底都說了什麼。

新函數幾乎無法預測

在這個實驗中,作者使用基於Jax的機器學習框架訓練了一個規模接近GPT-2的Transformer模型,該模型僅包含解碼器部分

這個模型包含12層,8個注意力頭,嵌入空間維度為256,參數量約為950萬

為了測試它的泛化能力,作者選擇了函數作為測試對象。他們將線性函數和正弦函數作為訓練資料輸入模型中

這兩個函數對於此時的模型來說是已知,預測的結果自然也很好,但當研究者把線性函數和當正弦函數進行了凸性組合時,問題就出現了。

凸性組合並沒有那麼神秘,作者建構出了形如f(x)=a·kx (1-a)sin(x)的函數,在我們看來不過是兩個函數按比例簡單相加。

我們之所以會這麼認為是因為我們的大腦具備這種泛化能力,而大規模模型則不同

對於只學過線性和正弦函數的模型來說,簡單的相加看起來很新穎

針對這種新函數,Transformer的預測幾乎沒有任何準確性(見圖4c),因此作者認為該模型在函數上缺乏泛化能力

谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

为了进一步验证自己的结论,作者调整了线性或正弦函数的权重,但即使这样Transformer的预测表现也没有显著的变化。

只有一点例外——当其中一项的权重接近1时,模型的预测结果和实际就比较吻合了。

如果权重为1,则表示陌生的新函数直接变成了训练时已经见过的函数,这种数据对于模型的泛化能力显然没有什么帮助

谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

进一步实验还显示,Transformer不仅对于函数的种类十分敏感,甚至同种函数也可能变成陌生条件。

研究人员发现,在改变正弦函数的频率时,即使是简单的函数模型,预测结果也会出现线束变化

只有当频率接近训练数据中的函数时,模型才能给出比较准确的预测,当频率过高或过低时,预测结果出现了严重的偏差……

谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

据此,作者认为,条件只要稍微有点不一样,大模型就不知道怎么做了,这不就是说明泛化能力差吗?

作者在文中也自述了研究中存在的一些局限性,如何将函数数据上的观察应用到token化的自然语言问题上。

团队也在语言模型上尝试了相似的试验但遇到一些障碍,如何适当定义任务族(相当于这里的函数种类)、凸组合等还有待解决。

然而,萨缪尔的模型规模较小,只有4层,在Colab上训练5分钟后就可以适用于线性与正弦函数的组合

谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

不能泛化又如何

根据整篇文章的综合内容来看,Quora CEO在这篇文章中的结论非常狭隘,只有在许多假设成立的情况下才能成立

谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

斯隆奖得主、UCLA教授顾全全说,这篇论文本身的结论不存在争议,但不应该被过度解读。

根据之前的研究,Transformer模型只有在面对与预训练数据明显不同的内容时才无法泛化。事实上,大型模型的泛化能力通常是通过任务的多样性和复杂性来评估的

谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

如果仔细追究Transformer的泛化能力,恐怕要让子弹再飞一会儿了。

但是,就算真的缺乏泛化能力,又能怎么样呢?

英伟达AI科学家Jim Fan就说,这种现象其实没啥奇怪的,因为Transformer本来就不是万金油,大模型表现得好,是因为训练数据刚好是我们关心的内容

谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

Jim进一步补充道,这就好像是在说,用一千亿张猫狗的照片训练视觉模型,接着让模型去识别飞机,然后发现,哇,居然真的不认识诶。

谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

人类在面对一些未知任务时,不仅仅是大规模模型,也未必能够找到解决方案。这是否也暗示了人类缺乏泛化能力呢?

谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後

因此,在以目标为导向的过程中,不论是大型模型还是人类,最终的目的都是解决问题,而泛化只是一种手段

將這個表達方式換成中文,既然泛化能力不足,那就將其訓練到沒有訓練樣本之外的數據為止

那麼,對於這項研究,你有什麼看法呢?

論文網址:https://arxiv.org/abs/2311.00871

以上是谷歌大模型研究引發激烈爭議:訓練資料以外的泛化能力受到質疑,網友表示AGI奇點或被延後的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除