GPT-4,自發布以來被視為全球最強大的語言模型之一,但也不幸經歷了一系列的信任危機。
如果我們將今年早些時候的"間歇式降智"事件與OpenAI對GPT-4架構的重新設計聯繫起來,那麼最近有關GPT-4變得"懶惰"的傳聞就更加有趣了。有人測試發現,只要告訴GPT-4"現在是寒假",它就會變得懶洋洋的,彷彿進入了冬眠狀態。
要解決模型在新任務上的零樣本表現變差的問題,我們可以採取以下方法: 1. 資料增強:透過對現有資料進行擴充和變換,來增加模型的泛化能力。例如,可以透過旋轉、縮放、平移等方式改變影像數據,或透過合成新的資料樣本。 2. 遷移學習:利用已經在其他任務上訓練好的模型,將其參數和知識遷移到新任務。這樣可以利用已有的知識和經驗,提
最近,來自加州大學聖克魯斯分校的研究人員在一篇論文中發布了一項新的發現,可能能夠解釋GPT-4性能下降的深層原因。
「我們發現,在訓練資料建立日期之前發布的資料集上,LLM 的表現出奇地好於之後發布的資料集。」
它們在「見過的」任務上表現出色,而在新任務上則表現糟糕。這意味著,LLM 只是基於近似檢索的模仿智慧方法,主要是記憶東西,而沒有任何程度的理解。
說穿了,就是 LLM 的泛化能力「沒說的那麼強」-- 基礎不紮實,實戰總有出紕漏的時候。
造成這種結果的一大原因是「任務污染」,這是資料污染的其中一種形式。我們先前熟知的資料污染是測試資料污染,即在預訓練資料中包含測試資料範例和標籤。而「任務污染」則是在預訓練資料中加入任務訓練範例,使零樣本或少樣本方法中的評估不再真實有效。
研究者在論文中首次對資料污染問題進行了系統分析:
論文連結:https://arxiv.org/pdf/2312.16337.pdf
看完論文,有人「悲觀」地表示:
#這是所有不具備持續學習能力的機器學習(ML)模型的命運,即ML 模型權重在訓練後會被凍結,但輸入分佈會不斷變化,如果模型無法持續適應這種變化,就會慢慢退化。
這意味著,隨著程式語言的不斷更新,基於 LLM 的編碼工具也會退化。這就是為什麼你不必過度依賴這種脆弱工具的原因之一。
不斷重新訓練這些模型的成本很高,遲早有人會放棄這些低效率的方法。
目前還沒有任何 ML 模型能夠可靠地持續適應不斷變化的輸入分佈,而不會對先前的編碼任務造成嚴重干擾或效能損失。
而這正是生物神經網路所擅長的領域之一。由於生物神經網具有強大的泛化能力,學習不同的任務可以進一步提高系統的性能,因為從一項任務中獲得的知識有助於改善整個學習過程本身,這就是所謂的「元學習」。
「任務污染」的問題有多嚴重?我們一起來看下論文內容。
實驗所使用的模型有12 個(如表1 所示),其中5 個是專有的GPT-3 系列模型,7 個是可免費取得權重的開放模型。
#資料集分為兩類:2021 年1 月1 日之前或之後發布的資料集,研究者使用這種劃分方法來分析舊資料集與新資料集之間的零樣本或少樣本表現差異,並對所有LLM 採用相同的劃分方法。表 1 列出了每個模型訓練資料的建立時間,表 2 列出了每個資料集的發布日期。
#上述做法的考慮是,零樣本和少樣本評估涉及模型對其在訓練期間從未見過或僅見過幾次的任務進行預測,其關鍵前提是模型事先沒有接觸過要完成的特定任務,從而確保對其學習能力進行公平的評估。然而,受污染的模型會給人一種未接觸或僅接觸過幾次的能力的假象,因為它們在預訓練期間已經接受過任務示例的訓練。在按時間順序排列的資料集中,檢測這種不一致性會相對容易一些,因為任何重疊或異常都會很明顯。
研究者採用了四種方法來測量「任務污染」:
前三種方法精確度高,但召回率低。如果能在任務的訓練數據中找到數據,那麼就能確定模型曾經看過範例。但由於資料格式的變化、用於定義任務的關鍵字的變化以及資料集的大小,使用前三種方法找不到污染證據並不能證明沒有污染。
第四種方法,以時間順序分析的召回率高,但精確度低。如果由於任務污染而導致表現較高,那麼按時間順序分析就有很大機會發現它。但隨著時間的推移,其他因素也可能導致效能提高,因此精確度較低。
因此,研究者採用了所有四種方法來檢測任務污染,發現了在某些模型和資料集組合中存在任務污染的有力證據。
他們首先對所有測試過的模型和資料集進行時序分析,因為它最有可能發現可能的污染;然後使用訓練資料檢查和任務範例提取尋找任務污染的進一步證據;接下來觀察了LLM 在無污染任務中的表現,最後使用成員推理攻擊進行額外分析。
重點結論如下:
1、研究者對每個模型在其訓練資料在網路上抓取之前所建立的資料集和之後創建的資料集進行了分析。結果發現,對於在收集 LLM 訓練資料之前創建的資料集,其效能高於大多數基線的幾率明顯更高(圖 1)。
2、研究者進行了訓練資料檢查和任務範例提取,以查找可能存在的任務污染。結果發現,對於不可能存在任務污染的分類任務,在一系列任務中,模型很少比簡單多數基線有統計意義上的顯著提高,無論是零樣本還是少樣本(圖 2)。
研究者也檢視了GPT-3 系列和開放式LLM 的平均表現隨時間的變化,如圖3 :
3、作為案例研究,研究者也嘗試對分析中的所有模型進行語義解析任務的成員推理攻擊,發現在最終任務中,提取實例的數量與模型的準確性之間存在很強的相關性(R=.88)(圖6)。這有力地證明了在這項任務中零樣本表現的提高是由於任務污染造成的。
#4、研究者也仔細研究了GPT-3 系列模型,發現可以從GPT-3 模型中提取訓練範例,而且從davinci 到GPT-3.5-turbo 的每個版本中,可提取的訓練範例數量都在增加,這與GPT-3 模型在該任務上零樣本表現的提升密切相關(圖2)。這有力地證明了從 davinci 到 GPT-3.5-turbo 的 GPT-3 模型在這些任務上的表現提高是由於任務污染造成的。
以上是GPT-4的智慧水準下降的新詮釋的詳細內容。更多資訊請關注PHP中文網其他相關文章!