生成式 AI 元年,大家的工作節奏快了一大截。
特別是,今年大家都在努力捲大模型:最近國內外科技巨頭、新創公司都在輪番推出大模型,發表會一開,個個都是重大突破,每一家都是刷新了重要Benchmark 榜單,要么排第一,要么第一梯隊。
在興奮於技術進度速度之快後,許多人發現似乎也有些不對勁:為什麼排行榜第一人人有份?這是個什麼機制?
於是乎,「刷榜」這個問題也開始備受關注。
近日,我們關注到朋友圈和知乎社群對大模型「刷榜」這個問題的討論越來越多。特別是,知乎一篇文章:如何評價天工大模型技術報告中指出許多大模型用領域內資料刷榜的現象?引起了大家的討論。
連結:https://www.zhihu.com/question/628957425
該研究來自崑崙萬維的「天工」大模型研究團隊,他們上個月底把一份技術報告發佈在了預印版論文平台arXiv 上。
論文連結:https://arxiv.org/abs/2310.19341
論文本身就是在介紹Skywork-13B,這是天工的一個大型語言模型(LLM)系列。作者引入了使用分段語料庫的兩階段訓練方法,分別針對通用訓練和特定領域的增強訓練。
和往常有關大模型的新研究一樣,作者表示在流行的測試基準上,他們的模型不僅表現出色,而且在許多中文的分支任務上取得了state- of-art 水準(就是業界最佳)。
重點是,該報告還驗證了下許多大模型的真實效果,指出了一些其他一些國產大模型存在投機取巧的嫌疑。說的就是這個表格8:
在這裡,作者為了驗證目前業界幾個常見大模型在數學應用問題基準GSM8K 上的過擬合程度,使用GPT-4 產生了一些與GSM8K 形式上相同的樣本,人工核對了正確性,並讓這些模型在生成的資料集,和GSM8K 原本的訓練集、測試集上比了比,計算了損失。然後還有兩個指標:
#Δ1 作為模型訓練期間潛在測試資料外洩的指標,較低的值表示可能存在洩漏。沒有用測試集訓練,那個數值應該是零。
Δ2 測量資料集訓練分割的過度擬合程度。較高的 Δ2 值表示過度擬合。如果沒有用訓練集訓練過,那數值應該是零。
用簡單的話來解釋就是:如果有模型在訓練的時候,直接拿基準測試裡面的「真題」和「答案」來當學習資料,想以此來刷分,那麼此處就會有異常。
好的,Δ1 和 Δ2 有問題的地方,上面都貼心地以灰色突出顯示了。
網友對此評論道,終於有人把「資料集污染」這個公開的秘密說出來了。
也有網友表示,大模型的智力水平,還是要看 zero-shot 能力,現有的測驗基準都做不到。
圖:截圖自知乎網友評論
在作者與讀者互動中,作者也表示,希望「讓大家更理性看待刷榜這個事情,很多模型和 GPT4 的差距還很大」。
圖:截圖自知文章https://zhuanlan.zhihu.com/p/664985891
其實,這並不是一時的現象。自從有了 Benchmark,此類問題時常會有發生,就像今年 9 月份 arXiv 上一篇極具嘲諷意味的文章標題指出的一樣 Pretraining on the Test Set Is All You Need。
除此之外,最近人民大學、伊利諾大學香檳分校一個正式研究同樣指出了大模型評估中存在的問題。標題很紮眼《Don't Make Your LLM an Evaluation Benchmark Cheater》:
論文連結:https://arxiv.org/abs/ 2311.01964
論文指出,目前火熱的大模型領域讓人們關心基準測試的排名,但其公平性和可靠性正在受到質疑。其中主要的問題是資料污染和洩露,這樣的問題可能會被無意識地觸發,因為我們在準備預訓練語料庫時可能不知道未來的評估資料集。例如,GPT-3 發現預訓練語料庫中包含了 Children's Book Test 資料集,LLaMA-2 的論文曾提到擷取了 BoolQ 資料集中的上下文網頁內容。
資料集是需要很多人花費大量精力收集、整理和標註的,優質的資料集如果優秀到能被用於評測,那自然也有可能會被另一些人用於訓練大模型。
另一方面,在使用現有基準進行評估時,我們評測的大模型的結果大多是透過在本機伺服器上執行或透過 API 呼叫來獲得的。在此過程中,沒有嚴格檢查任何可能導致評估績效異常增加的不當方式(例如資料污染)。
更糟的是,訓練語料庫的詳細組成(例如資料來源)通常被視為現有大模型的核心「秘密」。這就更難去探究資料污染的問題了。
也就是說,優秀資料的數量是有限的,在許多測試集上,GPT-4 和Llama-2 也不一定就沒問題。例如在第一篇論文中提到的 GSM8K,GPT-4 在官方 technical report 裡提到使用了它的訓練集。
你不是說資料很重要嗎,那麼用「真題」刷分的大模型,效能會不會因為訓練資料更優秀而變得更好呢?答案是否定的。
研究人員實驗發現,基準洩漏會導致大模型跑出誇張的成績:例如 1.3B 的模型可以在某些任務上超越 10 倍體積的模型。但副作用是,如果我們只使用這些洩漏的資料來微調或訓練模型,這些專門應試的大模型在其他正常測試任務上的表現可能會受到不利影響。
因此作者建議,以後研究者在評測大模型,或是研究新技術時應該:
最後想說,好在這個問題開始逐漸引起大家的關注,無論是技術報告、論文研究還是社區討論,都開始重視大模型「刷榜」的問題了。
對此,你有什麼看法與有效建議呢?
以上是大模型走捷徑「刷榜」?數據污染問題值得重視的詳細內容。更多資訊請關注PHP中文網其他相關文章!