首頁 >科技週邊 >人工智慧 >HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

WBOY
WBOY轉載
2024-01-15 21:09:051198瀏覽

HuggingFace開源大模型排行榜,又被屠榜了。

前排被清一色的SOLAR 10.7B微調版本佔據,把幾週之前的各種Mixtral 8x7B微調版本擠了下去。

HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

SOLAR大模型什麼來頭?

相關論文剛上傳到ArXiv,來自韓國公司Upstage AI,使用了新的大模型擴充方法depth up-scaling(DUS)

HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

簡單來說就是兩隻7B羊駝掐頭去尾,一隻砍掉前8層,一只砍掉後8層。

剩下兩個24層縫合在一起,第一個模型的第24層與第二個模型的第9層拼接,最後變成新的48層10.7B大模型。

HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

論文聲稱新方法超過傳統擴展方法如MoE,而且可以與沿用基礎大模型完全相同的基礎設施。

不需要門控網路等附加模組,針對MoE優化訓練框架了,也不需要自訂CUDA內核來快速推理,可以無縫整合到現有方法中,同時保持高效。

團隊選擇7B規模最強的單體大模型Mistral 7B作為底材,用新方法拼接起來,再超越原版以及MoE版。

同時,經過對齊的Instruct版本也超越對應的MoE Instruct版本。

HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

將縫合進行到底

為什麼是這種拼接方式,論文中介紹來自一種直覺。

從最簡單的擴展方式開始,也就是把32層的基礎大模型重複兩次,變成64層。

這樣做的好處是不存在異質性,所有層都來自基礎大模型,但第32層和第33層(與第1層相同)的接縫處有較大的「層距離」(layer distance)

之前有研究表明,Transformer不同層做不同的事,如越深的層擅長處理越抽象的概念。

團隊認為層距離過大可能妨礙模型有效利用預訓練權重的能力。

一個潛在的解決方案是犧牲中間層,從而減少接縫處的差異,DUS方法就從這裡誕生。

根據性能與模型尺寸的權衡,團隊選擇從每個模型中刪除8層,接縫處從32層連第1層,變成了24層連第9層。

簡單拼接後的模型,效能一開始還是會低於原版基礎模型,但經過繼續預訓練可以快速恢復。

在指令微調階段,除了使用開源資料集,還製作了數學強化資料集,對齊階段使用DPO。

最後一步,把使用不同資料集訓練的模型版本加權平均,也是把縫合進行到底了。

HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

有網友質疑測試資料外洩的可能性。

HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

團隊也考慮到這一點,在論文附錄中專門報告了資料污染測試結果,顯示出低水準。

HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

最後,SOLAR 10.7B基礎模型和微調模型都以Apache 2.0協定開源。

試用過的網友回饋,從JSON格式資料中擷取資料表現不錯。

HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

論文網址:https://arxiv.org/abs/2312.15166

以上是HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除