搜尋
首頁科技週邊人工智慧HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

HuggingFace開源大模型排行榜,又被屠榜了。

前排被清一色的SOLAR 10.7B微調版本佔據,把幾週之前的各種Mixtral 8x7B微調版本擠了下去。

HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

SOLAR大模型什麼來頭?

相關論文剛上傳到ArXiv,來自韓國公司Upstage AI,使用了新的大模型擴充方法depth up-scaling(DUS)

HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

簡單來說就是兩隻7B羊駝掐頭去尾,一隻砍掉前8層,一只砍掉後8層。

剩下兩個24層縫合在一起,第一個模型的第24層與第二個模型的第9層拼接,最後變成新的48層10.7B大模型。

HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

論文聲稱新方法超過傳統擴展方法如MoE,而且可以與沿用基礎大模型完全相同的基礎設施。

不需要門控網路等附加模組,針對MoE優化訓練框架了,也不需要自訂CUDA內核來快速推理,可以無縫整合到現有方法中,同時保持高效。

團隊選擇7B規模最強的單體大模型Mistral 7B作為底材,用新方法拼接起來,再超越原版以及MoE版。

同時,經過對齊的Instruct版本也超越對應的MoE Instruct版本。

HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

將縫合進行到底

為什麼是這種拼接方式,論文中介紹來自一種直覺。

從最簡單的擴展方式開始,也就是把32層的基礎大模型重複兩次,變成64層。

這樣做的好處是不存在異質性,所有層都來自基礎大模型,但第32層和第33層(與第1層相同)的接縫處有較大的「層距離」(layer distance)

之前有研究表明,Transformer不同層做不同的事,如越深的層擅長處理越抽象的概念。

團隊認為層距離過大可能妨礙模型有效利用預訓練權重的能力。

一個潛在的解決方案是犧牲中間層,從而減少接縫處的差異,DUS方法就從這裡誕生。

根據性能與模型尺寸的權衡,團隊選擇從每個模型中刪除8層,接縫處從32層連第1層,變成了24層連第9層。

簡單拼接後的模型,效能一開始還是會低於原版基礎模型,但經過繼續預訓練可以快速恢復。

在指令微調階段,除了使用開源資料集,還製作了數學強化資料集,對齊階段使用DPO。

最後一步,把使用不同資料集訓練的模型版本加權平均,也是把縫合進行到底了。

HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

有網友質疑測試資料外洩的可能性。

HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

團隊也考慮到這一點,在論文附錄中專門報告了資料污染測試結果,顯示出低水準。

HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

最後,SOLAR 10.7B基礎模型和微調模型都以Apache 2.0協定開源。

試用過的網友回饋,從JSON格式資料中擷取資料表現不錯。

HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起

論文網址:https://arxiv.org/abs/2312.15166

以上是HuggingFace屠榜:將兩隻羊駝去掉頭尾後拼接在一起的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
人工智能治療師在這裡:您需要了解的14個開創性的心理健康工具人工智能治療師在這裡:您需要了解的14個開創性的心理健康工具Apr 30, 2025 am 11:17 AM

儘管它無法提供訓練有素的治療師的人類聯繫和直覺,但研究表明,許多人很樂意與相對無面和匿名的AI機器人分享他們的擔憂和擔憂。 這是否總是好我

叫AI到雜貨店過道叫AI到雜貨店過道Apr 30, 2025 am 11:16 AM

人工智能(AI)是一種技術數十年的技術,正在徹底改變食品零售業。 從大規模的效率提高和成本降低到精簡的各種業務功能的流程,AI的影響是Undeniabl

從生成的AI中進行佩普談話來提升您的精神從生成的AI中進行佩普談話來提升您的精神Apr 30, 2025 am 11:15 AM

讓我們來談談。 對創新的AI突破的分析是我正在進行的AI中正在進行的《福布斯》列覆蓋範圍的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。此外,對於我的comp

為什麼AI驅動的超個性化是所有企業必須的為什麼AI驅動的超個性化是所有企業必須的Apr 30, 2025 am 11:14 AM

保持專業形象需要偶爾的衣櫃更新。 在線購物方便時,它缺乏面對面嘗試的確定性。 我的解決方案? AI驅動的個性化。 我設想AI助手策劃服裝Selecti

忘記Duolingo:Google Translate的新AI功能教授語言忘記Duolingo:Google Translate的新AI功能教授語言Apr 30, 2025 am 11:13 AM

谷歌翻譯新增語言學習功能 據Android Authority報導,應用專家AssembleDebug發現,最新版本的谷歌翻譯應用包含一個新的“練習”模式的測試代碼,旨在幫助用戶通過個性化活動來提高他們的語言技能。此功能目前對用戶不可見,但AssembleDebug能夠部分激活它並查看其一些新的用戶界面元素。 激活後,該功能會在屏幕底部添加一個新的“畢業帽”圖標,標有“Beta”徽章,表明“練習”功能最初將以實驗形式發布。 相關的彈出提示顯示“練習為你量身定制的活動!”,這意味著谷歌將生成定制的

他們正在為AI製作TCP/IP,這就是Nanda他們正在為AI製作TCP/IP,這就是NandaApr 30, 2025 am 11:12 AM

麻省理工學院的研究人員正在開發Nanda,這是為AI代理設計的開創性的Web協議。 Nanda的縮寫是網絡代理和分散的AI,通過添加Internet功能,使AI Agen能夠構建人類的模型上下文協議(MCP)。

提示:DeepFake檢測是一項蓬勃發展的業務提示:DeepFake檢測是一項蓬勃發展的業務Apr 30, 2025 am 11:11 AM

Meta的最新冒險:與Chatgpt競爭的AI應用程序 Facebook,Instagram,WhatsApp和Threads的母公司Meta正在啟動新的AI功能應用程序。 這個獨立的應用程序Meta AI旨在直接與Openai的Chatgpt競爭。 槓桿

接下來的兩年在AI網絡安全方面為業務領導者接下來的兩年在AI網絡安全方面為業務領導者Apr 30, 2025 am 11:10 AM

導航AI網絡攻擊的上升潮流 最近,CISO的傑森·克林頓(Jason Clinton)擬人化,強調了與非人類身份相關的新興風險 - 作為機器對機器的通信增殖,維護這些“身份”

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)