首頁 >科技週邊 >人工智慧 >權重、程式碼、資料集全開源，效能超越Mistral-7B，蘋果小模型來了

權重、程式碼、資料集全開源，效能超越Mistral-7B，蘋果小模型來了

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原創: 2024-07-22 16:18:40501瀏覽

小模型成趨勢？

本週，OpenAI 上線小模型 GPT-4o-mini，小模型賽道正式開卷。近期加入這一賽道的還有蘋果。

最近，蘋果作為 DataComp-LM（DCLM）專案的研究機構之一，在 Hugging Face 上發布了 DCLM-7B 開源模型。該模型性能已經超越了 Mistral-7B，並且正在逼近其他領先的開源模型，包括 Llama 3 和 Gemma。

權重、程式碼、資料集全開源，效能超越Mistral-7B，蘋果小模型來了

論文連結：https://arxiv.org/pdf/2406.11794
論文專案連結：https之一、蘋果機器學習團隊Vaishaal Shankar 將DCLM 模型描述為「真正開源的最佳模型」，因為DCLM 不僅開源了模型權重，還開源了訓練程式碼和預訓練資料集。

研究介紹權重、程式碼、資料集全開源，效能超越Mistral-7B，蘋果小模型來了

大型語言模型（LLM）目前面臨的一個評估挑戰是缺乏受控比較。 LLM 研究通常會比較採用不同架構、計算或超參數的模型，因此難以釐清影響語言模型品質的因素。基於此，研究團隊提出了語言模型資料比較新基準－DCLM，這是語言模型訓練資料整編（curation）的第一個基準，旨在讓LLM 透過設計高品質資料集來提高模型效能，特別是在多模態領域。

研究團隊發現基於模型的過濾，即由機器學習 (ML) 模型從較大的數據集中自動過濾和選擇高品質數據，可能是建立高品質訓練集的關鍵。

DCLM 整體想法很簡單：使用一個標準化的框架來進行實驗，包括固定的模型架構、訓練程式碼、超參數和評估，最後找出哪種資料整理策略最適合訓練出高效能的模型。

使用 DCLM，研究團隊建立了一個高品質資料集 DCLM-BASELINE，並用該資料集從頭開始訓練了一個 7B 參數模型 —— DCLM-7B。

權重、程式碼、資料集全開源，效能超越Mistral-7B，蘋果小模型來了

^{DCLM-7B 使用基於OpenLM 框架的預訓練方案，在MMLU 基準上5-shot 準確率達到64%，可與Mistral-7B-v0.3（63%）和Llama 3 8B（66%）相媲美，並且在53 個自然語言理解任務上的平均表現也可與Mistral-7B-v0.3、Llama 3 8B 相媲美，而所需計算量僅為Llama 3 8B 的1/6。}

以下是DCLM-7B 在各種任務（部分）上的評估結果：

權重、程式碼、資料集全開源，效能超越Mistral-7B，蘋果小模型來了

DCLM-7B 與其他同等大小模型比較結果如下表所示：

權重、程式碼、資料集全開源，效能超越Mistral-7B，蘋果小模型來了 DCLM-7B 與其他同等大小模型比較結果如下表所示：

DCLM-7B 與其他同等大小模型比較結果如下表所示：

權重、程式碼、資料集全開源，效能超越Mistral-7B，蘋果小模型來了

DCLM-7B 與其他同等大小模型比較結果如下表所示：是，大部分其他模型雖然開放權重但封閉資料。這就是 Vaishaal Shankar 將 DCLM 模型描述為「真正開源」的原因。

參考連結：https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

以上是權重、程式碼、資料集全開源，效能超越Mistral-7B，蘋果小模型來了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

架构 https gpt llama

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：在機器人頂會 RSS 2024 上，中國的人形機器人研究斬獲最佳論文獎下一篇：在機器人頂會 RSS 2024 上，中國的人形機器人研究斬獲最佳論文獎

看更多