首頁  >  文章  >  科技週邊  >  豆包大模型揭露評測成績,較上一代「雲雀」提升19%

豆包大模型揭露評測成績,較上一代「雲雀」提升19%

王林
王林原創
2024-06-06 13:45:41327瀏覽

近日,豆包大模型在火山引擎原動力大會上正式發表。以超低價格促銷大模型降價潮的同時,豆包的模型能力也引發產業關注。

在火山引擎的一份產品資料中,豆包模型團隊發布了一期內部部分測試結果:在MMLU、BBH、GSM8K、HumanEval 等11個行業主流的公開評測集上,Doubao-pro -4k 的總分為76.8分,相比上一代機型雲雀Skylark2 的64.5分提升了19%。這也優於同期測試的其他國產模型。

這次評測在今年5月完成,主要包括豆包括通用模型Pro、雲雀Skylark2以及內的九款國產大語言模型。除了雲雀Skylark2以外,其他模型均為各廠商最新發布的進階版本,透過API呼叫進行測試。

豆包大模型揭露評測成績,較上一代「雲雀」提升19%

圖:豆包模型團隊內部測試結果

根據評測結果顯示,在評估程式碼能力的兩個評測集" HumanEval"和"MBPP"上,豆包相比上一代模型提升了50%左右;在專業知識和指令遵循的評測集上,豆包分別獲得33%和24%的性能提升,同時也是得分最高的國產模型。

除了數學能力、語言理解能力,以及綜合評測集BCMMLU和CEval的評測上也有不錯的表現。得分排在前三名。綜合11個公開評測集上的測驗成績,豆包通用模型-pro的總分為76.8分。根據OpenAI公佈的測驗成績,GPT-4在這些評測集上的總分為80.1分,相比國產模型仍有一定領先優勢。

據悉,豆包模型於5月15日剛推出,尚未加入第三方機構測試。預計未來一到兩個月內,許多第三方評測機構將會陸續揭露該模型的評測結果。與模型同名的AI助理"豆包",官方公佈的月活用戶數已經達到2600萬,用戶可以自由體驗測試。

先前,智源研究院公佈了涵蓋全球91個語言模式的評測報告。在偏重考察中文能力的主觀評測中,雲雀Skylark2排名第一,中文能力超過GPT-4。

豆包大模型揭露評測成績,較上一代「雲雀」提升19%

圖:智源研究院語言模式評測結果(模型為4##月20日之前的版本)

以上是豆包大模型揭露評測成績,較上一代「雲雀」提升19%的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn