首頁  >  文章  >  科技週邊  >  智源更新大模型排行榜:豆包大模型「客觀評測」排名國產第一

智源更新大模型排行榜:豆包大模型「客觀評測」排名國產第一

WBOY
WBOY原創
2024-06-19 14:05:01834瀏覽

FlagEval評測平台發布了最新榜單,其中6月中旬發布的「客觀評測」中,GPT-4在閉源大模型中排名第一,Doubao-Pro(豆包大模型)排名第二,同時也是得分最高的國產大模型;其後依序為ERNIE 4.0、Baichuan3、Moonshot-v1等。在開放答案評測中,Doubao-Pro同樣排名第二,得分超過GPT-4o和GPT-4。新技術的不斷湧現,能夠持續關注並適應新技術的平台才能在這個競爭激烈的市場中立於不敗之地。字數:114

智源更新大模型排行榜:豆包大模型「客觀評測」排名國產第一

圖:豆包大模型在 FlagEval 客觀評測中獲綜合評分第二(20246月)

FlagEval 大模式評測平台由智源研究院與多個高校團隊共建,以人類認知能力的發展階梯為基準,對齊大模型所能達到的認知水準。 FlagEval 建構了大量原創的非公開評測集,確保評測品質和公正性。自2023年6月上線以來,FlagEval 已完成了1,000多次涵蓋全球大型模式的評測。

Doubao-Pro是一款由位元組跳動自主研發的大語言模型,於5月15日正式發表。本期FlagEval大模型排行榜,豆包大模型在公開評測的首次亮相便斬獲亞軍。此模型具有強大的序列生成和自然語言理解能力,可廣泛應用於對話生成、文字摘要、機器翻譯等多個領域。

在客觀評測和主觀評測中,顯示豆包大模型的數學能力、知識運用、任務解決等多項能力在客觀評測和主觀評測中都有著出色表現。其中,知識運用與數學能力分數在客觀評測第一、主觀評測前三,任務解決分數在客觀評測中均排名前三。

數學能力是評估大模型是否「聰明」的一個重要向度。先前,復旦大學自然語言處理實驗室進行了一項針對2024年高考數學題目的13家主流大模型產品進行評測,豆包的數學高考新課標II卷答題獲得最高分,客觀題正確率達到74.66% ,成績優於GPT-4o及國內多款大模型產品。

智源更新大模型排行榜:豆包大模型「客觀評測」排名國產第一

圖片來源:復旦NLP實驗室公眾號

豆包大模型是國內使用量最大、應用場景最豐富的大模型之一,每日平均處理token 達到千億級。其同名AI對話助理“豆包”,在蘋果APP Store和各大安卓應用市場的AIGC類應用中下載量排名第一。目前,豆包大模型正在透過位元組跳動向企業市場開放服務,已經與OPPO、榮耀、小米、三星、華碩等智慧終端廠商建立合作。

以上是智源更新大模型排行榜:豆包大模型「客觀評測」排名國產第一的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn