豆包大模型揭露評測成績，較上一代「雲雀」提升19%

豆包大模型揭露評測成績，較上一代「雲雀」提升19%

Jun 06, 2024 pm 01:45 PM

產業

近日，豆包大模型在火山引擎原動力大會上正式發表。以超低價格促銷大模型降價潮的同時，豆包的模型能力也引發產業關注。

在火山引擎的一份產品資料中，豆包模型團隊發布了一期內部部分測試結果：在MMLU、BBH、GSM8K、HumanEval 等11個行業主流的公開評測集上，Doubao-pro -4k 的總分為76.8分，相比上一代機型雲雀Skylark2 的64.5分提升了19%。這也優於同期測試的其他國產模型。

這次評測在今年5月完成，主要包括豆包括通用模型Pro、雲雀Skylark2以及內的九款國產大語言模型。除了雲雀Skylark2以外，其他模型均為各廠商最新發布的進階版本，透過API呼叫進行測試。

豆包大模型揭露評測成績，較上一代「雲雀」提升19%

圖：豆包模型團隊內部測試結果

根據評測結果顯示，在評估程式碼能力的兩個評測集" HumanEval"和"MBPP"上，豆包相比上一代模型提升了50%左右；在專業知識和指令遵循的評測集上，豆包分別獲得33%和24%的性能提升，同時也是得分最高的國產模型。

除了數學能力、語言理解能力，以及綜合評測集BCMMLU和CEval的評測上也有不錯的表現。得分排在前三名。綜合11個公開評測集上的測驗成績，豆包通用模型-pro的總分為76.8分。根據OpenAI公佈的測驗成績，GPT-4在這些評測集上的總分為80.1分，相比國產模型仍有一定領先優勢。

據悉，豆包模型於5月15日剛推出，尚未加入第三方機構測試。預計未來一到兩個月內，許多第三方評測機構將會陸續揭露該模型的評測結果。與模型同名的AI助理"豆包"，官方公佈的月活用戶數已經達到2600萬，用戶可以自由體驗測試。

先前，智源研究院公佈了涵蓋全球91個語言模式的評測報告。在偏重考察中文能力的主觀評測中，雲雀Skylark2排名第一，中文能力超過GPT-4。

豆包大模型揭露評測成績，較上一代「雲雀」提升19%

圖：智源研究院語言模式評測結果（模型為4##月20日之前的版本）

以上是豆包大模型揭露評測成績，較上一代「雲雀」提升19%的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

及時工程中的思想圖是什麼

及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹在迅速的工程中，“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷

優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹恭喜！您經營一家成功的業務。通過您的網頁，社交媒體活動，網絡研討會，會議，免費資源和其他來源，您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視

Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹在當今快節奏的軟件開發環境中，確保最佳應用程序性能至關重要。監視實時指標，例如響應時間，錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶？ Openai首席執行官說：'短短幾週內翻了一番

Chatgpt擊中了10億用戶？ Openai首席執行官說：'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶？”他扮演。阿爾特曼回答說：“我認為我們上次說的是每週5億個活躍者，而且它正在迅速增長。” “你告訴我，就像在短短幾週內翻了一番，”安德森繼續說道。 “我說那個私人

pixtral -12b：Mistral AI＆＃039;第一個多模型模型 - 分析Vidhya

pixtral -12b：Mistral AI＆＃039;第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型，即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型？現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya

生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下，擁有一個由AI驅動的助手，不僅可以響應您的查詢，還可以自主收集信息，執行任務甚至處理多種類型的數據（TEXT，圖像和代碼）。聽起來有未來派？在這個a

生成AI在金融部門的應用

生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹金融業是任何國家發展的基石，因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南

在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹數據是從社交媒體，金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰，但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼（黃色晶體）

3 週前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳圖形設置

3 週前By尊渡假赌尊渡假赌尊渡假赌

刺客信條陰影：貝殼謎語解決方案

2 週前ByDDD

R.E.P.O.如果您聽不到任何人，如何修復音頻

3 週前By尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解鎖Myrise中的所有內容

4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版，非常好用

mPDF

mPDF

mPDF是一個PHP庫，可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件，並處理不同的語言。與原始腳本如HTML2FPDF相比，它的速度較慢，並且在使用Unicode字體時產生的檔案較大，但支援CSS樣式等，並進行了大量增強。支援幾乎所有語言，包括RTL（阿拉伯語和希伯來語）和CJK（中日韓）。支援嵌套的區塊級元素（如P、DIV），

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序，非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具，幫助Web開發人員更好地理解保護網路應用程式的過程，並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞，難度各不相同。請注意，該軟體中

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合，這些清單在安全評估過程中經常使用，而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表，幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上，他就可以存取所需的每種類型的清單。

熱門話題

gmail信箱登陸入口在哪裡

7486

15

1377

52

steam的賬戶名稱是什麼格式

77

11

win11激活密鑰永久

51

19

NYT連接提示和答案

19

38