近日,豆包大模型在火山引擎原動力大會上正式發表。以超低價格促銷大模型降價潮的同時,豆包的模型能力也引發產業關注。
在火山引擎的一份產品資料中,豆包模型團隊發布了一期內部部分測試結果:在MMLU、BBH、GSM8K、HumanEval 等11個行業主流的公開評測集上,Doubao-pro -4k 的總分為76.8分,相比上一代機型雲雀Skylark2 的64.5分提升了19%。這也優於同期測試的其他國產模型。
這次評測在今年5月完成,主要包括豆包括通用模型Pro、雲雀Skylark2以及內的九款國產大語言模型。除了雲雀Skylark2以外,其他模型均為各廠商最新發布的進階版本,透過API呼叫進行測試。
圖:豆包模型團隊內部測試結果
根據評測結果顯示,在評估程式碼能力的兩個評測集" HumanEval"和"MBPP"上,豆包相比上一代模型提升了50%左右;在專業知識和指令遵循的評測集上,豆包分別獲得33%和24%的性能提升,同時也是得分最高的國產模型。
除了數學能力、語言理解能力,以及綜合評測集BCMMLU和CEval的評測上也有不錯的表現。得分排在前三名。綜合11個公開評測集上的測驗成績,豆包通用模型-pro的總分為76.8分。根據OpenAI公佈的測驗成績,GPT-4在這些評測集上的總分為80.1分,相比國產模型仍有一定領先優勢。
據悉,豆包模型於5月15日剛推出,尚未加入第三方機構測試。預計未來一到兩個月內,許多第三方評測機構將會陸續揭露該模型的評測結果。與模型同名的AI助理"豆包",官方公佈的月活用戶數已經達到2600萬,用戶可以自由體驗測試。
先前,智源研究院公佈了涵蓋全球91個語言模式的評測報告。在偏重考察中文能力的主觀評測中,雲雀Skylark2排名第一,中文能力超過GPT-4。
圖:智源研究院語言模式評測結果(模型為4##月20日之前的版本)
以上是豆包大模型揭露評測成績,較上一代「雲雀」提升19%的詳細內容。更多資訊請關注PHP中文網其他相關文章!

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3漢化版
中文版,非常好用

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Dreamweaver Mac版
視覺化網頁開發工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。