如果試題太簡單,學霸和學渣都能考90分,拉不開差距…
隨著Claude 3、Llama 3甚至之後GPT-5等更強模型發布,業界急需一款更難、更有區分度的基準測試。
大模型競技場背後組織LMSYS推出下一代基準測試Arena-Hard,引起廣泛關注。
Llama 3的兩個指令微調版本實力到底如何,也有了最新參考。
與之前大家分數都相近的MT Bench相比,Arena-Hard區分度從22.6%提升到87.4%,孰強孰弱一目了然。
Arena-Hard利用競技場即時人類數據構建,與人類偏好一致率也高達89.1%。
除了上面兩個指標都達到SOTA之外,還有一個額外的好處:
即時更新的測試資料包含人類新想出的、AI在訓練階段從未見過的提示詞,減輕潛在的資料外洩。
發布新模型後,無需再等待一周左右讓人類用戶參與投票,只需花費25美元快速運行測試管線,即可獲得結果。
有網友評價,使用真實使用者提示詞而不是高中考試來測試,真的很重要。
新基準測試如何運作?
簡單來說,透過大模型競技場20萬個使用者查詢中,挑選500個高品質提示詞作為測試集。
首先,挑選過程中確保多樣性,也就是測試集應涵蓋廣泛的現實世界主題。
為了確保這一點,團隊採用BERTopic中主題建模管道,首先使用OpenAI的嵌入模型(text-embedding-3-small)轉換每個提示,使用UMAP 降低維度,並使用基於層次結構的模型聚類演算法 (HDBSCAN) 來辨識聚類,最後使用GPT-4-turbo進行總結。
同時確保入選的提示詞具有高品質,有七個關鍵指標來衡量:
- ##具體性:提示詞是否要求特定的輸出?
- 領域知識:提示詞是否涵蓋一個或多個特定領域?
- 複雜度:提示詞是否有多層推理、組成部分或變數?
- 解決問題:提示詞是否直接讓AI展現主動解決問題的能力?
- 創造力:提示詞是否涉及解決問題的某種程度的創造力?
- 技術準確度:提示詞是否要求反應具有技術準確度?
- 實際應用:提示詞是否與實際應用相關?
但令人驚訝的是,它更喜歡幾個開放模型如Mixtral和零一萬物Yi,甚至對GPT-3.5的評分都有明顯提高。
整體而言,使用Claude 3打分的區分度和與人類結果的一致性都不如GPT-4。
所以也有很多網友建議,使用多個大模型來綜合評分。
除此之外,團隊也做了更多消融實驗來驗證新基準測試的有效性。
例如在提示詞中加入“讓答案盡可能詳盡”,平均輸出長度更高,分數確實會提高。
但把提示詞換成“喜歡閒聊”,平均輸出長度也有提高,但分數提升就不明顯。
此外在實驗過程中還有很多有趣的發現。
例如GPT-4來評分非常嚴格,如果回答中有錯誤會狠狠扣分;而Claude 3即使辨識出小錯誤也會寬大處理。
對於程式碼問題,Claude 3傾向於提供簡單結構、不依賴外部程式碼庫,能幫助人類學習程式設計的答案;而GPT-4-Turbo更傾向最實用的答案,不管其教育價值如何。
另外即使設定溫度為0,GPT-4-Turbo也可能產生略有不同的判斷。
從層次結構視覺化的前64個聚類中也可以看出,大模型競技場使用者的提問品質和多樣性確實是高。
這裡面也許就有你的貢獻。
Arena-Hard GitHub:https://github.com/lm-sys/arena-hard
Arena-Hard HuggingFace:https://huggingface.co/spaces/lmsys/arena-hard- browser
大模型競技場:https://arena.lmsys.org
參考連結:
[1]https://x.com/lmsysorg/status/1782179997622649330
[2]https://lmsys.org/blog/2024-04-19-arena-hard/
以上是新測試基準發布,最強開源Llama 3尷尬了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

WebStorm Mac版
好用的JavaScript開發工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

Dreamweaver Mac版
視覺化網頁開發工具

禪工作室 13.0.1
強大的PHP整合開發環境

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。