關於Llama 3,又有測試結果新鮮出爐-
大模型評測社群LMSYS發布了一份大模型排行榜單,Llama 3位列第五,英文單項與GPT -4並列第一。
圖片
不同於其他Benchmark,這份榜單的依據是模型一對一battle,由全網測評者自行命題並評分。
最終,Llama 3取得了榜單中的第五名,排在前面的是GPT-4的三個不同版本,以及Claude 3超大杯Opus。
而在英文單項榜單中,Llama 3反超了Claude,與GPT-4打成了平手。
對於這一結果,Meta的首席科學家LeCun十分高興,轉發了推文並留下了一個「Nice」。
圖片
PyTorch之父Soumith Chintala也令人興奮地表示,這樣的成果令人難以置信,對Meta感到驕傲。
Llama 3的400B版本還沒出來,單靠70B參數就獲得了第五名…
我還記得去年三月GPT-4發布的時候,達到與之相同的表現幾乎是一件不可能的事。
……
現在AI的普及化實在是令人難以置信,我對Meta AI的同仁們做出這樣的成功感到非常驕傲。
圖片
那麼,這份榜單具體顯示了什麼樣的結果呢?
近90個模型對戰75萬輪
截至最新榜單發布,LMSYS共收集了近75萬次大模型solo對戰結果,涉及的模型達到了89款。
其中,Llama 3參與過的有1.27萬次,GPT-4則有多個不同版本,最多的參與了6.8萬次。
圖片
下面這張圖展示了部分熱門模型的比拼次數和勝率,圖中的兩個指標都沒有統計平手的次數。
圖片
榜單方面,LMSYS分成了總榜和多個子榜單,GPT-4-Turbo位列第一,與之並列的是早一些的1106版本,以及Claude 3超大杯Opus。
另一個版本(0125)的GPT-4則位列其後,緊接著就是Llama 3了。
不過比較有趣的是,較新一點的0125,表現還不如舊版1106。
圖片
而在英文單項榜單中,Llama 3的成績直接和兩款GPT-4打成了平手,還反超了0125版本。
圖片
中文能力排行榜的第一名則由Claude 3 Opus和GPT-4-1106共享,Llama 3則已經排到了20名開外。
圖片
除了語言能力之外,名單中還設定了長文字和程式碼能力排名,Llama 3也都名列前茅。
不過,LMSYS的「遊戲規則」又具體是什麼樣的呢?
人人都可參與的大模型評測
這是一個人人都可以參與的大模型測試,題目和評價標準,都由參與者自行決定。
而具體的「競技」過程,又分成了battle和side-by-side兩種模式。
圖片
battle模式下,在測試介面輸入好問題之後,系統會隨機呼叫庫中的兩個模型,而測試者並不知道系統到底抽中了誰,介面中只顯示「模型A」和「模型B」。
在模型輸出答案後,評估者需要選擇哪個比較好,或是平手,當然如果模型的表現都不符合預期,也有對應的選項。
只有在做出選擇之後,模型的身份才會被揭開。
side-by-side則是由使用者選擇指定的模型來PK,其餘測試流程與battle模式相同
不過,只有battle的匿名模式下的投票結果才會被統計,且在對話過程中模型不小心揭露身份就會導致結果失效。
圖片
依照各個模型對其他模型的Win Rate,可以畫出這樣的圖像:
圖片
△示意圖,較早版本
而最終的排行榜,是利用Win Rate數據,透過Elo評價系統換算成分數得到的。
Elo評估系統是一種計算玩家相對技能等級的方法,由美國物理學教授Arpad Elo設計。
具體到LMSYS,在初始條件下,所有模型的分數(R)都設定為1000,然後根據這樣的公式計算出期待勝率(E)。
圖片
隨著測驗的持續進行,會根據實際分數(S)對分數進行修正,S有1、0和0.5三種取值,分別對應獲勝、失敗和平手三種情況。
修正演算法如下式所示,其中K為係數,需要測試者依實際情況調整。
圖片
最終將所有有效資料納入計算後,就得到了模型的Elo評分。
不過在實際操作過程中,LMSYS團隊發現這個演算法的穩定性有不足,於是又採用了統計方法進行了修正。
他們利用Bootstrap方法進行重複取樣,得到了更穩定的結果,並估計了置信度區間。
最終修正後的Elo評分,就成了榜單中的排列依據。
One More Thing
Llama 3已經可以在大模型推理平台Groq(不是馬斯克的Grok)上跑了。
這個平台的最大亮點是“快”,之前用Mixtral模型跑出過每秒近500 token的速度。
跑起Llama 3,也是相當迅速,實測70B可以跑到每秒約300 Token,8B版本更是接近了800。
圖片
參考連結:
[1]https://lmsys.org/blog/2023-05-03- arena/
[2]https://chat.lmsys.org/?leaderboard
[3]https://twitter.com/lmsysorg/status/1782483699449332144
以上是大模型一對一戰鬥75萬輪,GPT-4奪冠,Llama 3位列第五的詳細內容。更多資訊請關注PHP中文網其他相關文章!

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

Dreamweaver Mac版
視覺化網頁開發工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器