首頁  >  文章  >  科技週邊  >  和 GPT-4 並列第一,LMSYS 基準測試顯示 Claude-3 模型表現優異

和 GPT-4 並列第一,LMSYS 基準測試顯示 Claude-3 模型表現優異

WBOY
WBOY轉載
2024-03-28 17:26:43436瀏覽

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

3 月28 日消息,根據LMSYS Org 公佈的最新基準測試報告,Claude-3 得分以微弱優勢超越GPT-4,成為該平台“最佳”大語言模型。

本網站首先介紹下LMSYS Org,該機構是由加州大學柏克萊分校、加州大學聖地牙哥分校和卡內基美隆大學合作創建的研究組織。

該系統推出Chatbot Arena,這是一個針對大型語言模型(LLM)的基準平台,以眾包方式匿名、隨機對抗測試大模型產品,其評級基於國際象棋等競技遊戲中廣泛使用的Elo評分系統。

透過用戶投票產生的評分結果,系統每次都會隨機選擇兩個不同的大模型機器人和用戶聊天,並讓用戶在匿名的情況下選擇哪款大模型產品的表現更好一些,整體而言相對公正。

Chatbot Arena 自去年上線以來,GPT-4 一直穩居頭把交椅,甚至成為了評估大模型的黃金標準。

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

不過昨天 Anthropic 的 Claude 3 Opus 以 1253 比 1251 的微弱優勢擊敗了 GPT-4,OpenAI 的 LLM 被擠下了榜首位置。由於比分過於接近,出於誤差率的考量,該機構讓 Claude 3 和 GPT-4 並列第一,GPT-4 的另一個預覽版也並列第一。

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

更令人印象深刻的是 Claude 3 Haiku 進入前十名。 Haiku 是 Anthropic 的 local size 模型,相當於Google的 Gemini Nano。

它比擁有數萬億參數的 Opus 要小得多,因此相比之下速度要快得多。根據 LMSYS 的數據,Haiku 在排行榜上名列第七,有媲美 GPT-4 的表現。

#

以上是和 GPT-4 並列第一,LMSYS 基準測試顯示 Claude-3 模型表現優異的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除