搜尋
首頁科技週邊人工智慧UC柏克萊LLM準中文排行榜來了! GPT-4穩居第一,國人開源RNN模型衝進前六

前段時間,來自LMSYS Org(UC伯克利主導)的研究人員搞了個大新聞-大語言模型版排位賽!

這次,團隊不僅帶來了4位新玩家,還有一個(準)中文排行榜。

  • OpenAI GPT-4
  • OpenAI GPT-3.5-turbo
  • Anthropic Claude-v1
  • #RWKV-4-Raven- 14B(開源)

毫無疑問,只要GPT-4參戰,必定是穩居第一。

不過,出乎意料的是,Claude不僅超過了把OpenAI帶上神壇的GPT-3.5位列第二,而且只比GPT-4差了50分。

相較之下,排名第三的GPT-3.5只比130億參數的最強開源模型Vicuna高了72分。

而140億參數的「純RNN模型」RWKV-4-Raven-14B憑藉著卓越的表現,超越一眾Transformer模型排到了第6——除Vicuna模型外,RWKV在與所有其他開源模型的非平局比賽中贏得了超過50%的比賽。

UC柏克萊LLM準中文排行榜來了! GPT-4穩居第一,國人開源RNN模型衝進前六

此外,團隊也分別製作了「僅英文」和「非英文」(其中大部分是中文)這兩個單獨的排行榜。

可以看到,不少模型的排位都出現了明顯的變化。

例如,用更多中文資料訓練的ChatGLM-6B確實表現較好,而GPT-3.5也成功超越Claude排到了第二的位置。

UC柏克萊LLM準中文排行榜來了! GPT-4穩居第一,國人開源RNN模型衝進前六

本次更新的主要貢獻者是盛穎、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez和Ion Stoica。

盛穎是LMSYS Org的3位創辦人之一(另外兩位是Lianmin Zheng和Hao Zhang),史丹佛大學電腦科學系的博士生。

她也是之前爆火的、可以在單GPU上可以跑175B模型推理的系統FlexGen的一作,目前已獲8k星。

UC柏克萊LLM準中文排行榜來了! GPT-4穩居第一,國人開源RNN模型衝進前六

#論文網址:https://arxiv.org/abs/2303.06865

專案網址:https://github.com/FMInference/FlexGen

#個人首頁:https://sites.google.com /view/yingsheng/home

「開源」VS「閉源」

在社群的幫助下,團隊共收集了13k個匿名投票,並且有了一些有趣的發現。

專有與開源的差距

在三個專有模型中,Anthropic的Claude模型比GPT-3.5-turbo更受用戶歡迎。

而且,Claude在與最強大的GPT-4競爭時,也表現得非常有競爭力。

從下面這個勝率圖來看,GPT-4和Claude之間的66場非平手比賽中,Claude贏得了32場(48%)比賽。

UC柏克萊LLM準中文排行榜來了! GPT-4穩居第一,國人開源RNN模型衝進前六

在所有非平手A vs B對戰中,模型A勝利的比例

然而,其他開源模型與這三個專有模型之間,依然存在著很大的差距。

特别是,GPT-4以1274的Elo分数领跑排行榜。这比榜单上最好的开源替代——Vicuna-13B——要高出近200分。

在去掉平局后,GPT-4在与Vicuna-13B对战时赢得了82%的比赛,甚至在与前一代GPT-3.5-turbo对战时赢得了79%的比赛。

然而,值得注意的是,排行榜上的这些开源模型通常具有比专有模型更少的参数,范围在30亿 - 140亿之间。

实际上,最近在LLM和数据策划方面的进展使得使用较小模型取得显著性能改进成为可能。

谷歌的最新PaLM 2就是一个很好的例子:我们知道PaLM 2在使用较小模型大小时,比其前一代实现了更好的性能。

因此,团队对开源语言模型迎头赶上充满乐观。

GPT-4在何时会「翻车」?

在下图中,用户提出了一个需要仔细推理和规划的棘手问题。虽然Claude和GPT-4提供了类似的答案,但Claude的回应稍微好一些。

然而,由于采样的随机性,团队发现这种情况并不能总能复刻。有时GPT-4也能像Claude一样给出相同的顺序,但在这次生成试验中失败了。

另外,团队注意到,当使用OpenAI API和ChatGPT接口时,GPT-4的行为略有不同,这可能是由于不同的提示、采样参数或其他未知因素导致的。

UC柏克萊LLM準中文排行榜來了! GPT-4穩居第一,國人開源RNN模型衝進前六

用户更喜欢Claude而不是GPT-4的一个例子

在下图中,尽管Claude和GPT-4都具有惊人的能力,但它们仍在处理这类复杂的推理问题上挣扎。

UC柏克萊LLM準中文排行榜來了! GPT-4穩居第一,國人開源RNN模型衝進前六

一个用户认为Claude和GPT-4都错了的例子

除了这些棘手的情况,还有许多并不需要复杂推理或知识的简单问题。

在这种情况下,像Vicuna这样的开源模型可以与GPT-4表现相当,因此我们可能可以使用稍微弱一些(但更小或更便宜)的大型语言模型(LLM)来替代像GPT-4这样更强大的模型。

Elo分数的变化

自从三个强大的专有模型参与以来,聊天机器人竞技场的竞争从未如此激烈。

由于在与专有模型对战时,开源模型输掉了不少比赛,因此它们的Elo分数都有所下降。

最后,团队还计划开放一些API,让用户可以注册自己的聊天机器人来参加排位赛。

以上是UC柏克萊LLM準中文排行榜來了! GPT-4穩居第一,國人開源RNN模型衝進前六的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能