前段時間,來自LMSYS Org(UC伯克利主導)的研究人員搞了個大新聞-大語言模型版排位賽!
這次,團隊不僅帶來了4位新玩家,還有一個(準)中文排行榜。
毫無疑問,只要GPT-4參戰,必定是穩居第一。
不過,出乎意料的是,Claude不僅超過了把OpenAI帶上神壇的GPT-3.5位列第二,而且只比GPT-4差了50分。
相較之下,排名第三的GPT-3.5只比130億參數的最強開源模型Vicuna高了72分。
而140億參數的「純RNN模型」RWKV-4-Raven-14B憑藉著卓越的表現,超越一眾Transformer模型排到了第6——除Vicuna模型外,RWKV在與所有其他開源模型的非平局比賽中贏得了超過50%的比賽。
此外,團隊也分別製作了「僅英文」和「非英文」(其中大部分是中文)這兩個單獨的排行榜。
可以看到,不少模型的排位都出現了明顯的變化。
例如,用更多中文資料訓練的ChatGLM-6B確實表現較好,而GPT-3.5也成功超越Claude排到了第二的位置。
本次更新的主要貢獻者是盛穎、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez和Ion Stoica。
盛穎是LMSYS Org的3位創辦人之一(另外兩位是Lianmin Zheng和Hao Zhang),史丹佛大學電腦科學系的博士生。
她也是之前爆火的、可以在單GPU上可以跑175B模型推理的系統FlexGen的一作,目前已獲8k星。
#論文網址:https://arxiv.org/abs/2303.06865
專案網址:https://github.com/FMInference/FlexGen
#個人首頁:https://sites.google.com /view/yingsheng/home
在社群的幫助下,團隊共收集了13k個匿名投票,並且有了一些有趣的發現。
在三個專有模型中,Anthropic的Claude模型比GPT-3.5-turbo更受用戶歡迎。
而且,Claude在與最強大的GPT-4競爭時,也表現得非常有競爭力。
從下面這個勝率圖來看,GPT-4和Claude之間的66場非平手比賽中,Claude贏得了32場(48%)比賽。
在所有非平手A vs B對戰中,模型A勝利的比例
然而,其他開源模型與這三個專有模型之間,依然存在著很大的差距。
特别是,GPT-4以1274的Elo分数领跑排行榜。这比榜单上最好的开源替代——Vicuna-13B——要高出近200分。
在去掉平局后,GPT-4在与Vicuna-13B对战时赢得了82%的比赛,甚至在与前一代GPT-3.5-turbo对战时赢得了79%的比赛。
然而,值得注意的是,排行榜上的这些开源模型通常具有比专有模型更少的参数,范围在30亿 - 140亿之间。
实际上,最近在LLM和数据策划方面的进展使得使用较小模型取得显著性能改进成为可能。
谷歌的最新PaLM 2就是一个很好的例子:我们知道PaLM 2在使用较小模型大小时,比其前一代实现了更好的性能。
因此,团队对开源语言模型迎头赶上充满乐观。
在下图中,用户提出了一个需要仔细推理和规划的棘手问题。虽然Claude和GPT-4提供了类似的答案,但Claude的回应稍微好一些。
然而,由于采样的随机性,团队发现这种情况并不能总能复刻。有时GPT-4也能像Claude一样给出相同的顺序,但在这次生成试验中失败了。
另外,团队注意到,当使用OpenAI API和ChatGPT接口时,GPT-4的行为略有不同,这可能是由于不同的提示、采样参数或其他未知因素导致的。
用户更喜欢Claude而不是GPT-4的一个例子
在下图中,尽管Claude和GPT-4都具有惊人的能力,但它们仍在处理这类复杂的推理问题上挣扎。
一个用户认为Claude和GPT-4都错了的例子
除了这些棘手的情况,还有许多并不需要复杂推理或知识的简单问题。
在这种情况下,像Vicuna这样的开源模型可以与GPT-4表现相当,因此我们可能可以使用稍微弱一些(但更小或更便宜)的大型语言模型(LLM)来替代像GPT-4这样更强大的模型。
自从三个强大的专有模型参与以来,聊天机器人竞技场的竞争从未如此激烈。
由于在与专有模型对战时,开源模型输掉了不少比赛,因此它们的Elo分数都有所下降。
最后,团队还计划开放一些API,让用户可以注册自己的聊天机器人来参加排位赛。
以上是UC柏克萊LLM準中文排行榜來了! GPT-4穩居第一,國人開源RNN模型衝進前六的詳細內容。更多資訊請關注PHP中文網其他相關文章!