搜索
首页科技周边人工智能UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

前段时间,来自LMSYS Org(UC伯克利主导)的研究人员搞了个大新闻——大语言模型版排位赛!

这次,团队不仅带来了4位新玩家,而且还有一个(准)中文排行榜。

  • OpenAI GPT-4
  • OpenAI GPT-3.5-turbo
  • Anthropic Claude-v1
  • RWKV-4-Raven-14B(开源)

毫无疑问,只要GPT-4参战,必定是稳居第一。

不过,出乎意料的是,Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二,而且只比GPT-4差了50分。

相比之下,排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。

而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现,超越一众Transformer模型排到了第6——除Vicuna模型外,RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

此外,团队还分别制作了「仅英语」和「非英语」(其中大部分是中文)这两个单独的排行榜。

可以看到,不少模型的排位都出现了明显的变化。

比如,用更多中文数据训练的ChatGLM-6B确实表现更好,而GPT-3.5也成功超越Claude排到了第二的位置。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

本次更新的主要贡献者是盛颖、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez和Ion Stoica。

盛颖是LMSYS Org的3个创始人之一(另外两位是Lianmin Zheng和Hao Zhang),斯坦福大学计算机科学系的博士生。

她也是之前爆火的、可以在单GPU上可以跑175B模型推理的系统FlexGen的一作,目前已获8k星。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

论文地址:https://arxiv.org/abs/2303.06865

项目地址:https://github.com/FMInference/FlexGen

个人主页:https://sites.google.com/view/yingsheng/home

「开源」VS「闭源」

在社区的帮助下,团队共收集了13k条匿名投票,并且有了一些有趣的发现。

专有与开源的差距

在三个专有模型中,Anthropic的Claude模型比GPT-3.5-turbo更受用户欢迎。

而且,Claude在与最强大的GPT-4竞争时,也表现得非常有竞争力。

从下面这个胜率图来看,GPT-4和Claude之间的66场非平局比赛中,Claude赢得了32场(48%)比赛。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

所有非平局A vs B对战中,模型A胜利的比例

然而,其他开源模型与这三个专有模型之间,依然存在着很大的差距。

特别是,GPT-4以1274的Elo分数领跑排行榜。这比榜单上最好的开源替代——Vicuna-13B——要高出近200分。

在去掉平局后,GPT-4在与Vicuna-13B对战时赢得了82%的比赛,甚至在与前一代GPT-3.5-turbo对战时赢得了79%的比赛。

然而,值得注意的是,排行榜上的这些开源模型通常具有比专有模型更少的参数,范围在30亿 - 140亿之间。

实际上,最近在LLM和数据策划方面的进展使得使用较小模型取得显著性能改进成为可能。

谷歌的最新PaLM 2就是一个很好的例子:我们知道PaLM 2在使用较小模型大小时,比其前一代实现了更好的性能。

因此,团队对开源语言模型迎头赶上充满乐观。

GPT-4在何时会「翻车」?

在下图中,用户提出了一个需要仔细推理和规划的棘手问题。虽然Claude和GPT-4提供了类似的答案,但Claude的回应稍微好一些。

然而,由于采样的随机性,团队发现这种情况并不能总能复刻。有时GPT-4也能像Claude一样给出相同的顺序,但在这次生成试验中失败了。

另外,团队注意到,当使用OpenAI API和ChatGPT接口时,GPT-4的行为略有不同,这可能是由于不同的提示、采样参数或其他未知因素导致的。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

用户更喜欢Claude而不是GPT-4的一个例子

在下图中,尽管Claude和GPT-4都具有惊人的能力,但它们仍在处理这类复杂的推理问题上挣扎。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

一个用户认为Claude和GPT-4都错了的例子

除了这些棘手的情况,还有许多并不需要复杂推理或知识的简单问题。

在这种情况下,像Vicuna这样的开源模型可以与GPT-4表现相当,因此我们可能可以使用稍微弱一些(但更小或更便宜)的大型语言模型(LLM)来替代像GPT-4这样更强大的模型。

Elo分数的变化

自从三个强大的专有模型参与以来,聊天机器人竞技场的竞争从未如此激烈。

由于在与专有模型对战时,开源模型输掉了不少比赛,因此它们的Elo分数都有所下降。

最后,团队还计划开放一些API,让用户可以注册自己的聊天机器人来参加排位赛。

以上是UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
Excel中的数据格式是什么? - 分析VidhyaExcel中的数据格式是什么? - 分析VidhyaApr 14, 2025 am 11:05 AM

介绍 在Excel中有效地处理数据对于分析师来说可能具有挑战性。鉴于关键的业务决策取决于准确的报告,因此格式化错误可能会导致重大问题。本文将帮助您

什么是扩散模型?什么是扩散模型?Apr 14, 2025 am 11:00 AM

潜入扩散模型的世界:综合指南 想象一下,在页面上观看墨水,其颜色巧妙地扩散到了迷人的图案。这种自然扩散过程,其中颗粒从高浓度向低浓度移动

AI中的启发式功能是什么? - 分析VidhyaAI中的启发式功能是什么? - 分析VidhyaApr 14, 2025 am 10:51 AM

介绍 想象一下,浏览复杂的迷宫 - 您的目标是尽快逃脱。 存在几条路径?现在,图片有一张图的地图,该地图突出显示有希望的路线和死胡同。这就是人造中启发式功能的本质

回溯算法的综合指南回溯算法的综合指南Apr 14, 2025 am 10:45 AM

介绍 回溯算法是一种有力的解决问题的技术,可以逐步构建候选解决方案。 这是计算机科学中广泛使用的方法,在丢弃任何Potenti之前,系统地探索了所有可能的途径

5个免费学习统计信息的最佳YouTube频道5个免费学习统计信息的最佳YouTube频道Apr 14, 2025 am 10:38 AM

介绍 统计数据是一项至关重要的技能,适用于学术界。无论您是追求数据科学,进行研究还是简单地管理个人信息,对统计的掌握都是必不可少的。 互联网,尤其是距离

Avbytes:生成AI的主要发展和挑战 - 分析VidhyaAvbytes:生成AI的主要发展和挑战 - 分析VidhyaApr 14, 2025 am 10:36 AM

介绍 嘿,AI爱好者! 欢迎来到AV字节,即您友好的社区来源,以获取AI的所有事物。扣紧了,因为本周在AI世界中一直很疯狂!我们有一些令人震惊的东西

带有Langchain的边缘设备上的自托管抹布应用带有Langchain的边缘设备上的自托管抹布应用Apr 14, 2025 am 10:35 AM

介绍 在我们在Raspberry Pi上构建RAG应用程序的系列文章的第二部分中,我们将在第一部分奠定的基础上扩展,并在该基础上创建并测试了核心管道。在第一部分中,我们将

光标AI:为什么您应该尝试一次? - 分析Vidhya光标AI:为什么您应该尝试一次? - 分析VidhyaApr 14, 2025 am 10:22 AM

介绍 在Andrej Karpathy的病毒推文“英语已成为新的编程语言”之后,这是X上的另一条趋势推文,说:“未来像选项卡”。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。