搜索
首页科技周边人工智能GPT-4不服被Bard反超:最新模型已入场

“大模型排位赛”权威榜单Chatbot Arena刷新:

谷歌Bard超越GPT-4,排名位居第二,仅次于GPT-4 Turbo。

GPT-4不服被Bard反超:最新模型已入场

然鹅,众多网友对此却表示“不服”、“不公平”。

原来,谷歌AI掌门人Jeff Dean透露,Bard性能大幅提升,是因为搭载了新版大模型——Gemini Pro-scale。

GPT-4不服被Bard反超:最新模型已入场

这也就意味着,打“排位赛”的Bard具备了联网功能。

GPT-4不服被Bard反超:最新模型已入场

网友的质疑正是围绕着这一点展开:

在同一个排行榜上混合在线和离线大模型,是极易引起误解的。

GPT-4不服被Bard反超:最新模型已入场

Hugging Face的“首席羊驼官”Omar Sanseviero也表示:

既然如此…我也可以向lmsys提交具有搜索功能的Mixtral吗?

GPT-4不服被Bard反超:最新模型已入场

面对种种质疑声,Imsys官方做出了回应,其中指出:

  • Arena排行榜是实时的,大家如有疑问,可在Arena中直接比较模型并投票;
  • 投票数据公开透明,还会即将发布关于用户提示多样性和投票质量的研究以及相应的数据集;

对于网友们最关心的被Bard超越的GPT-4是不联网版本的问题,Imsys表示“如果实时数据的接入能够提升用户体验,排行榜将予以体现”。

并且直接@了OpenAI和Bing以及微软高管Mikhail Parakhin,表示非常乐意在竞技场中加入GPT-4联网版或Bing Copilot。

最新消息是,OpenAI的最新模型gpt-4-0125-preview现已入驻竞技场,等待用户参与投票。

GPT-4不服被Bard反超:最新模型已入场

Bard超越GPT-4是怎么回事?

Chatbot Arena是一个大模型权威榜单,由UC伯克利研究人员主导的Imsys(Large Model Systems Organization)组织创建。

该排行榜采用匿名1V1battle的投票规则,基于Elo评级系统排名。

具体来说,投票页面如下,两个模型Model A和B均匿名,用户在提出多个问题后对模型的回答打分,总共有四个选项:A更好、B更好、A和B一样好,A和B都不好。

GPT-4不服被Bard反超:最新模型已入场

值得一提的是,如果在问答过程中,模型身份泄露,那么该投票作废。

GPT-4不服被Bard反超:最新模型已入场

根据当前榜单,竞技场中有56个大模型:

GPT-4不服被Bard反超:最新模型已入场

此前GPT-4凭借“遥遥领先”的评分,长期霸榜,然而新版Bard发布后,直接超越GPT-4的两个版本冲到了第二名,和第一名的GPT-4 Turbo只差34分:

GPT-4不服被Bard反超:最新模型已入场

更详细一点,在所有没有平局的Model A对B的对决中,Model A获胜的比例如下:

GPT-4不服被Bard反超:最新模型已入场

还有每一对模型组合的单挑次数(无平局)

GPT-4不服被Bard反超:最新模型已入场

此外,Chatbot Arena排行榜还使用自助法对Elo评分估计进行1000次随机抽样,从而评估置信区间等。

GPT-4不服被Bard反超:最新模型已入场

单个模型相对于其他所有模型的平均胜率如下:

GPT-4不服被Bard反超:最新模型已入场

不过值得注意的是,Arena排行榜是实时的,Bard目前虽然排名第二,但总共只有3000多票。

相较而言,GPT-4 Turbo的票数已经达到了30000+,被超越的两个版本的票数也都是Bard的数倍。

GPT-4不服被Bard反超:最新模型已入场

而现在GPT-4最新版本已入场(虽然还没有在排行榜上更新),后续结果还要再坐等一波~

参考链接:https://twitter.com/lmsysorg/status/1752035632489300239。

以上是GPT-4不服被Bard反超:最新模型已入场的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
7强大的AI提示每个项目经理现在需要掌握7强大的AI提示每个项目经理现在需要掌握May 08, 2025 am 11:39 AM

聊天机器人诸如Chatgpt之类的聊天机器人举例说明了生成的AI,为项目经理提供了功能强大的工具来简化工作流程并确保项目按计划和预算范围内保持。 但是,在制作正确的提示时有效使用铰链。 精确,细节

通过AI本身的有益协助,定义难以捉摸的AGI的含义不明的含义通过AI本身的有益协助,定义难以捉摸的AGI的含义不明的含义May 08, 2025 am 11:37 AM

定义人工智能(AGI)的挑战是重大的。 AGI进步的主张通常缺乏明确的基准,其定义是针对预定的研究方向而定制的。本文探讨了一种新颖的定义方法

IBM认为2025展示watsonx.data在生成AI中的作用IBM认为2025展示watsonx.data在生成AI中的作用May 08, 2025 am 11:32 AM

IBM WATSONX.DATA:简化企业AI数据堆栈 IBM将watsonx.data定位为企业的关键平台,旨在加速精确且可扩展的生成AI解决方案。 这是通过简化投诉来实现的

人形机器人机器的崛起即将到来。人形机器人机器的崛起即将到来。May 08, 2025 am 11:29 AM

在AI和材料科学领域的突破所推动的机器人技术的快速进步已准备好迎来人类机器人的新时代。 多年来,工业自动化一直是主要重点,但是机器人的功能迅速exp

Netflix重新修改界面 - 首次亮相AI搜索工具和类似Tiktok的设计Netflix重新修改界面 - 首次亮相AI搜索工具和类似Tiktok的设计May 08, 2025 am 11:25 AM

Netflix 界面十年来最大更新:更智能、更个性化,拥抱多元内容 Netflix 周三宣布对其用户界面进行十年来最大规模的改版,不仅外观焕然一新,还增加了更多关于每个节目的信息,并引入了更智能的 AI 搜索工具,能够理解模糊的概念(例如“氛围”),以及更灵活的结构,以便更好地展示公司在新兴的视频游戏、直播活动、体育赛事和其他新型内容方面的兴趣。 为了紧跟潮流,新的移动端竖屏视频组件将使粉丝更容易滚动浏览预告片和片段,观看完整节目或与他人分享内容。这让人联想起无限滚动且非常成功的短视频网站 Ti

在AGI之前很久:三个AI里程碑会挑战您在AGI之前很久:三个AI里程碑会挑战您May 08, 2025 am 11:24 AM

人工智能通用智能(AGI)的讨论日益增多,促使许多人思考当人工智能超越人类智能时会发生什么。这个时刻是近在咫尺还是遥遥无期,取决于你问谁,但我认为这并非我们应该关注的最重要的里程碑。哪些更早的人工智能里程碑会影响到每个人?哪些里程碑已经实现?以下是我认为已经发生的三件事。 人工智能超越人类弱点 在2022年的电影《社交困境》中,人文科技中心(Center for Humane Technology)的崔斯坦·哈里斯指出,人工智能已经超越了人类的弱点。这是什么意思?这意味着人工智能已经能够运用人类

Venkat Achanta在Transunion的平台转型和AI野心Venkat Achanta在Transunion的平台转型和AI野心May 08, 2025 am 11:23 AM

Transunion的首席技术官Ranganath Achanta在2021年末加入公司后加入公司以来,率先进行了重大的技术转变。

当对AI的信任跃升时,生产力会随之而来当对AI的信任跃升时,生产力会随之而来May 08, 2025 am 11:11 AM

建立信任至关重要,对于成功采用业务的AI是至关重要的。 考虑到业务流程中的人类因素,这尤其如此。 像其他任何人一样,员工对AI及其实施引起了人们的关注。 德勤研究人员是SC

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境