搜索
首页科技周边人工智能一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

机器之能报道
编辑:杨文
玩梗、看病、耍心眼、做数学题,「新王」Claude 3.5能力真那么玄乎?

它来了,它来了,它带着 Claude 3.5 Sonnet 走来了!

蛰伏三个月,就在昨晚,OpenAI 的「劲敌」Anthropic 上新了,推出新一代模型 ——

Claude 3.5 Sonnet!

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

这款大模型有啥独到之处?

首先,它更能把握住细微差别、幽默和复杂指令,并且书写语气更自然、亲切。

它还是Anthropic最强的视觉模型,擅长解释图表、图形或者从不完美的图像中转录文本等任务。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

此外,它在推理、阅读理解、数学、科学和编码等多项评估基准中表现不凡。

总之,按官方介绍,Claude 3.5 Sonnet 是迄今为止最智能的模型,在多个方面吊打 GPT-4o。

话说到这份上,那我们就不客气了,直接让 Claude 3.5 Sonnet 和 GPT-4o 对决,孰优孰劣实力说话。


第一局:心眼子练习

日常生活中,总会遇到一些尴尬的场面。

例如,饭局上,你帮领导盛饭,领导接过后,说:“盛这么多,喂猪呢?” 这种情况下,高情商者会如何应对?

我们把这个问题丢给这两个大模型。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

它们是懂拍马屁的。

Claude 3.5 一口气给了 5 个示例,不过第 2 句「我眼神不好使,把您当成我们单位的顶梁柱了」,这是拍马蹄子上了吧。

GPT-4o 就更懂「人情世故」了,「看您身材保持得这么好,我可得向您请教减肥秘籍」,这马屁拍的是恰到好处啊。

值得一提的是,Claude 3.5 Sonnet 还上线了一个新功能 —— 提示词再编辑功能。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

用户可直接在原始提示词上进行编辑修改,而不用一遍遍复制粘贴。


第二局:根据菜肴生成菜谱

我们上传了一张「西红柿炒鸡蛋」的图片,分别让这俩大模型介绍一下制作流程。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

它们对于这道经典的中国菜颇有心得,从配料到步骤一应俱全,最有意思的是,它俩懂得中国人做菜的精髓「少许」,也都强调加点糖平衡酸度。

论做菜,两个大模型不相上下。


第三局:做数学题

官方给出的评估表中,GPT-4o 的数学得分要略高于 Claude 3.5 Sonnet 。其中,GPT-4o 是 76.6%,而 Claude 3.5 Sonnet 是 71.1%。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

我们从 2024 年新高考 I 卷中摘录了两道题目,一道是选择题,一道是解答题,分别以图片的形式「投喂」给这两个大模型。

第一道是送分题,正确答案是 A。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

这两个大模型「心有灵犀」,不仅给出了正确答案,还给出了详细的解题步骤。

我们又将解答题第一题交给他们,还让它们给出解题过程。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

正确答案是:B=3/π。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

其实,这道题目算是最基础的题目,但俩大模型「一顿操作猛如虎」,最后给出了错误答案。

更搞笑的是,这错误答案也不是凭空出来的,而是经过了一连串的推理,连犯的错都一个样。

对于数学能力,这俩大模型半斤八两。


第四局:玩网络热梗

今年,AI 视频领域遍地开花,不仅闯入新的「踢馆者」—— 可灵、Luma、即梦等,曾经的 AI 视频「扛把子」Runway 也「王者归来」。

由此,网友制作了这张梗图,来调侃如今各大 AI 视频应用的江湖地位。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

我们分别向两家大模型上传这张梗图,并输入提示词「这张图是什么意思」,以此来测试它们的图片解读能力。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnet 从画面角色、场景以及氛围等方面进行详细描述,不过它似乎没搞懂这张梗图的内涵,也不认识这几个 AI 视频应用,只是含混其辞地表示「这是对在线社区、人工智能系统或虚拟世界中权力结构的评论。」

GPT-4o 一瞅就明白其中深意,「这张图片可能象征着 Runway 在人工智能和创意工具领域的公认优势或领导地位,与提到的其他应用相比,Runway 受到高度重视。」

显而易见,这一局,GPT-4o 完胜。


第五局:读懂世界名画

我们拿出皮埃尔・奥古斯特・库特在 1873 年画的《春光》一图,让它们识别画作并进行赏析。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

这两个大模型堪称艺术界的「行家里手」,均认出了这幅画作,基础信息也表达无误,同时从不同的角度进行赏析。

它们都提到市场价值,不过,Claude 3.5 Sonnet 拒绝置评,只提醒「艺术品估价需要专家评估,考虑多种因素,而且价格可能会随着时间的推移而大幅波动。」

GPT-4o 则认为该画可能会拍出数百万美元的价格,这是不是太小看这幅经典画作了?

这一局,两个大模型算是打成平手。


第六局:AI 看病

最近网友们玩起了用 AI 大模型来看病。我们找了一张 6 岁孩子牙齿的 X 光照片,让大模型们通过牙齿推断年龄,以及有哪些问题。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnet 基于乳牙和恒牙的发育情况,得出结论:这是一个 6-7 岁左右孩子的牙齿,下颌牙齿有些拥挤,恒牙似乎受到阻生,牙齿上较暗的区域或许有腐烂。

GPT-4o 则认为这是 7-9 岁孩子的牙齿,主要的牙齿问题包括恒牙拥挤和潜在的嵌塞。

同时,它们都提到这需要专业的牙医检查。

两相比较,Claude 3.5 Sonnet 对于年龄的判断更为精准一些。

这一局,Claude 3.5 略胜一筹。

此外,不少网友还在线整活儿,捣鼓出不少有趣的玩法。

比如说,EverArt 创始人 Pietro Schirano 在 Claude 3.5 Sonnet 的帮助下,使用几何形状克隆了马里奥游戏,整个过程仅持续 3 分钟。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

他表示,「最疯狂的部分是它还为角色提供了动画,而且这些形状看起来很新颖。」

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

视频链接:https://www.php.cn/link/a412963e013751a90654aa344bc26efe

各位读者,你们觉得这次 Claude 3.5 Sonnet 有没有完成对 GPT-4o 的「绝杀」呢?

以上是一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
AI游戏开发通过Upheaval的Dreamer Portal进入其代理时代AI游戏开发通过Upheaval的Dreamer Portal进入其代理时代May 02, 2025 am 11:17 AM

动荡游戏:与AI代理商的游戏开发彻底改变 Roupheaval是一家游戏开发工作室,由暴风雪和黑曜石等行业巨头的退伍军人组成,有望用其创新的AI驱动的Platfor革新游戏创作

Uber想成为您的Robotaxi商店,提供商会让他们吗?Uber想成为您的Robotaxi商店,提供商会让他们吗?May 02, 2025 am 11:16 AM

Uber的Robotaxi策略:自动驾驶汽车的骑车生态系统 在最近的Curbivore会议上,Uber的Richard Willder推出了他们成为Robotaxi提供商的乘车平台的策略。 利用他们在

AI代理玩电子游戏将改变未来的机器人AI代理玩电子游戏将改变未来的机器人May 02, 2025 am 11:15 AM

事实证明,视频游戏是尖端AI研究的宝贵测试场所,尤其是在自主代理和现实世界机器人的开发中,甚至有可能促进人工通用智能(AGI)的追求。 一个

创业公司工业综合体VC 3.0和James Currier的宣言创业公司工业综合体VC 3.0和James Currier的宣言May 02, 2025 am 11:14 AM

不断发展的风险投资格局的影响在媒体,财务报告和日常对话中显而易见。 但是,对投资者,初创企业和资金的具体后果经常被忽略。 风险资本3.0:范式

Adobe在Adobe Max London 2025更新创意云和萤火虫Adobe在Adobe Max London 2025更新创意云和萤火虫May 02, 2025 am 11:13 AM

Adobe Max London 2025对Creative Cloud和Firefly进行了重大更新,反映了向可访问性和生成AI的战略转变。 该分析结合了事件前简报中的见解,并融合了Adobe Leadership。 (注意:Adob

Llamacon宣布的所有元数据Llamacon宣布的所有元数据May 02, 2025 am 11:12 AM

Meta的Llamacon公告展示了一项综合的AI策略,旨在直接与OpenAI等封闭的AI系统竞争,同时为其开源模型创建了新的收入流。 这个多方面的方法目标bo

关于AI仅仅是普通技术的主张的酿造争议关于AI仅仅是普通技术的主张的酿造争议May 02, 2025 am 11:10 AM

人工智能领域对这一论断存在严重分歧。一些人坚称,是时候揭露“皇帝的新衣”了,而另一些人则强烈反对人工智能仅仅是普通技术的观点。 让我们来探讨一下。 对这一创新性人工智能突破的分析,是我持续撰写的福布斯专栏文章的一部分,该专栏涵盖人工智能领域的最新进展,包括识别和解释各种有影响力的人工智能复杂性(请点击此处查看链接)。 人工智能作为普通技术 首先,需要一些基本知识来为这场重要的讨论奠定基础。 目前有大量的研究致力于进一步发展人工智能。总目标是实现人工通用智能(AGI)甚至可能实现人工超级智能(AS

模型公民,为什么AI值是下一个业务码模型公民,为什么AI值是下一个业务码May 02, 2025 am 11:09 AM

公司AI模型的有效性现在是一个关键的性能指标。自AI BOOM以来,从编写生日邀请到编写软件代码的所有事物都将生成AI使用。 这导致了语言mod的扩散

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器