搜索
首页科技周边人工智能商汤商量获SuperCLUE9月评测总榜子榜双第一,AI智能体方向受瞩目

最近,SuperCLUE发布了9月份的总排行榜和各个分类任务榜单,商汤的SenseChat 3.0在中文大模型总榜中排名第一。在新增的AI Agent(AI智能体)子榜中,SenseChat 3.0同样位居第一,超过了所有国内中文大模型以及GPT-3.5和Claude 2,仅次于GPT-4的表现。这展示了商汤在大模型领域创新发展和释放生产力的优势,以及在探索AGI道路上的积累和潜力

商汤商量获SuperCLUE9月评测总榜子榜双第一,AI智能体方向受瞩目

注:国外代表性模型(GPT4.0/Claude2/gpt-3.5)不参与排名。

SuperCLUE是中文通用大模型的综合性评测基准,旨在对大模型在各个能力维度上的表现进行全方位的评估,是国内最具专业性和代表性的中文大模型评测基准之一。此次评测选取了目前国内外最具代表性的20个通用大语言模型

商量总榜第一,客观题成绩超GPT-3.5

最新发布的SuperCLUE总排行榜和各个分类任务榜单,主要关注大模型的四个能力象限,分别是语言理解与生成,包括语言理解与抽取、上下文对、生成与创作、角色扮演;专业技能与知识,包括知识与百科、计算、代码、逻辑与推理;Agent智能体,包括工具使用、任务规划;安全性,包括系统安全、指令攻击,共计12项基础能力

商汤科技的SenseChat 3.0在总排行榜中以62.75分的总分位居第一,其中在OPT客观题部分,SenseChat 3.0的得分甚至超过了GPT-3.5,展示了在中文大模型方面极强的综合竞争力

商汤商量SenseChat于2023年4月正式推出,是国内最早的基于千亿参数大语言模型之一,并不断迭代更新。其背后依托的是商汤AI大装置SenseCore,目前上线GPU数量约30,000块,算力规模提升至6 ExaFLOPS,有效支持语言大模型的训练、升级迭代和服务。

加快推动人工智能智能体的发展,加速迈向强人工智能

随着大模型发展,“聊天”已远远不能满足人们的要求,能够准确使用工具成为解放大模型生产力的关键。SuperCLUE新增的AI Agent(AI智能体)子榜,是业界首个AI Agent榜单,它重点评估了AI Agent在“工具使用”和“任务规划”两个关键能力上的表现。评测显示商汤商量SenseChat 3.0具备作为人类超级助手的潜力,可以根据人类需求自主完成任务,进而充分释放大模型的生产力,使其在 AI Agent 榜单上表现仅次于GPT-4,全面领先其余参评大模型。

商汤商量获SuperCLUE9月评测总榜子榜双第一,AI智能体方向受瞩目

目前全球领先的AI 智能体,几乎都以领先大模型GPT-4为核心驱动,它们借助强大的工具使用能力等,可将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。商量SenseChat 3.0作为领先的中文大模型,通过使用代码解释器、API调用和搜索三类常用工具来解决复杂任务,灵活搭建AI智能体应用,支撑企业的生产力革新。

目前,商汤科技已经与金融、手机、医疗、汽车、地产、能源、传媒、工业制造等多个垂直行业的500多家客户建立了紧密合作关系。商汤SenseChat作为一种功能强大的大型模型,不断快速提升,为商汤科技发展更强大、能够像人类一样进行交互的人工智能智能体,以及朝着通往人工通用智能的道路进行探索,提供了重要的基础和支持

以上是商汤商量获SuperCLUE9月评测总榜子榜双第一,AI智能体方向受瞩目的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:搜狐。如有侵权,请联系admin@php.cn删除
如何使用Huggingface Smollm建立个人AI助手如何使用Huggingface Smollm建立个人AI助手Apr 18, 2025 am 11:52 AM

利用“设备” AI的力量:建立个人聊天机器人CLI 在最近的过去,个人AI助手的概念似乎是科幻小说。 想象一下科技爱好者亚历克斯(Alex)梦见一个聪明的本地AI同伴 - 不依赖

通过斯坦福大学激动人心的新计划,精神健康的AI专心分析通过斯坦福大学激动人心的新计划,精神健康的AI专心分析Apr 18, 2025 am 11:49 AM

他们的首届AI4MH发射于2025年4月15日举行,著名的精神科医生兼神经科学家汤姆·因斯尔(Tom Insel)博士曾担任开幕式演讲者。 Insel博士因其在心理健康研究和技术方面的杰出工作而闻名

2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争Apr 18, 2025 am 11:44 AM

恩格伯特说:“我们要确保WNBA仍然是每个人,球员,粉丝和公司合作伙伴,感到安全,重视和授权的空间。” anno

Python内置数据结构的综合指南 - 分析VidhyaPython内置数据结构的综合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介绍 Python擅长使用编程语言,尤其是在数据科学和生成AI中。 在处理大型数据集时,有效的数据操作(存储,管理和访问)至关重要。 我们以前涵盖了数字和ST

与替代方案相比,Openai新型号的第一印象与替代方案相比,Openai新型号的第一印象Apr 18, 2025 am 11:41 AM

潜水之前,一个重要的警告:AI性能是非确定性的,并且特定于高度用法。简而言之,您的里程可能会有所不同。不要将此文章(或任何其他)文章作为最后一句话 - 目的是在您自己的情况下测试这些模型

AI投资组合|如何为AI职业建立投资组合?AI投资组合|如何为AI职业建立投资组合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投资组合:初学者和专业人士指南 创建引人注目的投资组合对于确保在人工智能(AI)和机器学习(ML)中的角色至关重要。 本指南为建立投资组合提供了建议

代理AI对安全操作可能意味着什么代理AI对安全操作可能意味着什么Apr 18, 2025 am 11:36 AM

结果?倦怠,效率低下以及检测和作用之间的差距扩大。这一切都不应该令任何从事网络安全工作的人感到震惊。 不过,代理AI的承诺已成为一个潜在的转折点。这个新课

Google与Openai:AI为学生打架Google与Openai:AI为学生打架Apr 18, 2025 am 11:31 AM

直接影响与长期伙伴关系? 两周前,Openai提出了强大的短期优惠,在2025年5月底之前授予美国和加拿大大学生免费访问Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热工具

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能