10月31日,阿里云正式发布千亿级参数大模型通义千问2.0。 在10个权威测评中,通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4。当天,通义千问APP在各大手机应用市场正式上线,所有人都可通过APP直接体验最新模型能力。
过去6个月,通义千问2.0在性能上取得巨大飞跃,相比4月发布的1.0版本,通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显着提升。目前,通义千问的综合性能已经超过GPT-3.5,加速追赶GPT-4。
图:通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4
在MMLU、C-Eval、GSM8K 、HumanEval、MATH等10个主流Benchmark测评集上,通义千问2.0的得分整体超越Meta的Llama-2-70B,相比OpenAI的Chat-3.5是九胜一负,相比GPT-4则是四胜六负,与GPT-4的差距进一步缩小。
中英文理解能力是大语言模型的基本功。 英语任务方面,通义千问2.0在MMLU基准的得分是82.5,仅次于GPT-4,通过大幅增加参数量,通义千问2.0能更好地理解和处理复杂的语言结构和概念;中文任务方面,通义千问2.0以明显优势在C-Eval基准获得最高得分,这是由于模型在训练中学习了更多中文语料,进一步强化了中文理解和表达能力。
在数学推理、代码理解等领域,通义千问2.0进步明显。在推理基准测试GSM8K中,通义千问排名第二,展示了强大的计算和逻辑推理能力;在HumanEval测试中,通义千问得分紧跟GPT-4和GPT-3.5,该测试主要衡量大模型理解和执行代码片段的能力,这一能力是大模型应用于编程辅助、自动代码修复等场景的基础。
图:通义千问2.0发布
通义千问更成熟了,也更好用了。通义千问2.0在指令遵循、工具使用、精细化创作等方面作了技术优化,能够更好地被下游应用场景集成。 通义大模型官网上线了多模态和插件功能,支持图片输入、文档解析等细分任务。
与此同时,基于通义大模型训练的8大行业模型组团上线,他们分别是通义灵码-智能编码助手、通义智文-AI阅读助手、 通义听悟-工作学习AI助手、通义星尘-个性化角色创作平台、通义点金-智能投研助手、 通义晓蜜-智能客服、通义仁心-个人专属健康助手、通义法睿-AI法律顾问。 8大行业模型面向当下最受欢迎的多个垂直场景,使用领域数据进行专门训练。用户可以在官网直接体验模型功能,开发者可以通过网页嵌入、API/SDK调用等方式,将模型能力集成到自己的大模型应用和服务中。
图:通义大模型家族全面升级,8大行业模型组团上线
截至10月,阿里云已与60多个行业头部伙伴进行深度合作,推动通义千问在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等领域的落地。
周靖人透露,阿里云计划近期开源通义千问72B版本,此前,阿里云已先后开源7B和14B版本模型,模型累计下载量超过100万。阿里云将持续支持千行百业的开发者基于通义千问开源模型进行模型和应用创新。
图:通义千问72B即将开源
以上是阿里云发布通用问答2.0,性能超越GPT-3.5,加速追赶GPT-4的详细内容。更多信息请关注PHP中文网其他相关文章!

网络攻击正在发展。 通用网络钓鱼电子邮件的日子已经一去不复返了。 网络犯罪的未来是超个性化的,利用了容易获得的在线数据和AI来制作高度针对性的攻击。 想象一个知道您的工作的骗子

新当选的教皇狮子座(Leo Xiv)在对红衣主教学院的就职演讲中,讨论了他的同名人物教皇里奥XIII的影响,他的教皇(1878-1903)与汽车和汽车和汽车公司的黎明相吻合

本教程演示了如何使用模型上下文协议(MCP)和FastAPI将大型语言模型(LLM)与外部工具集成在一起。 我们将使用FastAPI构建一个简单的Web应用程序,并将其转换为MCP服务器,使您的L

探索DIA-1.6B:由两个本科生开发的开创性的文本对语音模型,零资金! 这个16亿个参数模型产生了非常现实的语音,包括诸如笑声和打喷嚏之类的非语言提示。本文指南

我完全同意。 我的成功与导师的指导密不可分。 他们的见解,尤其是关于业务管理,构成了我的信念和实践的基石。 这种经验强调了我对导师的承诺

AI 增强型矿业设备 矿业作业环境恶劣且危险重重。人工智能系统通过将人类从最危险的环境中移除并增强人类能力,帮助提高整体效率和安全性。人工智能越来越多地用于为矿业作业中使用的自动驾驶卡车、钻机和装载机提供动力。 这些 AI 驱动的车辆能够在危险环境中精确作业,从而提高安全性和生产力。一些公司已经开发出用于大型矿业作业的自动驾驶采矿车辆。 在挑战性环境中运行的设备需要持续维护。然而,维护会使关键设备离线并消耗资源。更精确的维护意味着昂贵且必要的设备的正常运行时间增加以及显着的成本节约。 AI 驱动

Salesforce首席执行官Marc Benioff预测了由AI代理商驱动的巨大的工作场所革命,这是Salesforce及其客户群中已经进行的转型。 他设想从传统市场转变为一个较大的市场,重点是

人力资源中AI的崛起:与机器人同事一起导航劳动力 将人工智能集成到人力资源(HR)不再是未来派的概念。它正在迅速成为新现实。 这种转变影响了人力资源专业人员和员工,DEM


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

SublimeText3 英文版
推荐:为Win版本,支持代码提示!

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能