搜索
首页科技周边人工智能通义听悟诞生背后,AI大模型打响应用第一枪

通义听悟诞生背后,AI大模型打响应用第一枪 图来自Canva可画配

2023年伊始,ChatGPT的爆火出圈,迅速引发了业界对于生成式AI应用的关注,AI大模型的竞争更是愈演愈烈。

作为参与其中的重要玩家,阿里云先是在4月11日举行的阿里云峰会上,推出了通义千问大模型。紧接着6月1日,阿里云宣布通义大模型进展,聚焦音视频内容的AI新品“通义听悟”正式上线,成为国内首个开放公测的大模型应用产品,这意味着阿里云大语言模型,又向前端应用迈进了一大步。同时其基于AI大模型应用的发布,也相当于给当前纷争正劲的“大模型混战”,掷下了一枚重磅炸弹。

千模大战一触即发

近几个月,随着微软、谷歌、亚马逊等硅谷大厂,纷纷公布大模型及AIGC进展,通过AI搜索引擎、AI办公软件等一系列应用打响AI竞赛,国内互联网云大厂也陆续全军出击了。不只是大厂就连很多初创企业,VC/PE机构、各行各业巨头,都涌入了AI大模型赛道,试图从中分一杯羹。据不完全统计,目前公布推出AI大模型计划的大企业,不下于50多家,其他参与者更是不计其数。

从格局上来看,以“BATH”等为代表的互联网科技公司,凭借场景、算力、全栈技术能力等综合实力,稳居行业第一梯队;而处于二线的重要行业企业,如商汤科技、中国电信、京东、360等,则借助其在相关领域的影响力,位列行业第二梯队;紧随各行业巨头之后的是,包括美团联合创始人王慧文、前搜狗CEO王小川等在内的各路知名创业者,他们有认知、有机构加持和相关背景,但由于还处于初始阶段,因此在AI大模型混战中暂居第三梯队。

从分类上来看,围绕通用大模型以及专用大模型,各个企业都有自己的定位和分工。根据业内人士介绍,目前国内大模型主要可以分为两类:一类是对标GPT的通用大模型,聚焦基础层的公司,如阿里、百度等公司;另一类是在开源大模型基础之上训练垂类大模型,聚焦垂直行业的企业,如应用于金融、医疗、交通等领域的垂类大模型。由于前者的技术要求高、成本大,因此当前很多行业已经开始基于自身的情况,纷纷采取与通用大模型企业合作的方式,来训练适合自己行业的垂类大模型了。

从产业链上来看,算力厂商、云服务厂商、前端应用厂商都有参与,体系完整、联系紧密且范围宽广。目前包括算力厂商英伟达、云服务厂商阿里云,前端应用厂商如金山办公、用友网络、云从科技等,都在积极参与AI大模型的技术研发和场景落地。总之,当前围绕AI大模型的混战正在陡然升温。

通义听悟打响大模型应用第一枪

而从AI大模型涉及的层面来看,主要可以分为应用层、模型层、框架层和芯片层等四个层次,而目前市面上大部分公司都还在模型层,深一点的涉及到框架层和芯片层的研究,前端应用目前业内还没有。作为业内首个公测的大模型应用产品,通义听悟的示范作用极为明显。

一方面,相比底层技术,靠近应用前端的技术价值将更具想象空间。纵观所有的技术演变历史不难发现,技术的价值核心在于应用普及程度,以及对用户问题解决的程度。正因为如此,承担这一职责和使命的前端应用,往往具备更大的想象空间。

以6月1日阿里云推出的通义听悟为例,它通过接入阿里的通义大模型,其作用已经不仅仅是简单的具备音视频转写的工具了,而是已经成为帮助人们在音视频场景之下的高效AI助手了。它为人们提供自动做笔记、整理访谈、提取PPT等多种办公服务,而且能够实现音视频转化成图文内容、分章节摘要和总结全文观点等能力,具备了“类人”的高效检索分类能力。

此外,在细分场景中,它还具备不少“宝藏”功能,比如可以打开Chrome插件,外语学习者和听障人士,可以借助双语悬浮字幕条随时随地看无字幕视频,日程冲突时,听悟还可成为职场人士的“开会替身”,在静音情况下入会AI可代为记录会议、整理要点;转写结果可下载为字幕文件,方便新媒体从业者视频后期制作;听悟梳理的问答回顾可以让记者、分析师、律师、HR等群体整理访谈更高效。总之,在解决具体场景问题的能力上,它已经超出了现有音视频应用的能力范畴,也刷新了以往用户体验的上限,必将在业内掀起不小的风浪。

另一方面,从阿里云自身来说,通义千问大模型刚刚对外推出不久,就能够迅速推出基于AI大模型的技术应用,说明阿里云AI大模型的确已经比较成熟,具备了衍生AI应用的能力。

从模型层到应用层,从AI大模型到大模型应用的诞生,看似简单实则实现起来并不容易。通常来说,垂类应用是依托于通用大模型这个技术底座来实现的,撇开通用大模型的话,这些通常无法实现,而这要求其所依托的通用大模型本身是足够成熟的,否则其很难推出相对好用且超出现有产品能力的应用。拿通义听悟来说,其所呈现的技术实力,在业内并不是所有玩家都有的。

全体系AI基础设施成决胜关键

从AI大模型本身所需要的动轧千亿的参数训练要求来说,其推进的难度和复杂性可能远超外界想象。长远来看,具备全栈AI大模型技术能力和基础设施能力的企业,才能够走得更远。

一来,由于生成式AI的发展速度远超外界预期,任何单一环节的进步对整体的大模型训练促进作用有限。据OpenAI测算,自2012年以来,全球头部的AI模型训练算力需求,3-4个月翻一番,每年增长幅度高达10倍。但根据摩尔定律,芯片计算性能每隔18-24个月才能翻一番,也就说是芯片性能远远跟不上AI大模型的发展要求。具体到相关领域来说,基于CPU的计算体系,难以满足大模型训练之下,高带宽、低时延的网络传输要求,这些问题的解决,依靠单一的“堆砌算力”很难短期内见效,并且可能并不经济,必须借助来自算法、算力、框架等多层次的整体系统支持,才能更好地应对这种变化。

二来,由于发展通用大模型所需要的算力需求大、推理训练成本高、数据量要求高,导致其本身的门槛非常高,不具备全栈大模型研发、场景落地能力、生态开放能力的公司,很难保持较快的更迭速度,很容易被淘汰出局。据业内人士分析,要做成一个成功的可对外商业化输出的通用大模型,需要厂商拥有全栈大模型训练与研发能力,业务场景落地经验、AI安全治理举措,以及生态开放性等核心优势,而一般的企业很难完全具备这些能力。

而阿里云作为亚洲第一、全球第三的云计算服务商,其拥有国内最强的算力支撑体系。比如,阿里云飞天云操作系统,可实现单集群10万台规模、千亿文件数运算能力,其飞天智算平台可实现千卡并行效率达到90%,自研网络架构可对万卡规模的AI集群,提供无拥堵、高性能的集群通讯能力,阿里云自有的深度学习平台PAI,可以将计算资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍。另外,阿里云还牵头建立了国内最大规模的AI模型服务社区“魔搭”,降低大模型开发成本、助力AI普惠;算法方面,阿里在语言以及多模态能力、超大模型、通用统一模型等多个技术维度,处于国内第一梯队,这都是阿里通义大模型能够迅速“出圈”的核心原因。

三来,从商业可能性来看,拥有全体系AI基础设施能力的公司,在MaaS(模型即服务)到来之后拥有更大的商业价值,在市场竞争方面会有更大的“回旋余地”。以阿里云为例,其后期既可以通过提供通用大模型服务,获取平台服务费;也可以出租算力和推训平台,赚取租金,变现路径相对更多,在市场竞争中可以根据情况灵活调整产品定价,以应对经营挑战。

产业迎来AI惠普时代

随着AI大模型应用的诞生,以深度AI普惠为特征的全新时代,也在逐渐拉开帷幕,AI深度嵌入产业实体,将成为不可逆转的行业趋势。

一方面,通用大模型的高门槛和广泛的垂类领域差异化需求,决定了基于通用大模型的专属大模型和产业应用,会成为未来主流的应用方向,推动AI加速进入千行百业。正如前文所述,通用大模型的高门槛,决定了国内外能够做成通用大模型的公司只是少数,而且随着AI模型变大,AI产业正从“手工作坊”组成的轻工业走向集约化生产,需要高性能、低成本的体系化基础设施,才能完成工业化生产。

这种能力不仅很多中小企业没有,即便是对于各行业头部企业,从0到1优化大模型训练,本身也并不经济,各行各业都需要成本足够低的AI基础设施。而且对于现有的厂商而言,继续加入这个领域“重复造轮子”并无多大必要。相比之下,垂类大模型本身的训练成本相对较低,而且一些专业领域拥有丰富数据场景的公司,做垂直大模型条件更好、数据质量更优,推出的产品更能够适应垂类行业需求,因此未来各类垂类行业GPT,或将成为主流大模型应用,推进AI迅速渗入产业。

另一方面,发展AI大模型的短期瓶颈是算力,长期来看是数据,因此高质量的前端应用有助于加速企业积累充分的数据资产,增强自身长期竞争力,加速产业应用普惠进程。当前来看,大模型的迅速迭代和进化,迫使所有的参与玩家不断累积算力资源,从芯片、云服务等各方面来优化配置,保证大模型训练所需要的算力支持。不过,从更长远来看,训练AI大模型的算法还在不断优化调整之中,未来随着算法的突破,算力可能不再是瓶颈,而高质量的数据资源将成为一种稀缺的资源,会受到更多关注。

作为业内首个基于AI大模型的应用,通义听悟的面世,有利于阿里加速积累优质数据资源,加速产业普惠进程,为更长期的发展奠定良好基础。

以上是通义听悟诞生背后,AI大模型打响应用第一枪的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:搜狐。如有侵权,请联系admin@php.cn删除
从摩擦到流:AI如何重塑法律工作从摩擦到流:AI如何重塑法律工作May 09, 2025 am 11:29 AM

法律技术革命正在获得动力,促使法律专业人员积极采用AI解决方案。 对于那些旨在保持竞争力的人来说,被动抵抗不再是可行的选择。 为什么技术采用至关重要? 法律专业人员

这就是AI对您的看法,对您的了解这就是AI对您的看法,对您的了解May 09, 2025 am 11:24 AM

许多人认为与AI的互动是匿名的,与人类交流形成了鲜明的对比。 但是,AI在每次聊天期间都会积极介绍用户。 每个单词的每个提示都经过分析和分类。让我们探索AI Revo的这一关键方面

建立蓬勃发展的AI-Ready企业文化的7个步骤建立蓬勃发展的AI-Ready企业文化的7个步骤May 09, 2025 am 11:23 AM

成功的人工智能战略,离不开强大的企业文化支撑。正如彼得·德鲁克所言,企业运作依赖于人,人工智能的成功也同样如此。 对于积极拥抱人工智能的组织而言,构建适应AI的企业文化至关重要,它甚至决定着AI战略的成败。 西蒙诺咨询公司(West Monroe)近期发布了构建蓬勃发展的AI友好型企业文化的实用指南,以下是一些关键要点: 1. 明确AI的成功模式: 首先,要对AI如何赋能业务有清晰的愿景。理想的AI运作文化,能够实现人与AI系统之间工作流程的自然融合。AI擅长某些任务,而人类则擅长创造力、判

Netflix New Scroll,Meta AI的游戏规则改变者,Neuralink价值85亿美元Netflix New Scroll,Meta AI的游戏规则改变者,Neuralink价值85亿美元May 09, 2025 am 11:22 AM

Meta升级AI助手应用,可穿戴式AI时代来临!这款旨在与ChatGPT竞争的应用,提供文本、语音交互、图像生成和网络搜索等标准AI功能,但现在首次增加了地理位置功能。这意味着Meta AI在回答你的问题时,知道你的位置和正在查看的内容。它利用你的兴趣、位置、个人资料和活动信息,提供最新的情境信息,这在以前是无法实现的。该应用还支持实时翻译,这彻底改变了Ray-Ban眼镜上的AI体验,使其实用性大大提升。 对外国电影征收关税是对媒体和文化的赤裸裸的权力行使。如果实施,这将加速向AI和虚拟制作的

今天采取这些步骤以保护自己免受AI网络犯罪的侵害今天采取这些步骤以保护自己免受AI网络犯罪的侵害May 09, 2025 am 11:19 AM

人工智能正在彻底改变网络犯罪领域,这迫使我们必须学习新的防御技巧。网络罪犯日益利用深度伪造和智能网络攻击等强大的人工智能技术进行欺诈和破坏,其规模前所未有。据报道,87%的全球企业在过去一年中都成为人工智能网络犯罪的目标。 那么,我们该如何避免成为这波智能犯罪的受害者呢?让我们探讨如何在个人和组织层面识别风险并采取防护措施。 网络罪犯如何利用人工智能 随着技术的进步,犯罪分子不断寻找新的方法来攻击个人、企业和政府。人工智能的广泛应用可能是最新的一个方面,但其潜在危害是前所未有的。 特别是,人工智

共生舞蹈:人工和自然感知的循环共生舞蹈:人工和自然感知的循环May 09, 2025 am 11:13 AM

最好将人工智能(AI)与人类智力(NI)之间的复杂关系理解为反馈循环。 人类创建AI,对人类活动产生的数据进行培训,以增强或复制人类能力。 这个AI

AI最大的秘密 - 创作者不了解,专家分裂AI最大的秘密 - 创作者不了解,专家分裂May 09, 2025 am 11:09 AM

Anthropic最近的声明强调了关于尖端AI模型缺乏了解,引发了专家之间的激烈辩论。 这是一个真正的技术危机,还是仅仅是通往更秘密的道路上的临时障碍

Sarvam AI的Bulbul-V2:印度最佳TTS模型Sarvam AI的Bulbul-V2:印度最佳TTS模型May 09, 2025 am 10:52 AM

印度是一个多元化的国家,具有丰富的语言,使整个地区的无缝沟通成为持续的挑战。但是,Sarvam的Bulbul-V2正在帮助弥合其高级文本到语音(TTS)T

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器