搜索
首页科技周边人工智能腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析

腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析

Oct 26, 2023 pm 09:13 PM
产业混元大模型文生图大模型

2023 年,大模型的落地按下加速键,文生图便是最火热的应用方向之一。

自从 Stable Diffusion 诞生以来,海内外的文生图大模型不断涌现,一时有「神仙打架」之感。每一次技术迭代,都带来了模型生成效果和速度的飞速提升。

就在今天,腾讯混元大模型也宣布了最新进展:文生图能力正式上线。

一上手试用,我们就看到了混元大模型对于博大精深的中餐文化的理解。这里选取了让很多大模型犯难的「蚂蚁上树」,但混元轻松生成:

腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析

问题来了,现在的文生图大模型这么卷,混元大模型还有没有其他特别的优势?

据官方介绍,如果从算法、模型方面来讲,当前文生图大模型还存在一些挑战,比如语义理解不够精准、生成图片结构不合理、画面细节不够和质感不高等问题。

腾讯很早就开始在广告场景进行 AI 自动生成图像的探索,相关的积累不可谓不深厚。此次混元大模型升级的文生图能力,恰恰希望解决「语义、内容、质感」这三点难题。

据介绍,相比其他大模型,腾讯混元的文生图在人像真实感、场景真实感上有比较明显的优势,同时,在中国风景、动漫游戏等场景等生成上有较好的表现。

上手实测:混元文生图,有什么不一样?

做好「文生图」这件事,对「文」的充分理解至关重要。

语义理解方面,混元文生图模型采用了中英文双语细粒度的模型,同时基于中英文双语建模实现双语理解,且通过优化算法提升了模型对细节的感知能力与生成效果。

在此之前,像 Stable Diffusion 这样的热门模型虽然支持一定程度的中文,但其核心数据集 LAION-5B 仍以西方化内容为主,对中国的语言、美食、文化、习俗都理解不够。

而混元文生图模型是一个中文原生的文生图模型,无论用户输入的中文诗句还是成语,都可以直接要求其创作画作。

内容合理性方面,混元文生图通过增强算法模型的图像二维空间位置感知能力,并将人体骨架和人手结构等先验信息引入到生成过程中,让生成的图像结构更合理,改善了 AI 生成人体结构和手部不合理的问题。

画面质感方面,混元文生图基于多模型融合的方法,提升生成质感。经过优化之后,混元文生图的人像模型(发丝、皱纹等)效果提升了 30%,场景模型(草木、波纹等)效果提升了 25%。

这三方面的技术优势,对于混元大模型文生图产品体验的提升是显而易见的。

为了验证上述能力,本站设置了一些题目,第一时间对混元大模型进行了摸底测试。

鉴于混元是中文原生模型,自然也比其他同类产品更懂「古代中国的语言」,我们首先让它根据古诗词进行绘画。

我们选取一句非常有意境的古诗「醉后不知天在水,满船清梦压星河」来测试,看混元大模型能否生成极具画面感的图。
腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析
在《泊船瓜洲》这首诗中,一句「春风又绿江南岸,明月何时照我还」,写出了无数游子的乡愁。混元的生成结果,提取出「春光」、「水岸」、「明月」等意象进行有机组合,让人看到之后仿佛置身诗句场景之中:
腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析
腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析
然后是有趣的「中国菜绘画」环节,来一道「鱼香肉丝」经典考题吧:
腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析
腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析
从让人 san 值狂掉的中餐绘画,到现在看图下饭的水准,我们也能感受到文生图技术的不断进化。

接下来看看在业界公认的「人像真实感」难题上,混元做得如何:

我们知道最初 Midjourney 爆火,就是因为下面这张情侣照片,让人无法分辨这竟然无 AI 生成的。
腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析
                               用 midjourney v5 生成的情侣图

现在,我们考察一下混元大模型生成「照骗」的能力。使用的 Prompt 是:
腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析
腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析
你觉得真实感如何?在我们看来,Prompt 中提到的细节拉满。

这也就是腾讯重点强调的:混元大模型通过优化算法提升了对细节的感知能力与生成效果。这种能力,在很多具体的场景中才得以体现。

例如在动画场景中,生成「一头小鹿在森林中奔跑、带动落叶飞起、月亮很亮很大、小鸟在空中飞翔,氛围感,CG 风格,侧面视角」。
腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析
腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析
是不是特别像是小时候看的动画中的画面?

此外,在动漫创作中,文生图应用潜力巨大。

我们给到混元大模型的 Prompt 是「生成 3D,动漫风格,1 个女孩,金色头发,微笑,短发,城市背景」:
腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析
你觉得生成效果如何?是不是可以直接拿来当壁纸了?

文生图背后,有哪些自研技术?

工欲善其事,必先利其器,对于大模型同样如此。

我们了解到,除了创新模型算法,腾讯混元大模型实现这样接中文地气的文生图效果,其背后还离不开高质量的图文匹配数据、自研的机器学习框架以及强大的算力基础设施。

腾讯混元大模型已经形成了从模型算法到机器学习框架再到 AI 基础设施的全链路自研技术路径。多层次的技术沉淀,意味着大模型的进化需要一步一个脚印,从实践出发,在实践中提升。

首先来看支撑模型训练的数据工程。

对于任何 AI 特别是大模型而言,数据都是不可或缺的三大要素之一。大模型文生图功能亦是如此,图文数据尤其是图文之间的匹配数据对生成效果的影响举足轻重。

但是网络上已有数据并不是都能拿来即用的,其中很大的问题是文字对图片的描述不一定准确,这就导致大多数图文匹配数据质量比较差。如果拿来用,即使训练时间很长,模型生成效果依然达不到预期,也会影响生成质量的稳定性和后续的迭代效率。

因此,提升图文数据质量成为保证文生图效果的「第一道关」。这时候往往需要通过工程化的方式提升数据质量,支撑模型训练、优化和升级,构筑算法模型的护城河。

面对图文匹配数据问题,腾讯混元文生图团队的应对策略是这样的:首先细粒度地完善中文 prompt,提升图文相关性,最大化数据质量;然后采取训练数据分层、分级的策略,逐步优化模型,最大化数据效果;最后建设数据飞轮,它是大模型快速迭代的关键。团队基于线上用户使用大模型的反馈,自动化构建训练数据,加快模型迭代,最大化数据效率。

数据质量、效果和效率提上去了,这就为良好的文生图效果打下了基础。而接下来要讲的机器学习框架同样重要。

强大的机器学习框架或平台会极大地提升开发者构建、训练和部署模型的速度和效率。腾讯针对大模型训练和推理场景,自研了 Angel 机器学习平台,主要包括负责训练的 AngelPTM 和负责推理的 AngelHCF 两大部分。

其中 AngelPTM 采用 ZeRO-Cache 优化策略,成为超大模型训练利器,它通过存储管理扩大单机模型容量,通过多流异步提高资源利用率,通过显存管理提高显存效率。此外利用 4D 并行提高可用显存上限,减少千卡通信压力,释放计算潜能。自动续训机制支持千卡故障自动容错,减少中断时间。模型训练情况也在实时监控之下,协同算法优化模型训练方向。

目前,AngelPTM 基于业界首创的 ZeRO-Cache 机制 + 4D 并行实现了千亿混元基座模型的高速训练,训练速度相比主流开源框架(DeepSpeed-Chat)提升 1 倍。
腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析
                                    ZeRO-Cache 概图。

AngelHCF 主要从定制多样化服务策略、并行策略、框架加速(覆盖常用 GPU 加速方法)、模型压缩(支持业界常用压缩方法)和高效模型 Debug 能力五个层面提升大模型的推理性能。推理速度相比业界主流框架(FasterTransformer)提升 1.3 倍。

腾讯表示,其 Angel 机器学习平台具备了领先性能,能够帮助提供更好的基建体系,助力大模型们高速运行。这使得混元大模型生成高质图片的同时,生成速度也大大改进。

拥有了高质量的数据、高效的机器学习框架,大模型的持续运行还面临着算力层面的考验。毕竟,大模型时代,算力为王。

腾讯混元文生图功能离不开腾讯云提供的强大算力基础设施。2023 年 4 月,腾讯云发布新一代 HCC 高性能计算集群,采用最新一代星星海自研服务器,并基于自研网络和存储架构,实现了 3.2T 超高互联带宽、TB 级吞吐能力和千万级 IOPS。新一代集群算力性能较前代提升了 3 倍,较传统算力集群方案提升 12 倍以上。
腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析
夯实底层硬件的同时,上层软件能力也要齐头并进。新一代 HCC 集群集成了腾讯云自研的 TACO 训练加速引擎,从网络协议、通信策略、AI 框架、模型编译层面做了大量系统级优化。这套全生态的训练加速方案不仅可以帮助客户降低 AI 优化门槛,提升 AI 训练性能,还使训练调优和算力成本大大降低。

看起来,制约大模型的三大要素算法、数据和算力,在腾讯混元大模型这里都不成问题了。自然而然,文生图质量和效果也得到了保障。

效果「以假乱真」,
文生图能力已嵌入腾讯广告场景

今天我们看到的混元大模型文生图能力,并非一蹴而就,而是一个实实在在的演进过程。

在上个月举行的 2023 腾讯全球数字生态大会上,腾讯混元大模型正式亮相。腾讯集团副总裁蒋杰当时表示,混元永远在路上。腾讯会一直演进混元的能力,并希望每个月都会给大家带来惊喜。

目前,腾讯已有 180 个内部业务接入混元大模型,包括包括腾讯会议、腾讯文档、企业微信、腾讯广告和微信搜一搜等。同时来自零售、教育、金融、医疗、传媒、交通、政务等多个行业的客户也通过腾讯云调用腾讯混元 API,应用领域涉及智能问答、内容创作、数据分析、代码助手等多个场景。

此次开放的文生图能力便是腾讯混元大模型带给我们的最大惊喜,展示其在图像自动生成领域的领先能力。当然,腾讯混元文生图也在逐渐进化中,后续会开发更多文生图相关以及图生图功能。我们可以狠狠期待一波了。

目前,混元文生图能力已经嵌入到了腾讯广告场景中,比如生成商品广告或广告配图。在广告业务下的多轮测评中,腾讯混元文生图的案例优秀率和广告主采纳率分别达到 86% 和 26%,均高于同类模型。

我们先来看下面这个示例,要求混元大模型生成一个酒店房间。从效果来看,升级后混元文生图效果明显更好,设计感、品质感提升很大,细节更加丰富。即使与 Midjourney 比较一番,效果也不相上下。
腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析
人物类生成场景也有类似的效果。升级后混元生成的人像真实感更强,比如面部肤色、皱纹等细节。
腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析
广告场景之外,腾讯内部还在不断探索其他文生图的需求场景,比如游戏场景中生成游戏元素和游戏角色、内容场景中生成小说配图、插图,云业务场景中将混元能力开放给不同行业的客户。

大浪淘沙,再强悍的模型,也要让更多人用上并持续获得反馈,才有可能百尺竿头更进一步。

可以预见,未来腾讯产品中将迎来混元文生图能力的大爆发,用户也将体验更多 AIGC 带来的魅力。

以上是腾讯混元大模型再度升级,文生图能力震撼发布,全面实测解析的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
无法使用chatgpt!解释可以立即测试的原因和解决方案[最新2025]无法使用chatgpt!解释可以立即测试的原因和解决方案[最新2025]May 14, 2025 am 05:04 AM

ChatGPT无法访问?本文提供多种实用解决方案!许多用户在日常使用ChatGPT时,可能会遇到无法访问或响应缓慢等问题。本文将根据不同情况,逐步指导您解决这些问题。 ChatGPT无法访问的原因及初步排查 首先,我们需要确定问题是出在OpenAI服务器端,还是用户自身网络或设备问题。 请按照以下步骤进行排查: 步骤1:检查OpenAI官方状态 访问OpenAI Status页面 (status.openai.com),查看ChatGPT服务是否正常运行。如果显示红色或黄色警报,则表示Open

计算ASI的风险始于人类的思想计算ASI的风险始于人类的思想May 14, 2025 am 05:02 AM

2025年5月10日,麻省理工学院物理学家Max Tegmark告诉《卫报》,AI实验室应在释放人工超级智能之前模仿Oppenheimer的三位一体测试演算。 “我的评估是'康普顿常数',这是一场比赛的可能性

易于理解的解释如何编写和撰写歌词和推荐工具易于理解的解释如何编写和撰写歌词和推荐工具May 14, 2025 am 05:01 AM

AI音乐创作技术日新月异,本文将以ChatGPT等AI模型为例,详细讲解如何利用AI辅助音乐创作,并辅以实际案例进行说明。我们将分别介绍如何通过SunoAI、Hugging Face上的AI jukebox以及Python的Music21库进行音乐创作。 通过这些技术,每个人都能轻松创作原创音乐。但需注意,AI生成内容的版权问题不容忽视,使用时务必谨慎。 让我们一起探索AI在音乐领域的无限可能! OpenAI最新AI代理“OpenAI Deep Research”介绍: [ChatGPT]Ope

什么是chatgpt-4?对您可以做什么,定价以及与GPT-3.5的差异的详尽解释!什么是chatgpt-4?对您可以做什么,定价以及与GPT-3.5的差异的详尽解释!May 14, 2025 am 05:00 AM

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显着提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

解释如何使用chatgpt应用程序!日本支持和语音对话功能解释如何使用chatgpt应用程序!日本支持和语音对话功能May 14, 2025 am 04:59 AM

CHATGPT应用程序:与AI助手释放您的创造力!初学者指南 ChatGpt应用程序是一位创新的AI助手,可处理各种任务,包括写作,翻译和答案。它是一种具有无限可能性的工具,可用于创意活动和信息收集。 在本文中,我们将以一种易于理解的方式解释初学者,从如何安装chatgpt智能手机应用程序到语音输入功能和插件等应用程序所独有的功能,以及在使用该应用时要牢记的要点。我们还将仔细研究插件限制和设备对设备配置同步

如何使用中文版Chatgpt?注册程序和费用的说明如何使用中文版Chatgpt?注册程序和费用的说明May 14, 2025 am 04:56 AM

ChatGPT中文版:解锁中文AI对话新体验 ChatGPT风靡全球,您知道它也提供中文版本吗?这款强大的AI工具不仅支持日常对话,还能处理专业内容,并兼容简体中文和繁体中文。无论是中国地区的使用者,还是正在学习中文的朋友,都能从中受益。 本文将详细介绍ChatGPT中文版的使用方法,包括账户设置、中文提示词输入、过滤器的使用、以及不同套餐的选择,并分析潜在风险及应对策略。此外,我们还将对比ChatGPT中文版和其他中文AI工具,帮助您更好地了解其优势和应用场景。 OpenAI最新发布的AI智能

5 AI代理神话,您需要停止相信5 AI代理神话,您需要停止相信May 14, 2025 am 04:54 AM

这些可以将其视为生成AI领域的下一个飞跃,这为我们提供了Chatgpt和其他大型语言模型聊天机器人。他们可以代表我们采取行动,而不是简单地回答问题或产生信息

易于理解使用Chatgpt创建和管理多个帐户的非法性的解释易于理解使用Chatgpt创建和管理多个帐户的非法性的解释May 14, 2025 am 04:50 AM

使用chatgpt有效的多个帐户管理技术|关于如何使用商业和私人生活的详尽解释! Chatgpt在各种情况下都使用,但是有些人可能担心管理多个帐户。本文将详细解释如何为ChatGpt创建多个帐户,使用时该怎么做以及如何安全有效地操作它。我们还介绍了重要的一点,例如业务和私人使用差异,并遵守OpenAI的使用条款,并提供指南,以帮助您安全地利用多个帐户。 Openai

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。