近日,北大、斯坦福、以及爆火的Pika Labs联合发表了一项研究,将大模型文生图的能力提升到了新的高度。
论文地址:https://arxiv.org/pdf/2401.11708.pdf
代码地址:https://github.com/YangLing0818/RPG-DiffusionMaster
论文作者提出了一个创新的方法,利用多模态大语言模型(MLLM)的推理能力,来改进文本到图像生成/编辑的框架。
换言之,该方法旨在提升文生成模型在处理包含多个属性、关系和对象的复杂文本提示时的性能表现。
话不多说,直接上图:
A green twintail girl in orange dress is sitting on the sofa while a messy desk under a big window on the left, a lively aquarium is on the top right of the sofa, realistic style.
一个穿着橙色连衣裙的双马尾女孩坐在沙发上,大窗户旁是凌乱的办公桌,右上方摆放着一个活泼的水族馆,房间风格现实主义。
面对关系复杂的多个对象,模型给出的整个画面的结构、人与物品的关系都非常合理,使观者眼前一亮。
而对于同样的提示,我们来看一下当前最先进的SDXL和DALL·E 3的表现:
再看一下新框架面对多个对象绑定多个属性时的表现:
From left to right, a blonde ponytail Europe girl in white shirt, a brown curly hair African girl in blue shirt printed with a bird, an Asian young man with black short hair in suit are walking in the campus happily.
从左到右,一个穿着白色衬衫、扎着金发马尾辫的欧洲女孩,一个穿着印着小鸟的蓝色衬衫、棕色卷发的非洲女孩,一个穿着西装、黑色短发的亚洲年轻人正开心地在校园里散步。
研究人员将这个框架命名为RPG(Recaption,Plan and Generate),采用MLLM作为全局规划器,将复杂图像的生成过程分解为子区域内多个更简单的生成任务。
文中提出了互补的区域扩散,实现区域组合生成,还将文本引导的图像生成和编辑以闭环方式集成到了RPG框架中,从而增强了泛化能力。
实验表明,本文提出的RPG框架优于目前最先进的文本图像扩散模型,包括DALL·E 3和SDXL,尤其是在多类别对象合成以及文本图像语义对齐方面。
值得注意的是,RPG框架可以广泛兼容各种MLLM架构(如MiniGPT-4)和扩散骨干网络(如ControlNet)。
RPG
当前的文生图模型主要存在两个问题:1. 基于布局或基于注意力的方法只能提供粗略的空间引导,并且难以处理重叠的对象;2. 基于反馈的方法需要收集高质量的反馈数据,并产生额外的训练成本。
为了解决这些问题,研究人员提出了RPG的三个核心策略,如下图所示:
给定一个包含多个实体和关系的复杂文本提示,首先利用MLLM将其分解为基本提示和高度描述性的子提示;随后,利用多模态模型的CoT规划将图像空间划分为互补的子区域;最后,引入互补区域扩散来独立生成每个子区域的图像,并在每个采样步骤中进行聚合。
多模态重新调整
将文本提示转换为高度描述性的提示,提供信息增强的提示理解和扩散模型中的语义对齐。
使用MLLM来识别用户提示y中的关键短语,获得其中的子项:
使用LLM将文本提示符分解为不同的子提示符,并进行更详细的重新描述:
通过这种方式,可以为每个子提示生成更密集的细粒度细节,以有效地提高生成图像的保真度,并减少提示和图像之间的语义差异。
思想链规划
将图像空间划分为互补的子区域,并为每个子区域分配不同的子提示,同时将生成任务分解为多个更简单的子任务。
具体来说,将图像空间H×W划分为若干互补区域,并将每个增强子提示符分配给特定区域R:
利用MLLM强大的思维链推理能力,进行有效的区域划分。通过分析重新获得的中间结果,就能为后续的图像合成生成详细的原理和精确的说明。
补充区域扩散
在每个矩形子区域内,独立生成由子提示引导的内容,随后调整大小和连接的方式,在空间上合并这些子区域。
这种方法有效地解决了大模型难以处理重叠对象的问题。此外,论文扩展了这个框架,以适应编辑任务,采用基于轮廓的区域扩散,从而对需要修改的不一致区域精确操作。
文本引导的图像编辑
如上图所示。在复述阶段,RPG采用MLLM作为字幕来复述源图像,并利用其强大的推理能力来识别图像和目标提示之间的细粒度语义差异,直接分析输入图像如何与目标提示对齐。
使用MLLM(GPT-4、Gemini Pro等)来检查输入与目标之间关于数值准确性、属性绑定和对象关系的差异。由此产生的多模态理解反馈将被交付给MLLM,用于推理编辑计划。
我们来看一下生成效果在以上三个方面的表现,首先是属性绑定,对比SDXL、DALL·E 3和LMD+:
我们可以看到在全部三项测试中,只有RPG最准确地反映了提示所描述的内容。
然后是数值准确性,展示顺序同上(SDXL、DALL·E 3、LMD+、RPG):
——没想到数数这件事情对于文生图大模型还挺难的,RPG轻松战胜对手。
最后一项是还原提示中的复杂关系:
此外,还可以将区域扩散扩展为分层格式,将特定子区域划分为更小的子区域。
如下图所示,当增加区域分割的层次结构时,RPG可以在文本到图像的生成方面实现显著的改进。这为处理复杂的生成任务提供了一个新的视角,使我们有可能生成任意组成的图像。
以上是文生图新SOTA!Pika北大斯坦福联合推出RPG,多模态助力解决文生图两大难题的详细内容。更多信息请关注PHP中文网其他相关文章!

自2008年以来,我一直倡导这辆共享乘车面包车,即后来被称为“ Robotjitney”,后来是“ Vansit”,这是城市运输的未来。 我预见这些车辆是21世纪的下一代过境解决方案Surpas

革新结帐体验 Sam's Club的创新性“ Just Go”系统建立在其现有的AI驱动“扫描和GO”技术的基础上,使会员可以在购物旅行期间通过Sam's Club应用程序进行扫描。

NVIDIA在GTC 2025上的增强可预测性和新产品阵容 NVIDIA是AI基础架构的关键参与者,正在专注于提高其客户的可预测性。 这涉及一致的产品交付,达到绩效期望以及

Google的Gemma 2:强大,高效的语言模型 Google的Gemma语言模型家族以效率和性能而庆祝,随着Gemma 2的到来而扩展。此最新版本包括两种模型:270亿个参数VER

这一领先的数据剧集以数据科学家,天体物理学家和TEDX演讲者Kirk Borne博士为特色。 Borne博士是大数据,AI和机器学习的著名专家,为当前状态和未来的Traje提供了宝贵的见解

这次演讲中出现了一些非常有见地的观点——关于工程学的背景信息,这些信息向我们展示了为什么人工智能如此擅长支持人们的体育锻炼。 我将从每位贡献者的观点中概括出一个核心思想,以展示三个设计方面,这些方面是我们探索人工智能在体育运动中应用的重要组成部分。 边缘设备和原始个人数据 关于人工智能的这个想法实际上包含两个组成部分——一个与我们放置大型语言模型的位置有关,另一个与我们人类语言和我们的生命体征在实时测量时“表达”的语言之间的差异有关。 Alexander Amini 对跑步和网球都很了解,但他还

卡特彼勒(Caterpillar)的首席信息官兼高级副总裁杰米·恩格斯特(Jamie Engstrom)领导了一支由28个国家 /地区的2200多名IT专业人员组成的全球团队。 在卡特彼勒(Caterpillar)工作了26年,其中包括她目前的四年半,Engst

Google Photos的新Ultra HDR工具:快速指南 使用Google Photos的新型Ultra HDR工具增强照片,将标准图像转换为充满活力的高动态范围杰作。对于社交媒体而言,此工具可提高任何照片的影响,


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

安全考试浏览器
Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

Atom编辑器mac版下载
最流行的的开源编辑器

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。