最近,深度生成模型在根据文本 prompt 生成高质量图像方面取得了显著成功,部分原因在于深度生成模型扩展到了大规模网络数据集(如 LAION)。但是,一些重大挑战依然存在,因而大规模文本到图像模型无法生成与文本 prompt 完全对齐的图像。举例而言,当前的文本到图像模型往往无法生成可靠的视觉文本,并在组合式图像生成方面存在困难。
回到语言建模领域,从人类反馈中学习已经成为一种用来「对齐模型行为与人类意图」的强大解决方案。这类方法通过人类对模型输出的反馈,首先学习一个旨在反映人类在任务中所关心内容的奖励函数,然后通过一种强化学习算法(如近端策略优化 PPO)使用学得的奖励函数来优化语言模型。这种带有人类反馈框架的强化学习(RLHF)已经成功地将大规模语言模型(例如 GPT-3)与复杂的人类质量评估结合起来。
近日,受 RLHF 在语言领域的成功,谷歌研究院和加州伯克利的研究者提出了使用人类反馈来对齐文本到图像模型的微调方法。
论文地址:https://arxiv.org/pdf/2302.12192v1.pdf
本文方法如下图 1 所示,主要分为 3 个步骤。
第一步:首先从「设计用来测试文本到图像模型输出对齐的」一组文本 prompt 中生成不同的图像。具体地,检查预训练模型更容易出错的 prompt—— 生成具有特定颜色、数量和背景的对象,然后收集用于评估模型输出的二元人类反馈。
第二步:使用了人工标记的数据集,训练一个奖励函数来预测给定图像和文本 prompt 的人类反馈。研究者提出了一项辅助任务,在一组扰动文本 prompt 中识别原始文本 prompt,以更有效地将人类反馈用于奖励学习。这一技术改进了奖励函数对未见过图像和文本 prompt 的泛化表现。
第三步:通过奖励加权似然最大化更新文本到图像模型,以更好地使它与人类反馈保持一致。与之前使用强化学习进行优化的工作不同,研究者使用半监督学习来更新模型,以测量模型输出质量即学得的奖励函数。
研究者使用带有人类反馈的 27000 个图像 - 文本对来微调 Stable Diffusion 模型,结果显示微调后的模型在生成具有特定颜色、数量和背景的对象方面实现显著提升。图像 - 文本对齐方面实现了高达 47% 的改进,但图像保真度略有下降。
此外,组合式生成结果也得到了改进,即在给定未见过颜色、数量和背景 prompt 组合时可以更好地生成未见过的对象。他们还观察到,学得的奖励函数比测试文本 prompt 上的 CLIP 分数更符合人类对对齐的评估。
不过,论文一作 Kimin Lee 也表示,本文的结果并没有解决现有文本到图像模型中所有的失效模型,仍存在诸多挑战。他们希望这项工作能够突出从人类反馈中学习在对齐文生图模型中的应用潜力。
方法介绍
为了将生成图像与文本 prompt 对齐,该研究对预训练模型进行了一系列微调,过程如上图 1 所示。首先从一组文本 prompt 中生成相应的图像,这一过程旨在测试文生图模型的各种性能;然后是人类评分员对这些生成的图像提供二进制反馈;接下来,该研究训练了一个奖励模型来预测以文本 prompt 和图像作为输入的人类反馈;最后,该研究使用奖励加权对数似然对文生图模型进行微调,以改善文本 - 图像对齐。
人类数据收集
为了测试文生图模型的功能,该研究考虑了三类文本 prompt:指定数量(specified count)、颜色、背景。对于每个类别,该研究对每个描述该物体的单词或短语两两进行组合来生成 prompt,例如将绿色(颜色)与一只狗(数量)组合。此外,该研究还考虑了三个类别的组合(例如,在一个城市中两只染着绿颜色的狗)。下表 1 更好的阐述了数据集分类。每一个 prompt 会被用来生成 60 张图像,模型主要为 Stable Diffusion v1.5 。
人类反馈
接下来对生成的图像进行人类反馈。由同一个 prompt 生成的 3 张图像会被呈递给打标签人员,并要求他们评估生成的每幅图像是否与 prompt 保持一致,评价标准为 good 或 bad。由于这项任务比较简单,用二元反馈就可以了。
奖励学习
为了更好的评价图像 - 文本对齐,该研究使用奖励函数来衡量,该函数可以将图像 x 的 CLIP 嵌入和文本 prompt z 映射到标量值。之后其被用来预测人类反馈 k_y ∈ {0, 1} (1 = good, 0 = bad) 。
从形式上来讲,就是给定人类反馈数据集 D^human = {(x, z, y)},奖励函数通过最小化均方误差 (MSE) 来训练:
此前,已经有研究表明数据增强方法可以显着提高数据效率和模型学习性能,为了有效地利用反馈数据集,该研究设计了一个简单的数据增强方案和奖励学习的辅助损失(auxiliary loss)。该研究在辅助任务中使用增强 prompt,即对原始 prompt 进行分类奖励学习。Prompt 分类器使用奖励函数,如下所示:
辅助损失为:
最后是更新文生图模型。由于模型生成的数据集多样性是有限的,可能导致过拟合。为了缓解这一点,该研究还最小化了预训练损失,如下所示:
实验结果
实验部分旨在测试人类反馈参与模型微调的有效性。实验用到的模型为 Stable Diffusion v1.5 ;数据集信息如表 1(参见上文)和表 2 所示,表 2 显示了由多个人类标签者提供的反馈分布。
人类对文本 - 图像对齐的评分(评估指标为颜色、物体数量)。如图 4 所示,本文方法显著提高了图像 - 文本对齐,具体来说,模型生成的图像中有 50% 的样本获得至少三分之二的赞成票(投票数量为 7 票或更多赞成票),然而,微调会稍微降低图像保真度(15% 比 10%)。
图 2 显示了来自原始模型和本文经过微调的对应模型的图像示例。可以看到原始模型生成了缺少细节(例如,颜色、背景或计数)的图像(图 2 (a)),本文模型生成的图像符合 prompt 指定的颜色、计数和背景。值得注意的是,本文模型还能生成没有见过的文本 prompt 图像,并且质量非常高(图 2 (b))。
奖励学习的结果。图 3 (a) 为模型在见过的文本 prompt 和未见文本 prompt 中的评分。有奖励(绿色)比 CLIP 分数(红色)更符合典型的人类意图。
以上是学习ChatGPT,AI绘画引入人类反馈会怎样?的详细内容。更多信息请关注PHP中文网其他相关文章!

斯坦福大学以人为本人工智能研究所发布的《2025年人工智能指数报告》对正在进行的人工智能革命进行了很好的概述。让我们用四个简单的概念来解读它:认知(了解正在发生的事情)、欣赏(看到好处)、接纳(面对挑战)和责任(弄清我们的责任)。 认知:人工智能无处不在,并且发展迅速 我们需要敏锐地意识到人工智能发展和传播的速度有多快。人工智能系统正在不断改进,在数学和复杂思维测试中取得了优异的成绩,而就在一年前,它们还在这些测试中惨败。想象一下,人工智能解决复杂的编码问题或研究生水平的科学问题——自2023年

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

连接的舒适幻想:我们在与AI的关系中真的在蓬勃发展吗? 这个问题挑战了麻省理工学院媒体实验室“用AI(AHA)”研讨会的乐观语气。事件展示了加油

介绍 想象一下,您是科学家或工程师解决复杂问题 - 微分方程,优化挑战或傅立叶分析。 Python的易用性和图形功能很有吸引力,但是这些任务需要强大的工具

Meta's Llama 3.2:多式联运AI强力 Meta的最新多模式模型Llama 3.2代表了AI的重大进步,具有增强的语言理解力,提高的准确性和出色的文本生成能力。 它的能力t

数据质量保证:与Dagster自动检查和良好期望 保持高数据质量对于数据驱动的业务至关重要。 随着数据量和源的增加,手动质量控制变得效率低下,容易出现错误。

大型机:AI革命的无名英雄 虽然服务器在通用应用程序上表现出色并处理多个客户端,但大型机是专为关键任务任务而建立的。 这些功能强大的系统经常在Heavil中找到


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

Atom编辑器mac版下载
最流行的的开源编辑器

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

Dreamweaver Mac版
视觉化网页开发工具

记事本++7.3.1
好用且免费的代码编辑器