搜索
首页科技周边人工智能从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RLHF)来管理这些模型,成效显着,标志着向更加人性化 AI 迈出的关键一步。

尽管 RLHF 取得了巨大成功,但是在训练过程中 RLHF 非常消耗资源。因此,近段时间学者们在 RLHF 奠定的坚实基础上,继续探索更为简单且高效的策略优化路径,催生了直接偏好优化(DPO)的诞生。 DPO 通过数学推理得到奖励函数与最优策略之间的直接映射,消除了奖励模型的训练过程,直接在偏好数据上优化策略模型,实现了从「反馈到策略」的直观飞跃。这不仅减少了复杂度,还增强了算法的稳健性,迅速成为业界的新宠。

然而,DPO 主要关注在逆 KL 散度约束下的策略优化。由于逆 KL 散度的 mode-seeking 特性,DPO 在提升对齐性能方面表现出色,但是这一特性也倾向于在生成过程中减少多样性,可能限制模型的能力。另一方面,尽管 DPO 从句子级的角度控制 KL 散度,模型的生成过程本质上是逐个 token 进行的。从句子级控制 KL 散度直观上表明 DPO 在细粒度控制上存在限制,对 KL 散度的调节能力较弱,可能是 DPO 训练过程中 LLM 的生成多样性迅速下降的关键因素之一。

为此,来自中科院和伦敦大学学院的汪军与张海峰团队提出了一种从 token-level 角度建模的大模型对齐算法:TDPO。

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

  • 论文标题:Token-level Direct Preference Optimization

  • 论文地址:https://arxiv.org/abs/2404.11999

  • 代码地址:https://github.com/Vance0124 /Token-level-Direct-Preference-Optimization

为了应对模型生成多样性显着下降的问题,TDPO 从token-level 的角度重新定义了整个对齐流程的目标函数,并通过将Bradley-Terry 模型转换为优势函数的形式,使得整个对齐流程能最终从Token-level 层面进行分析和优化。相比于DPO 而言,TDPO 的主要贡献如下:

  • Token-level 的建模方式:TDPO 从Token-level 的角度对问题进行了建模,对RLHF 进行了更精细的分析;

  • 细粒度KL 散度约束:在每个token 处从理论上引入了前向KL 散度约束,使方法能够更好地约束模型优化;

  • 性能优势明显:相比于DPO 而言,TDPO 能够实现更好的对齐性能和生成多样性的帕累托前沿。

DPO 与 TDPO 的主要区别如下图所示:

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

                            图 1:DPO 的对齐优化方式。 DPO 从 sentence-level 的角度进行建模

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

图 2:TDPO 的对齐优化方式。 TDPO 从token-level 的角度进行建模,并在每个token 处引入了额外的前向KL 散度约束,如图中红色部分所示,控制模型偏移程度的同时,充当了模型对齐的baseline

下面介绍两者方法的具体推导过程。

背景:直接偏好优化(DPO)

DPO 通过数学推导,得到了奖励函数与最优策略之间的直接映射,消除了RLHF 过程中的奖励建模阶段:

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

将公式(1) 代入Bradley-Terry (BT) 偏好模型中,得到直接策略优化(DPO)损失函数:

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

其中从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」是由来自偏好数据集 D 的 prompt、获胜响应和失败响应构成的偏好对。

TDPO

符号标注

为了建模语言模型顺序的、自回归的生成过程,TDPO 将生成回复表示成 T 个 token 组成的形式 从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」,其中从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」表示字母表(词汇表)。

当将文本生成建模为马尔可夫决策过程时,状态 state 定义为 prompt 和到当前 step 为止已生成的 token 的组合,表示为从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」,而动作 action 则对应于下一个生成的 token,表示为从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」,token 级奖励定义为从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

基于以上提供的定义,TDPO 为策略从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」建立了状态 - 动作函数从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」、状态值函数从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」和优势函数从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

其中,从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」表示折扣因子。

Token-level 角度的人类反馈强化学习

TDPO 理论上修改了 RLHF 的奖励建模阶段和 RL 微调阶段,将它们扩展为了从 token-level 角度考虑的优化目标。

对于奖励建模阶段, TDPO 建立了 Bradley-Terry 模型和优势函数之间的相关性:

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

对于 RL 微调阶段,TDPO 定义了以下目标函数:

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

推导

从目标 (4) 出发,TDPO 在每个 token 上推导了最优策略从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」和状态 - 动作函数从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」之间的映射关系:

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

其中,从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」表示配分函数。

将方程 (5) 代入方程 (3),我们得到:

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

其中,从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」表示策略模型从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」和参考模型从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」表示的隐式奖励函数差异,表示为

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」则表示从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」的序列级前向 KL 散度差异,按从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」加权,表示为

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

基于方程 (8),TDPO 最大似然损失函数可以建模为:

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

考虑到在实际中,从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」损失倾向于增加从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」,放大从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」之间的差异,TDPO 提出修改方程 (9) 为:

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

其中从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」是一个超参数,而

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

这里,从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」表示停止梯度传播运算符。

我们将 TDPO 和 DPO 的损失函数总结如下:

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

由此可见,TDPO 在每个 token 处引入了这种前向 KL 散度控制,使得在优化过程中能够更好地控制 KL 的变化,而不影响对齐性能,从而实现了更优的帕累托前沿。

实验设置

TDPO 在 IMDb,Anthropic/hh-rlhf、MT-Bench 上个数据集上进行了实验。

IMDb

在 IMDb 数据集上,该团队采用了 GPT-2 作为基模型,然后用 siebert/sentiment-roberta-large-english 作为奖励模型评估策略模型输出,实验结果如图 3 所示。

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

从图 3 (a) 中可以看出,TDPO (TDPO1,TDPO2) 能够达到比 DPO 更好的 reward-KL 的帕累托前沿,而从图 3 (b)-(d) 则可以看出,TDPO 在 KL 散度控制方面表现极为出色,远远优于 DPO 算法的 KL 散度控制能力。

Anthropic HH

而在 Anthropic/hh-rlhf 数据集上,该团队采用了 Pythia 2.8B 作为基模型,采用两种方式评估模型生成的好坏:1)使用已有的指标;2)使用 GPT-4 评测。

对于第一种评估方式,该团队评测了不同算法训练的模型在对齐性能 (Accuracy) 和生成多样性 (Entropy) 上的权衡,如表 1 所示。

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

可以看到 TDPO 算法不仅在对齐性能 (Accuracy) 上优于 DPO 和 f-DPO,在生成多样性 (Entropy) 上也占据优势,在这两个大模型生成回复的关键指标上达到了更好的权衡。

而对于第二种评估方式,该团队评测了不同算法训练的模型和人类偏好的吻合度,与数据集中的获胜响应作对比,如图 4 所示。

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

DPO、TDPO1 和 TDPO2 算法在温度系数为 0.75 的情况下均能够达到对获胜响应的胜率高于 50%,较好地符合人类偏好。

MT-Bench

在论文中的最后一个实验上,该团队采用了在 Anthropic HH 数据集上训练好的 Pythia 2.8B 模型直接用于 MT-Bench 数据集评测,结果如图 5 所示。

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

在 MT-Bench 上,TDPO 能够达到比其他算法更高的获胜概率,这充分说明了 TDPO 算法训练的模型生成的响应的质量更高。

此外,有相关研究对 DPO、TDPO、SimPO 算法进行了对比,可参考链接:https://www.zhihu.com/question/651021172/answer/3513696851

基于 eurus 提供的 eval 脚本,评测了基模型 qwen-4b、mistral-0.1、deepseek-math-base 基于不同的对齐算法 DPO、TDPO、SimPO 微调训练得到的性能,以下是实验的实验结果:

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

                          表格 2:DPO,TDPO,SimPO 算法性能对比

了解更多结果,请参考原论文。

以上是从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
10个生成AI编码扩展,在VS代码中,您必须探索10个生成AI编码扩展,在VS代码中,您必须探索Apr 13, 2025 am 01:14 AM

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

烹饪创新:人工智能如何改变食品服务烹饪创新:人工智能如何改变食品服务Apr 12, 2025 pm 12:09 PM

AI增强食物准备 在新生的使用中,AI系统越来越多地用于食品制备中。 AI驱动的机器人在厨房中用于自动化食物准备任务,例如翻转汉堡,制作披萨或组装SA

Python名称空间和可变范围的综合指南Python名称空间和可变范围的综合指南Apr 12, 2025 pm 12:00 PM

介绍 了解Python功能中变量的名称空间,范围和行为对于有效编写和避免运行时错误或异常至关重要。在本文中,我们将研究各种ASP

视觉语言模型(VLMS)的综合指南视觉语言模型(VLMS)的综合指南Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

联发科技与kompanio Ultra和Dimenty 9400增强优质阵容联发科技与kompanio Ultra和Dimenty 9400增强优质阵容Apr 12, 2025 am 11:52 AM

继续使用产品节奏,本月,Mediatek发表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。这些产品填补了Mediatek业务中更传统的部分,其中包括智能手机的芯片

本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:现在是星期一早上。作为AI驱动的招聘人员,您更聪明,而不是更努力。您在手机上登录公司的仪表板。它告诉您三个关键角色已被采购,审查和计划的FO

生成的AI遇到心理摩托车生成的AI遇到心理摩托车Apr 12, 2025 am 11:50 AM

我猜你一定是。 我们似乎都知道,心理障碍包括各种chat不休,这些chat不休,这些chat不休,混合了各种心理术语,并且常常是难以理解的或完全荒谬的。您需要做的一切才能喷出fo

原型:科学家将纸变成塑料原型:科学家将纸变成塑料Apr 12, 2025 am 11:49 AM

根据本周发表的一项新研究,只有在2022年制造的塑料中,只有9.5%的塑料是由回收材料制成的。同时,塑料在垃圾填埋场和生态系统中继续堆积。 但是有帮助。一支恩金团队

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用