搜索
首页web3.0IVG:在推理时将人类价值观整合到大型语言模型中

IVG:在推理时将人类价值观整合到大型语言模型中

Oct 03, 2024 pm 03:16 PM
AIIntegrated Value Guidance Implicit and Explicit Value Functions Token-Wise Sampling Chunk-Level Beam Search

研究人员在不更改基础模型的情况下使用隐式和显式函数对 LLM 进行微调后,开发了推理时间对齐方法来整合人类价值观。

IVG:在推理时将人类价值观整合到大型语言模型中

在使用基于学习的算法训练模型后整合人类价值观需要对 LLM 进行微调,这在计算上是昂贵且耗时的。此外,它还会引起用户的有偏见和不良反应。我们需要一种能够通过集成可在推理时进行干扰的算法来有效地实时适应用户偏好的模型。此方法将通过冻结基础模型并减少微调 LLM 的计算成本来避免重复重新训练模型以获得所需结果。

研究人员在使用隐式和显式函数对法学硕士进行微调后,开发了推理时间对齐方法来整合人类价值观,而无需更改基础模型。隐式函数用于标记生成,逐字评估并优先选择概率最高的输出。相比之下,显式函数需要严格的结构来评估较大的文本块,并以最高的概率生成以下单词序列,同时保持整体上下文。显式函数不灵活且计算量大,无法解决 token 级别的优化,而隐式函数面临可解释性问题,需要频繁的前向传递,导致实时效率较低。

为了解决这两个函数的缺点,所提出的方法集成价值指导(IVG)结合了隐式函数的代币级优化和显式函数的更广泛的视角。它能够避免适应挑战和对齐效率的权衡,从而减少性能差异并使其更容易实施。这些优势有助于更好地执行受控情绪生成和摘要等任务。 IVG 与 GPT-2 等较小模型相结合,可以与更高模型竞争。

IVG 结合了两个价值函数,即隐式函数和显式函数,以使模型与人类价值观保持一致。首先,按标记采样将各个标记微调到特定的序列长度,生成多个序列。然后,块级波束搜索比较这些序列的概率并选择概率最高的一个。虽然这种方法保证了输出更加鲁棒,但由于频繁的前向传递,计算能力在推理时间内增加,导致响应速度变慢。

研究人员使用了两种实验设置来评估 IVG:1. 受控情绪生成和总结,2. 遵循指令。在第一个模型中,GPT-2 模型系列通过利用黄金奖励模型的合成数据集来生成积极的电影评论并总结 Reddit 帖子。相比之下,第二个需要指令调整模型 AlpacaEval 2.0。它采用了 Tulu Guidance,它使用隐式函数的特定模型,并为显式函数训练基于奖励的模型,以及 Ultraguidance,它使用直接偏好优化 (DPO) 对这两种函数的模型进行微调。第二次实验中使用 GPT-4-turbo 作为参考来评估反应,IVG 始终表现良好。

除了这两个实验之外,一项消融研究证明,Chunk-Level Beam Search (CBS) 比使用隐式函数进行微调的 Emulator Fine-Tuning (EFT) 具有更高的速度效率。这些结果证明CBS在实践中使用起来要好得多。

总之,综合价值指导(IVG)提供了一种新颖而有效的方法,可以纯粹在推理时将大型语言模型与人类偏好保持一致,从而绕过传统微调的复杂性。通过利用隐式和显式价值函数,IVG 增强了 token-wise 采样和块级解码的性能,正如情感生成、摘要和指令跟踪任务方面的显着改进所证明的那样。结果表明,IVG 是一种多功能方法,提供了强有力的经验证据,证明其超越现有方法的能力,使其成为在现实应用中微调大型模型的有前景的解决方案。

别忘了加入我们的 50k ML SubReddit

想要面对 100 万人工智能读者吗?在这里与我们一起工作

以上是IVG:在推理时将人类价值观整合到大型语言模型中的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
Gitcoin Labs,以太坊公共物品资金协议Gitcoin的主要软件开发单位Gitcoin关闭Gitcoin Labs,以太坊公共物品资金协议Gitcoin的主要软件开发单位Gitcoin关闭Apr 26, 2025 am 11:22 AM

Gitcoin联合创始人Kevin Owocki在一份声明中说,这一决定部分是因为“盈利能力”是不现实的。

RCO Finance(RCOF)是下一个顶级加密货币选秀的竞争者RCO Finance(RCOF)是下一个顶级加密货币选秀的竞争者Apr 26, 2025 am 11:20 AM

XRP价格稳定在2.13美元,交易量为23.3亿美元。但是,它的势头减慢了,使投资者寻求下一个顶级加密货币选秀权。

到2030年,比特币(BTC)可能达到每枚硬币150万美元,方舟投资项目到2030年,比特币(BTC)可能达到每枚硬币150万美元,方舟投资项目Apr 26, 2025 am 11:18 AM

投资者兼首席执行官凯西·伍德(Cathie Wood)的方舟投资公司项目,比特币到2030

瑞士国家银行拒绝了持有比特币储备,理由是对加密货币市场流动性和波动性的担忧。瑞士国家银行拒绝了持有比特币储备,理由是对加密货币市场流动性和波动性的担忧。Apr 26, 2025 am 11:16 AM

“对于加密货币而言,市场流动性有时似乎还可以,尤其是在自然受到质疑的危机期间”

当特朗普宣布对加密货币进口的关税延迟为期90天,投机者和投资者开始概述潜在风险当特朗普宣布对加密货币进口的关税延迟为期90天,投机者和投资者开始概述潜在风险Apr 26, 2025 am 11:14 AM

当美国总统唐纳德·特朗普(Donald Trump)宣布对加密货币进口的关税延迟为期90天,投机者和投资者开始概述更广泛的加密货币市场的潜在风险。

从2011年开始,在50p硬币上发现'一个小细节”可能会赚取2,000英镑从2011年开始,在50p硬币上发现'一个小细节”可能会赚取2,000英镑Apr 26, 2025 am 11:12 AM

如果奥运会主题的硬币具有特定的设计,则受到收藏家的高度追捧。

敦促英国人正在寻找一枚备受追捧的50p硬币,该硬币有可能值得一笔惊人的2,000英镑敦促英国人正在寻找一枚备受追捧的50p硬币,该硬币有可能值得一笔惊人的2,000英镑Apr 26, 2025 am 11:10 AM

如果收藏家采用特定的设计,则该硬币高度评价。

从2011年开始,在50p硬币上发现'一个小细节”可能会赚取2000英镑从2011年开始,在50p硬币上发现'一个小细节”可能会赚取2000英镑Apr 26, 2025 am 11:08 AM

如果奥运会主题的硬币具有特定的设计,则受到收藏家的高度追捧。

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具