搜索
首页web3.0IVG:在推理时将人类价值观整合到大型语言模型中

IVG:在推理时将人类价值观整合到大型语言模型中

Oct 03, 2024 pm 03:16 PM
AIIntegrated Value Guidance Implicit and Explicit Value Functions Token-Wise Sampling Chunk-Level Beam Search

研究人员在不更改基础模型的情况下使用隐式和显式函数对 LLM 进行微调后,开发了推理时间对齐方法来整合人类价值观。

IVG:在推理时将人类价值观整合到大型语言模型中

在使用基于学习的算法训练模型后整合人类价值观需要对 LLM 进行微调,这在计算上是昂贵且耗时的。此外,它还会引起用户的有偏见和不良反应。我们需要一种能够通过集成可在推理时进行干扰的算法来有效地实时适应用户偏好的模型。此方法将通过冻结基础模型并减少微调 LLM 的计算成本来避免重复重新训练模型以获得所需结果。

研究人员在使用隐式和显式函数对法学硕士进行微调后,开发了推理时间对齐方法来整合人类价值观,而无需更改基础模型。隐式函数用于标记生成,逐字评估并优先选择概率最高的输出。相比之下,显式函数需要严格的结构来评估较大的文本块,并以最高的概率生成以下单词序列,同时保持整体上下文。显式函数不灵活且计算量大,无法解决 token 级别的优化,而隐式函数面临可解释性问题,需要频繁的前向传递,导致实时效率较低。

为了解决这两个函数的缺点,所提出的方法集成价值指导(IVG)结合了隐式函数的代币级优化和显式函数的更广泛的视角。它能够避免适应挑战和对齐效率的权衡,从而减少性能差异并使其更容易实施。这些优势有助于更好地执行受控情绪生成和摘要等任务。 IVG 与 GPT-2 等较小模型相结合,可以与更高模型竞争。

IVG 结合了两个价值函数,即隐式函数和显式函数,以使模型与人类价值观保持一致。首先,按标记采样将各个标记微调到特定的序列长度,生成多个序列。然后,块级波束搜索比较这些序列的概率并选择概率最高的一个。虽然这种方法保证了输出更加鲁棒,但由于频繁的前向传递,计算能力在推理时间内增加,导致响应速度变慢。

研究人员使用了两种实验设置来评估 IVG:1. 受控情绪生成和总结,2. 遵循指令。在第一个模型中,GPT-2 模型系列通过利用黄金奖励模型的合成数据集来生成积极的电影评论并总结 Reddit 帖子。相比之下,第二个需要指令调整模型 AlpacaEval 2.0。它采用了 Tulu Guidance,它使用隐式函数的特定模型,并为显式函数训练基于奖励的模型,以及 Ultraguidance,它使用直接偏好优化 (DPO) 对这两种函数的模型进行微调。第二次实验中使用 GPT-4-turbo 作为参考来评估反应,IVG 始终表现良好。

除了这两个实验之外,一项消融研究证明,Chunk-Level Beam Search (CBS) 比使用隐式函数进行微调的 Emulator Fine-Tuning (EFT) 具有更高的速度效率。这些结果证明CBS在实践中使用起来要好得多。

总之,综合价值指导(IVG)提供了一种新颖而有效的方法,可以纯粹在推理时将大型语言模型与人类偏好保持一致,从而绕过传统微调的复杂性。通过利用隐式和显式价值函数,IVG 增强了 token-wise 采样和块级解码的性能,正如情感生成、摘要和指令跟踪任务方面的显着改进所证明的那样。结果表明,IVG 是一种多功能方法,提供了强有力的经验证据,证明其超越现有方法的能力,使其成为在现实应用中微调大型模型的有前景的解决方案。

别忘了加入我们的 50k ML SubReddit

想要面对 100 万人工智能读者吗?在这里与我们一起工作

以上是IVG:在推理时将人类价值观整合到大型语言模型中的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
探索OM崩溃探索OM崩溃Apr 18, 2025 am 10:14 AM

最近在咒语的OM崩溃使社区感到困惑。在一系列即时跌落中,删除了55亿美元。

零售和短期持有人正在倾倒比特币,鲸鱼很安静零售和短期持有人正在倾倒比特币,鲸鱼很安静Apr 18, 2025 am 10:12 AM

根据新的链链数据,最近的大多数比特币销售压力都来自短期持有者和较小的钱包。相比之下,尽管市场波动,鲸鱼和长期持有人仍减少了活动。

betmgm cuse150奖金代码:下注$ 10时获得$ 150的免费下注betmgm cuse150奖金代码:下注$ 10时获得$ 150的免费下注Apr 18, 2025 am 10:10 AM

随着NBA季后赛本周末正式下降,Betmgm再次升级了其限时的Cuse150奖金代码

Coinbase(Coin)刚刚获得了超过1.3亿美元的大量比特币流入,重新引起了人们对鲸鱼和市场转变的猜测Coinbase(Coin)刚刚获得了超过1.3亿美元的大量比特币流入,重新引起了人们对鲸鱼和市场转变的猜测Apr 18, 2025 am 10:08 AM

U.Today-领先的美国加密交易所Coinbase(NASDAQ:COIN)刚刚遭受了大量比特币流入,总计超过1.3亿美元,引发了有关可能的鲸鱼活动和市场转变的新猜测。

Capmoney已集成了连锁链接价格提要,以便为其分散的CUSD Stablecoin供电Capmoney已集成了连锁链接价格提要,以便为其分散的CUSD Stablecoin供电Apr 18, 2025 am 10:06 AM

Capmoney透露,它将使用以太坊上的Chainlink价格提要来完成美元的美元。

尽管到目前为止还没有列出二氧化硬币(BNB),但Kraken Exchange已于周四早些时候启用了代币的存款和提款尽管到目前为止还没有列出二氧化硬币(BNB),但Kraken Exchange已于周四早些时候启用了代币的存款和提款Apr 18, 2025 am 09:56 AM

直到现在,Kraken Exchange的一个令人惊讶的举动向加密货币交易员列出了二手硬币(BNB)。周四早些时候,Kraken Exchange宣布,在4月22日上市之前,启用了BNB的存款和提款。

Tron Eco Easter彩蛋运动,奖金为1000 USDTTron Eco Easter彩蛋运动,奖金为1000 USDTApr 18, 2025 am 09:54 AM

Sun Token与Tron Eco家庭成员Apenft,Just Dao,Winklink和Bittorrent一起宣布了Tron Eco Easter彩蛋运动,其中包括1000 USDT的奖金。

WalletConnect令牌(WCT)吸引鲸鱼WalletConnect令牌(WCT)吸引鲸鱼Apr 18, 2025 am 09:52 AM

如今,WalletConnect令牌(WCT)引起了极大的关注,因为鲸鱼已经开始进行大量的流入交易来交换

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前By尊渡假赌尊渡假赌尊渡假赌
威尔R.E.P.O.有交叉游戏吗?
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境