研究人员在不更改基础模型的情况下使用隐式和显式函数对 LLM 进行微调后,开发了推理时间对齐方法来整合人类价值观。
在使用基于学习的算法训练模型后整合人类价值观需要对 LLM 进行微调,这在计算上是昂贵且耗时的。此外,它还会引起用户的有偏见和不良反应。我们需要一种能够通过集成可在推理时进行干扰的算法来有效地实时适应用户偏好的模型。此方法将通过冻结基础模型并减少微调 LLM 的计算成本来避免重复重新训练模型以获得所需结果。
研究人员在使用隐式和显式函数对法学硕士进行微调后,开发了推理时间对齐方法来整合人类价值观,而无需更改基础模型。隐式函数用于标记生成,逐字评估并优先选择概率最高的输出。相比之下,显式函数需要严格的结构来评估较大的文本块,并以最高的概率生成以下单词序列,同时保持整体上下文。显式函数不灵活且计算量大,无法解决 token 级别的优化,而隐式函数面临可解释性问题,需要频繁的前向传递,导致实时效率较低。
为了解决这两个函数的缺点,所提出的方法集成价值指导(IVG)结合了隐式函数的代币级优化和显式函数的更广泛的视角。它能够避免适应挑战和对齐效率的权衡,从而减少性能差异并使其更容易实施。这些优势有助于更好地执行受控情绪生成和摘要等任务。 IVG 与 GPT-2 等较小模型相结合,可以与更高模型竞争。
IVG 结合了两个价值函数,即隐式函数和显式函数,以使模型与人类价值观保持一致。首先,按标记采样将各个标记微调到特定的序列长度,生成多个序列。然后,块级波束搜索比较这些序列的概率并选择概率最高的一个。虽然这种方法保证了输出更加鲁棒,但由于频繁的前向传递,计算能力在推理时间内增加,导致响应速度变慢。
研究人员使用了两种实验设置来评估 IVG:1. 受控情绪生成和总结,2. 遵循指令。在第一个模型中,GPT-2 模型系列通过利用黄金奖励模型的合成数据集来生成积极的电影评论并总结 Reddit 帖子。相比之下,第二个需要指令调整模型 AlpacaEval 2.0。它采用了 Tulu Guidance,它使用隐式函数的特定模型,并为显式函数训练基于奖励的模型,以及 Ultraguidance,它使用直接偏好优化 (DPO) 对这两种函数的模型进行微调。第二次实验中使用 GPT-4-turbo 作为参考来评估反应,IVG 始终表现良好。
除了这两个实验之外,一项消融研究证明,Chunk-Level Beam Search (CBS) 比使用隐式函数进行微调的 Emulator Fine-Tuning (EFT) 具有更高的速度效率。这些结果证明CBS在实践中使用起来要好得多。
总之,综合价值指导(IVG)提供了一种新颖而有效的方法,可以纯粹在推理时将大型语言模型与人类偏好保持一致,从而绕过传统微调的复杂性。通过利用隐式和显式价值函数,IVG 增强了 token-wise 采样和块级解码的性能,正如情感生成、摘要和指令跟踪任务方面的显着改进所证明的那样。结果表明,IVG 是一种多功能方法,提供了强有力的经验证据,证明其超越现有方法的能力,使其成为在现实应用中微调大型模型的有前景的解决方案。
别忘了加入我们的 50k ML SubReddit
想要面对 100 万人工智能读者吗?在这里与我们一起工作
以上是IVG:在推理时将人类价值观整合到大型语言模型中的详细内容。更多信息请关注PHP中文网其他相关文章!