搜索
首页web3.0指令解码增强了指令调整语言模型,无需更新参数

指令解码增强了指令调整语言模型,无需更新参数

Oct 02, 2024 pm 06:12 PM
AIInstructive Decoding Attention Enhancement Instruction-Tuned LLMs Generation Phase

KAIST AI 的研究人员推出了指令解码 (ID),这是一种无需参数更新即可增强指令调整 LM 的方法。

指令解码增强了指令调整语言模型,无需更新参数

指令调整语言模型 (LM) 可以很好地泛化到零样本设置中未见过的任务。然而,他们在训练数据之外的任务上的表现往往受到限制。尽管建立在大型数据集上并拥有数十亿个参数,但这些语言模型在上下文学习(ICL)方面表现出色,它们可以生成对几个示例的响应,而无需重新训练。然而,训练数据集的范围限制了它们在不熟悉的任务上的有效性。快速工程和输出多样化等技术有助于提高性能,但需要付出巨大的努力。最近的研究探索了将认知锚定效应应用于 LM,表明强调初始提示可以增强特定任务的响应并提高对指令的保真度。

在这项工作中,KAIST AI 的研究人员介绍了指令解码 (ID),这是一种无需任何参数更新即可增强指令调整 LM 的方法。受噪声监督技术的启发,ID 使用“噪声指令”(原始指令的更改版本)来创建预测下一个标记的对比方法。通过将模型的输出引导到不同的方向,特别是使用“相反”指令,ID 可以提高跨任务的模型性能。实验表明,通过 ID 增强的较小模型的准确性明显优于较大模型。此方法提高了对指令的遵守程度并提高了整体响应质量,证明了其在各种模型和任务中的有效性。

指令调优的目标是微调预先训练的语言模型,使其更好地遵循自然语言指令,从而提高对未见过的任务的泛化能力,尤其是在零样本场景中。尽管模型通常严重依赖于预先训练的知识,但扩大训练任务的多样性和复杂性可以增强这种能力。先前的研究强调,语言模型对熟悉的指令很敏感,甚至处理误导性的指令,并且可以通过对比技术来利用这种敏感性。文本生成中的对比与对比解码一样,会比较不同模型或输入的输出以提高性能。这项研究通过使用噪声指令来增强指令调整 LM 的泛化能力,从而扩展了这些想法。

指令解码通过对比噪声指令生成的输出来改进指令调整模型中的响应生成。它建立在锚定效应的基础上,其中初始信息影响随后的判断,并利用原始指令和更改指令生成的响应之间的差异。该方法使用噪声指令变体(例如截断、打乱或随机单词)来误导模型,同时确保任务保真度。通过在解码过程中比较原始指令和噪声指令的逻辑,指令解码可以帮助模型纠正偏差并产生与预期指令更加一致的响应,从而改善其在未见过的任务上的性能。

实验设置使用 SUPNATINST 和 UNNATINST 数据集,跨语法错误纠正和文本蕴涵等任务评估 Tk-Instruct、Alpaca 和 T0 等模型。 Rouge-L、精确匹配 (EM)、标签粘附性 (LA) 和标签一致性 (LC) 指标评估性能。 ID 持续改善结果,特别是对于 Tk-XXL 等较大模型,增强 LA 和 LC。有趣的是,尽管基线性能下降,但嘈杂的指令通过 ID 提高了输出质量。尽管特定任务的性能各不相同,但“相反”指令变体在不同任务中证明是稳健的。总体而言,ID 在模型大小和任务类型方面显示出显着的增益。

该研究调查了指令调整语言模型中看不见的任务泛化的挑战。所提出的 ID 方法利用“噪声”指令的锚定效应来抵消固有的模型偏差。通过将预测与更改后的指令生成的预测进行对比,ID 可以增强模型性能,特别是对于与原始输入偏差最大的“相反”噪声变体。实证结果表明 ID 在多个任务中的有效性,并且预测多样性显着提高。该方法不需要额外的参数更新,使其成为改善语言模型指令跟踪的实用工具。

查看论文。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记在 Twitter 上关注我们并加入我们的 Telegram 频道和 LinkedIn 群组。如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。

别忘了加入我们的 50k ML SubReddit

以上是指令解码增强了指令调整语言模型,无需更新参数的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
从$ 0.0000002到$ 1:为什么Floppypepe(FPPE)将在Shiba Inu和Pepe之前取消6个零从$ 0.0000002到$ 1:为什么Floppypepe(FPPE)将在Shiba Inu和Pepe之前取消6个零May 03, 2025 am 11:24 AM

Floppypepe(FPPE)的设定为$ 0.0000002至1美元,专家声称它可以在Shiba INU(Shib)(Shib)和Pepe(Pepe)之前取消6个零,并采取了下一步行动。

模因硬币的最终清单在2025年爆炸:从北极巴勃罗到穆巴拉克模因硬币的最终清单在2025年爆炸:从北极巴勃罗到穆巴拉克May 03, 2025 am 11:22 AM

每个加密货币周期都会带来一批新鲜的令人发指的,社区燃料的代币,这些令牌席卷了市场,一夜之间将钱包翻转过来并造成新的百万富翁。

Bonk命中轨道,您在船上吗?现在,北极帕勃罗硬币被倾斜为2025年的下一个顶级模因硬币Bonk命中轨道,您在船上吗?现在,北极帕勃罗硬币被倾斜为2025年的下一个顶级模因硬币May 03, 2025 am 11:20 AM

当Bonk成为Solana生态系统的第一个模因硬币时,很少有人看到它来了。邦克(Bonk

Sonic Chain在早期令牌滴剂中以Binance Wallet推出Sonic Chain在早期令牌滴剂中以Binance Wallet推出May 03, 2025 am 11:18 AM

Binance Wallet已推出了Sonic Chain的支持,Sonic Chain是Fantom区块链的重塑版本,标志着由Defi Pioneer Andre Cronje领导的网络的新章节。

澳大利亚在线赌博的未来比以往任何时候都更加光明澳大利亚在线赌博的未来比以往任何时候都更加光明May 03, 2025 am 11:16 AM

澳大利亚体育博彩的合法性是一个复杂的话题。在线体育博彩是合法的,并且受到严格监管

tldrtldrMay 03, 2025 am 11:14 AM

自最近的市场更正以来,比特币的长期持有人将其供应量增加了约254,000 BTC。这一趋势反映了信心的上升,因为大持有人在更高的价格水平上积累。

随着市场结构的变化,比特币(BTC)准备进入新的看涨阶段随着市场结构的变化,比特币(BTC)准备进入新的看涨阶段May 03, 2025 am 11:12 AM

在本周飙升至97,000美元的水平之后,比特币似乎正在进入新的看涨阶段。

NASDAQ上市的物流和技术公司FR8Tech Industries Inc.(FR8Tech)宣布了其特朗普代币战略的大胆步骤。NASDAQ上市的物流和技术公司FR8Tech Industries Inc.(FR8Tech)宣布了其特朗普代币战略的大胆步骤。May 03, 2025 am 11:10 AM

2025年4月29日,公司与一家身份不明的机构合作伙伴达成了一项协议,以获得高达2000万美元的融资。

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具