KAIST AI 的研究人员推出了指令解码 (ID),这是一种无需参数更新即可增强指令调整 LM 的方法。
指令调整语言模型 (LM) 可以很好地泛化到零样本设置中未见过的任务。然而,他们在训练数据之外的任务上的表现往往受到限制。尽管建立在大型数据集上并拥有数十亿个参数,但这些语言模型在上下文学习(ICL)方面表现出色,它们可以生成对几个示例的响应,而无需重新训练。然而,训练数据集的范围限制了它们在不熟悉的任务上的有效性。快速工程和输出多样化等技术有助于提高性能,但需要付出巨大的努力。最近的研究探索了将认知锚定效应应用于 LM,表明强调初始提示可以增强特定任务的响应并提高对指令的保真度。
在这项工作中,KAIST AI 的研究人员介绍了指令解码 (ID),这是一种无需任何参数更新即可增强指令调整 LM 的方法。受噪声监督技术的启发,ID 使用“噪声指令”(原始指令的更改版本)来创建预测下一个标记的对比方法。通过将模型的输出引导到不同的方向,特别是使用“相反”指令,ID 可以提高跨任务的模型性能。实验表明,通过 ID 增强的较小模型的准确性明显优于较大模型。此方法提高了对指令的遵守程度并提高了整体响应质量,证明了其在各种模型和任务中的有效性。
指令调优的目标是微调预先训练的语言模型,使其更好地遵循自然语言指令,从而提高对未见过的任务的泛化能力,尤其是在零样本场景中。尽管模型通常严重依赖于预先训练的知识,但扩大训练任务的多样性和复杂性可以增强这种能力。先前的研究强调,语言模型对熟悉的指令很敏感,甚至处理误导性的指令,并且可以通过对比技术来利用这种敏感性。文本生成中的对比与对比解码一样,会比较不同模型或输入的输出以提高性能。这项研究通过使用噪声指令来增强指令调整 LM 的泛化能力,从而扩展了这些想法。
指令解码通过对比噪声指令生成的输出来改进指令调整模型中的响应生成。它建立在锚定效应的基础上,其中初始信息影响随后的判断,并利用原始指令和更改指令生成的响应之间的差异。该方法使用噪声指令变体(例如截断、打乱或随机单词)来误导模型,同时确保任务保真度。通过在解码过程中比较原始指令和噪声指令的逻辑,指令解码可以帮助模型纠正偏差并产生与预期指令更加一致的响应,从而改善其在未见过的任务上的性能。
实验设置使用 SUPNATINST 和 UNNATINST 数据集,跨语法错误纠正和文本蕴涵等任务评估 Tk-Instruct、Alpaca 和 T0 等模型。 Rouge-L、精确匹配 (EM)、标签粘附性 (LA) 和标签一致性 (LC) 指标评估性能。 ID 持续改善结果,特别是对于 Tk-XXL 等较大模型,增强 LA 和 LC。有趣的是,尽管基线性能下降,但嘈杂的指令通过 ID 提高了输出质量。尽管特定任务的性能各不相同,但“相反”指令变体在不同任务中证明是稳健的。总体而言,ID 在模型大小和任务类型方面显示出显着的增益。
该研究调查了指令调整语言模型中看不见的任务泛化的挑战。所提出的 ID 方法利用“噪声”指令的锚定效应来抵消固有的模型偏差。通过将预测与更改后的指令生成的预测进行对比,ID 可以增强模型性能,特别是对于与原始输入偏差最大的“相反”噪声变体。实证结果表明 ID 在多个任务中的有效性,并且预测多样性显着提高。该方法不需要额外的参数更新,使其成为改善语言模型指令跟踪的实用工具。
查看论文。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记在 Twitter 上关注我们并加入我们的 Telegram 频道和 LinkedIn 群组。如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。
别忘了加入我们的 50k ML SubReddit
以上是指令解码增强了指令调整语言模型,无需更新参数的详细内容。更多信息请关注PHP中文网其他相关文章!

The crypto market is undergoing a significant sentiment shift as sidelined capital starts to take entry. Projects like Near Protocol (NEAR) and Cardano (ADA) are heating up in anticipation of the upcoming rally.

Shytoshi Kusama, the enigmatic figure leading the Shiba Inu ecosystem, has sparked speculation about a forthcoming collaboration with an AI project.

Solana (SOL) is currently among the standout cryptocurrencies, recording significant buy pressure as the token seeks to breach new highs.

Apple is all set for the iPhone 16 launch on Monday, gearing up for a major push to generative AI by introducing it to its consumers of iPhones

In recent months, Cardano [ADA] has faced criticism, with some labeling it a “dead coin” due to its price trends. However, despite this negative

This partnership signifies a crucial advancement towards integrating commercial AI agents and automation into the Web3 space.

AI crypto coins are surging, with the sector's market capitalization rising nearly 7% on Tuesday. Tokens like Artificial Superintelligence Alliance (FET) and Bittensor (TAO) are leading the rally, posting double-digit gains.

Raboo is an AI meme coin that merges the creative powers of technology, the trend of content creation, and Post-to-Earn tokenomics to generate wealth for users.

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。

Atom编辑器mac版下载
最流行的的开源编辑器

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。