自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能-人工智能-PHP中文网

首页

科技周边

人工智能

自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能

PHPz

Jan 23, 2024 pm 01:15 PM

meta工程纽约大学自我奖励方法

人工智能的反馈（AIF）要代替 RLHF 了？

大模型领域中，微调是改进模型性能的重要一步。随着开源大模型逐渐变多，人们总结出了很多种微调方式，其中一些取得了很好的效果。

最近，来自 Meta、纽约大学的研究者用「自我奖励方法」，让大模型自己生成自己的微调数据，给人带来了一点新的震撼。

在新方法中，作者对 Llama 2 70B 进行了三个迭代的微调，生成的模型在 AlpacaEval 2.0 排行榜上优于一众现有重要大模型，包括 Claude 2、Gemini Pro 和 GPT-4。

自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能

因此，论文刚刚发上 arXiv 几个小时就引起了人们的注意。

虽然目前方法还没有开源，但是人们认为论文中使用的方法描述清晰，复现起来应该不难。

自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能

众所周知，使用人类偏好数据调整大语言模型（LLM）可以极大提高预训练模型的指令跟踪性能。在 GPT 系列中，OpenAI 提出了人类反馈强化学习 (RLHF) 的标准方法，让大模型可以从人类偏好中学习奖励模型，再使得奖励模型被冻结并用于使用强化学习训练 LLM，这种方法已获得了巨大的成功。

最近出现的新思路是完全避免训练奖励模型，并直接使用人类偏好来训练 LLM，如直接偏好优化（DPO）。在以上两种情况下，调优都受到人类偏好数据的大小和质量的瓶颈，并且在 RLHF 的情况下，调优质量还受到从它们训练的冻结奖励模型的质量的瓶颈。

在 Meta 的新工作中，作者提议训练一个自我改进的奖励模型，该模型不是被冻结，而是在 LLM 调整期间不断更新，以避免这一瓶颈。

这种方法的关键是开发一个拥有训练期间所需的所有能力的智能体（而不是分为奖励模型和语言模型），让指令跟随任务的预训练和多任务训练允许通过同时训练多个任务来实现任务迁移。

因此作者引入了自我奖励语言模型，其智能体既充当遵循模型的指令，为给定的提示生成响应，也可以根据示例生成和评估新指令，以添加到他们自己的训练集中。

新方法使用类似于迭代 DPO 的框架来训练这些模型。从种子模型开始，如图 1 所示，在每次迭代中都有一个自指令创建过程，其中模型为新创建的提示生成候选响应，然后由同一模型分配奖励。后者是通过 LLM-as-a-Judge 的提示来实现的，这也可以看作是指令跟随任务。根据生成的数据构建偏好数据集，并通过 DPO 训练模型的下一次迭代。

自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能

论文标题：Self-Rewarding Language Models
论文链接：https://arxiv.org/abs/2401.10020

自我奖励的语言模型

作者提出的方法首先假设：可以访问基本的预训练语言模型和少量人工注释的种子数据，然后建立一个模型，旨在同时拥有两种技能：

1. 指令遵循：给出描述用户请求的提示，能够生成高质量、有帮助（且无害）的响应。

2. 自指令创建：能够按照示例生成和评估新指令以添加到自己的训练集中。

使用这些技能是为了使模型能够执行自对准，即它们是用于使用人工智能反馈（AIF）迭代训练自身的组件。

自指令的创建包括生成候选响应，然后让模型本身判断其质量，即它充当自己的奖励模型，从而取代对外部模型的需求。这是通过 LLM-as-a-Judge 机制实现的 [Zheng et al., 2023b]，即通过将响应评估制定为指令跟随任务。这个自行创建的 AIF 偏好数据被用作训练集。

所以在微调过程中，相同的模型被用于两个角色：作为「学习者」和作为「法官」。基于新出现的法官角色，模型可以通过上下文微调来进一步提升性能。

整体的自对齐过程是一个迭代过程，通过以下步骤来进行：构建一系列模型，每个模型都比上一个模型有所改进。在这其中重要的是，由于模型既可以提高其生成能力，又可以通过相同的生成机制作为自己的奖励模型，这意味着奖励模型本身可以通过这些迭代来改进，这就与奖励模型固有的标准做法出现了不同。

研究者认为，此种方式可以提高这些学习模型未来自我改进的潜力上限，消除限制性瓶颈。

图 1 展示了该方法的概述。

自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能

实验

在实验中，研究者使用了 Llama 2 70B 作为基础预训练模型。他们发现，与基线种子模型相比，自奖励 LLM 对齐不仅提高了指令跟随表现，奖励建模能力也得到了提高。

这意味着在迭代训练中，模型能够在给定的迭代中为自己提供比上一次迭代质量更好的偏好数据集。虽然这种影响在现实世界中会趋于饱和，但提供了一种有趣的可能：这样得到的奖励模型（以及 LLM）要优于仅从人类撰写的原始种子数据里训练的模型。

在指令跟随能力方面，实验结果如图 3 所示：

自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能研究者在 AlpacaEval 2 排行榜上评估了自奖励模型，结果如表 1 所示。他们观察到了与 head-to-head 评估相同的结论，即训练迭代的胜率比 GPT4-Turbo 高，从迭代 1 的 9.94%，到迭代 2 的 15.38%，再到迭代 3 的 20.44%。同时，迭代 3 模型优于许多现有模型，包括 Claude 2、Gemini Pro 和 GPT4 0613。

自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能

奖励建模评估结果如表 2，结论包括：

EFT在SFT基线上有所改进，使用IFT+EFT与单独使用IFT相比，五个测量指标都有所提高。例如，与人类的成对准确率一致性从65.1%上升到78.7%。
通过自我训练提高奖励建模能力。进行一轮自我奖励训练后，模型为下一次迭代提供自我奖励的能力得到了提高，此外它的指令跟随能力也得到了提高。
LLMas-a-Judge 提示的重要性。研究者使用了各种提示格式发现，LLMas-a-Judge 提示在使用 SFT 基线时成对准确率更高。

作者认为，自我奖励的训练方式既提高了模型的指令跟踪能力，也提高了模型在迭代中的奖励建模能力。

虽然这只是一项初步研究，但看来已是一个令人兴奋的研究方向，此种模型能够更好地在未来的迭代中分配奖励，以改善指令遵循，实现一种良性循环。

这种方法也为更复杂的判断方法开辟了一定的可能性。例如，大模型可以通过搜索数据库来验证其答案的准确性，从而获得更准确和可靠的输出。

^{参考内容：}^{https://www.reddit.com/r/MachineLearning/comments/19atnu0/r_selfrewarding_language_models_meta_2024/}

以上是自我奖励下的大型模型：Llama2通过Meta学习自行优化，超越GPT-4的性能的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：机器之心。如有侵权，请联系admin@php.cn删除

微软深化与 Meta 的 AI 及 PyTorch 合作Apr 09, 2023 pm 05:21 PM

微软宣布进一步扩展和 Meta 的 AI 合作伙伴关系，Meta 已选择 Azure 作为战略性云供应商，以帮助加速 AI 研发。在 2017 年，微软和 Meta(彼时还被称为 Facebook)共同发起了 ONNX(即 Open Neural Network Exchange)，一个开放的深度学习开发工具生态系统，旨在让开发者能够在不同的 AI 框架之间移动深度学习模型。2018 年，微软宣布开源了 ONNX Runtime —— ONNX 格式模型的推理引擎。作为此次深化合作的一部分，Me

Meta 推出 AI 语言模型 LLaMA，一个有着 650 亿参数的大型语言模型Apr 14, 2023 pm 06:58 PM

2月25日消息，Meta在当地时间周五宣布，它将推出一种针对研究社区的基于人工智能(AI)的新型大型语言模型，与微软、谷歌等一众受到ChatGPT刺激的公司一同加入人工智能竞赛。Meta的LLaMA是“大型语言模型MetaAI”（LargeLanguageModelMetaAI）的缩写，它可以在非商业许可下提供给政府、社区和学术界的研究人员和实体工作者。该公司将提供底层代码供用户使用，因此用户可以自行调整模型，并将其用于与研究相关的用例。Meta表示，该模型对算力的要

Meta这篇语言互译大模型研究，结果对比都是「套路」Apr 11, 2023 pm 11:46 PM

今年 7 月初，Meta AI 发布了一个新的翻译模型，名为 No Language Left behind (NLLB)，我们可以将其直译为「一个语言都不能少」。顾名思义，NLLB 可以支持 200 + 语言之间任意互译，Meta AI 还把它开源了。平时你都没见到的语言如卢干达语、乌尔都语等它都能翻译。论文地址：https://research.facebook.com/publications/no-language-left-behind/开源地址：https://github.com/

曝光Meta Quest 3头显固件：揭示室内物体自动识别功能Sep 07, 2023 pm 01:17 PM

8月31日消息，近日有关虚拟现实领域的令人振奋消息传出，据可靠渠道透露，meta公司即将在9月27日正式发布其全新虚拟现实头显——metaQuest3。这款头显据称拥有颠覆性的深度测绘技术，将为用户带来更加逼真的混合现实体验。这项名为深度测绘的技术被认为是metaQuest3的一项重大创新。该技术使得虚拟数字物体与真实物体能够在同一空间内进行互动，大大提升了混合现实的沉浸感和真实感。一段在Reddit上流传的视频展示了深度测绘功能的惊人表现，不禁让人惊叹不已。从视频中可以看出，metaQuest

音乐制作元工具AudioCraft发布开源AI工具Aug 04, 2023 am 11:45 AM

美国东部时间8月2日，Meta发布了一款名为AudioCraft的生成式AI工具，用户可以利用文本提示来创作音乐和音频AudioCraft由三个主要组件构成：MusicGen：使用Meta拥有/特别授权的音乐进行训练，根据文本提示生成音乐。AudioGen：使用公共音效进行训练生成音频或扩展现有音频，后续还可生成环境音效（如狗叫、汽车鸣笛、木地板上的脚步声）。EnCodec（改进版）：基于神经网络的音频压缩解码器，可生成更高质量的音乐并减少人工痕迹，或对音频文件进行无损压缩。官方声称，Audio

Meta推出4年硬件路线图，致力于打造「圣杯」AR眼镜，烧了137亿美元Apr 24, 2023 pm 11:04 PM

现在，谁还提元宇宙？2022年，Meta实验室RealityLabs在AR/VR的研发投入已经亏损了137亿美元。比去年（近102亿美元）还要多，简直让人瞠目结舌。也看，生成式AI大爆发，一波ChatGPT狂热潮，让Meta内部重心也有所倾斜。就在前段时间，在公司的季度财报电话会议上，提及「元宇宙」的次数只有7次，而「AI」有23次。做着几乎赔本的买卖，元宇宙就这样凉凉了吗？NoNoNo！Meta近日公布了未来四年VR/AR硬件技术路线图。2025年，发布首款带有显示屏的智能眼镜，以及控制眼镜的

抢先发布新一代VR头显，Meta想给苹果一个“下马威”？Jun 03, 2023 am 09:01 AM

在游戏、元宇宙等领域的推动下，XR（扩展现实，VR/AR/MR统称）赛道的热度明显获得提升，头显设备也成了“香饽饽”，获得了许多企业的青睐，其中就有Meta（META.US）和苹果（AAPL.US）、字节跳动、索尼等巨头。而这些巨头之间的“故事”还引来了大批“吃瓜群众”。打压竞争对手？Meta赶在苹果之前发布最新版头显众所周知，在全球的大型科技企业中，Meta对元宇宙是最上心的，不惜投入巨资早早进行了布局，而VR头显被视为是元宇宙的入口之一，因此该公司在这一领域也下了大功夫，是VR头显领域的龙头

AI 领域再添一员"猛将"，Meta 发布全新大型语言模型LLaMAApr 25, 2023 pm 12:52 PM

ChatGTP走红以来，围绕ChatGTP开发出来的AI应用层出不穷；让人们感受到了人工智能的强大！近日，Facebook母公司Meta发布了人工智能大型语言模型（LargeLanguageModelMetaAI）简称LLaMA。扎克伯格在社交媒体上称：”由FAIR团队研发的LLaMA模型是目前世界上水平最高的大型语言模型，目标是帮助研究人员推进他们在人工智能领域的工作！“。与其他大型模型一样，MetaLLaMA的工作原理是将一系列单词作为“输入”并预测下一个单词以递归生成文本。据介

See all articles