搜索
首页科技周边人工智能24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」

2 月底,Meta 开源了一个大模型系列 LLaMA(直译为羊驼),参数量从 70 亿到 650 亿不等,被称为 Meta 版 ChatGPT 的雏形。之后斯坦福大学、加州大学伯克利分校等机构纷纷在 LLaMA 的基础上进行「二创」,陆续推出了 Alpaca、Vicuna 等多个开源大模型,一时间「羊驼」成为 AI 圈顶流。开源社区构建的这些类 ChatGPT 模型迭代速度非常快,并且可定制性很强,被称为 ChatGPT 的开源平替。

然而,ChatGPT 之所以能在文本理解、生成、推理等方面展现出强大的能力,是因为 OpenAI 为 ChatGPT 等大模型使用了新的训练范式 ——RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习的方式依据人类反馈优化语言模型。使用 RLHF 方法,大型语言模型可与人类偏好保持对齐,遵循人类意图,最小化无益、失真或偏见的输出。但 RLHF 方法依赖于大量的人工标注和评估,通常需要数周时间、花费数千美元收集人类反馈,成本高昂。

现在,推出开源模型 Alpaca 的斯坦福大学又提出了一种模拟器 ——AlpacaFarm(直译为羊驼农场)。AlpacaFarm 能在 24 小时内仅用约 200 美元复制 RLHF 过程,让开源模型迅速改善人类评估结果,堪称 RLHF 的平替。

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」

AlpacaFarm 试图快速、低成本地开发从人类反馈中学习的方法。为了做到这一点,斯坦福的研究团队首先确定了研究 RLHF 方法的三个主要困难:人类偏好数据的高成本、缺乏可信赖的评估、缺乏参考实现。

为了解决这三个问题,AlpacaFarm 构建了模拟注释器、自动评估和 SOTA 方法的具体实现。目前,AlpacaFarm 项目代码已开源。

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」

  • GitHub 地址:https://github.com/tatsu-lab/alpaca_farm
  • 论文地址:https://tatsu-lab.github.io/alpaca_farm_paper.pdf

如下图所示,研究人员可以使用 AlpacaFarm 模拟器快速开发从人类反馈数据中学习的新方法,也能将已有 SOTA 方法迁移到实际的人类偏好数据上。

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」

模拟注释器

AlpacaFarm 基于 Alpaca 数据集的 52k 指令构建,其中 10k 指令用于微调基本的指令遵循模型,剩余的 42k 指令用于学习人类偏好和评估,并且大部分用于从模拟注释器中学习。该研究针对 RLHF 方法的注释成本、评估和验证实现三大挑战,逐一提出解决方法。

首先,为了减少注释成本,该研究为可访问 API 的 LLM(如 GPT-4、ChatGPT)创建了 prompt,使得 AlpacaFarm 能够模拟人类反馈,成本仅为 RLHF 方法收集数据的 1/45。该研究设计了一种随机的、有噪声的注释方案,使用 13 种不同的 prompt,从多个 LLM 提取出不同的人类偏好。这种注释方案旨在捕获人类反馈的不同方面,如质量判断、注释器之间的变化性和风格偏好。

该研究通过实验表明 AlpacaFarm 的模拟是准确的。当研究团队使用 AlpacaFarm 训练和开发方法时,这些方法与使用实际人类反馈训练和开发的相同方法排名非常一致。下图显示了由 AlpacaFarm 模拟工作流和人类反馈工作流产生的方法在排名上的高度相关性。这一特性至关重要,因为它说明从模拟中得出的实验结论在实际情况下也有可能成立。

除了方法层面的相关性,AlpacaFarm 模拟器还可以复制奖励模型过度优化等定性现象,但以此针对代理奖励(surrogate reward)的持续 RLHF 训练可能会损害模型性能。下图是在人类反馈 (左) 和 AlpacaFarm (右) 两种情况下的该现象,我们可以发现 AlpacaFarm 最初捕获了模型性能提升的正确定性行为,然后随着 RLHF 训练的持续,模型性能下降。

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」

评估

在评估方面,研究团队使用与 Alpaca 7B 的实时用户交互作为指导,并通过结合几个现有公共数据集来模拟指令分布,包括 self-instruct 数据集、anthropic helpfulness 数据集和 Open Assistant、Koala 和 Vicuna 的评估集。使用这些评估指令,该研究比较了 RLHF 模型与 Davinci003 模型的响应(response)情况,并使用一个分值度量 RLHF 模型响应更优的次数,并将这个分值称为胜率(win-rate)。如下图所示,在该研究的评估数据上进行的系统排名量化评估表明:系统排名和实时用户指令是高度相关的。这一结果说明,聚合现有的公开数据能实现与简单真实指令相近的性能。

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」

参考方法

对于第三个挑战 —— 缺少参考实现,研究团队实现并测试了几种流行的学习算法 (如 PPO、专家迭代、best-of-n 采样)。研究团队发现在其他领域有效的更简单方法并不比该研究最初的 SFT 模型更好,这表明在真实的指令遵循环境中测试这些算法是非常重要的。

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」

根据人工评估,PPO 算法被证明是最有效的,它将模型与 Davinci003 相比的胜率从 44% 提高到 55%,甚至超过了 ChatGPT。

这些结果表明,PPO 算法在为模型优化胜率方面是非常有效的。需要注意的是,这些结果是特定于该研究的评估数据和注释器得出的。虽然该研究的评估指令代表了实时用户指令,但它们可能无法涵盖更具有挑战性的问题,并且并不能确定有多少胜率的改进来源于利用风格偏好,而不是事实性或正确性。例如,该研究发现 PPO 模型产生的输出要长得多,并且通常为答案提供更详细的解释,如下图所示:

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」

24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」

总的来说,使用 AlpacaFarm 在模拟偏好上训练模型能够大幅改善模型的人类评估结果,而不需要让模型在人类偏好上重新训练。虽然这种迁移过程比较脆弱,并且在效果上仍略逊于在人类偏好数据上重新训练模型。但能在 24 小时内,仅用 200 美元就复制出 RLHF 的 pipeline,让模型迅速提升人类评估性能,AlpacaFarm 这个模拟器还是太香了,是开源社区为复刻 ChatGPT 等模型的强大功能做出的又一努力。

以上是24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
数据科学与计算机科学数据科学与计算机科学Apr 17, 2025 am 10:25 AM

引言 想象一下,您置身于一场科技大会,周围环绕着志同道合的同行、有影响力的技术专家和 IT 爱好者。人群中,您偶然听到两位专业人士在讨论他们的工作——一位数据科学家,对机器学习在疾病预测中的应用充满热情;另一位计算机科学家,在解释他为软件设计的新架构时也兴致勃勃。细细聆听,您会发现,尽管他们的目标都与技术相关,但他们所使用的策略和工具却大相径庭。这一发现激发了您的好奇心:数据科学和计算机科学究竟有何区别?让我们一起踏上这段旅程,深入了解这两个引人入胜的领域,它们的具体内容以及未来技术专家的发展方

扩散模型的不同组成部分是什么?扩散模型的不同组成部分是什么?Apr 17, 2025 am 10:23 AM

稳定的扩散:深入研究AI图像生成 稳定的扩散已彻底改变了AI图像的产生,从而从噪声或文本提示中创建了高质量的图像。这个强大的生成模型利用了几个关键组件W

SQL vs PythonSQL vs PythonApr 17, 2025 am 10:22 AM

引言 在快节奏的科技创业公司中,团队成员经常就最佳工具展开激烈的讨论。有人坚信SQL的结构化查询和强大的数据管理能力是数据库的核心,而另一些人则热衷于Python的多功能性和强大的库,认为它可以开启数据分析和自动化的新篇章。面对这种争论,您可能会疑惑:哪种工具才能真正提升您的数据能力?本文将深入比较SQL与Python,帮助您选择合适的工具来应对挑战,并在数据领域取得成功。 概述 了解SQL和Python之间的根本区别。 学习每种语言的主要用例。 探索SQL和Python的优势和局限性。 了解

及时工程中的数值推理链是什么?及时工程中的数值推理链是什么?Apr 17, 2025 am 10:08 AM

介绍 及时工程在人工智能和自然语言处理的快速发展的领域至关重要。 在其技术中,数值推理链(CONR)是增强AI的高效方法

Kaggle Grandmasters使用的顶级Python图书馆Kaggle Grandmasters使用的顶级Python图书馆Apr 17, 2025 am 10:03 AM

解锁Kaggle Grandmasters的秘密:顶级Python图书馆揭示了 Kaggle是数据科学竞赛的主要平台,拥有精选的精英表演者:Kaggle Grandmasters。 这些人一贯提供Innova

AI PC会改变您的工作场所的10种方法-Analytics VidhyaAI PC会改变您的工作场所的10种方法-Analytics VidhyaApr 17, 2025 am 09:59 AM

工作的未来:AI PC将如何彻底改变工作场所 人工智能(AI)集成到个人计算机(AI PC)中代表了工作场所技术的重大飞跃。 AI PC,定义为AI的融合

如何在Excel中冷冻窗格?如何在Excel中冷冻窗格?Apr 17, 2025 am 09:56 AM

Excel冻结窗格功能详解:高效处理大型数据集 Microsoft Excel是组织和分析数据的优秀工具之一,而“冻结窗格”功能更是其一大亮点。此功能允许您固定特定行或列,使其在浏览其余电子表格时保持可见,从而简化数据监控和比较。本文将深入探讨Excel冻结窗格功能的使用方法,并提供一些实用技巧和示例。 功能概述 Excel的冻结窗格功能可在滚动浏览大型数据集时,保持特定行或列可见,方便数据监控和比较。 提升导航效率,保持标题可见,简化大型电子表格中的数据比较。 提供通过“视图”选项卡和“冻

NEO4J与亚马逊海王星:数据工程中的图形数据库NEO4J与亚马逊海王星:数据工程中的图形数据库Apr 17, 2025 am 09:52 AM

导航互连数据的复杂性:Neo4J与亚马逊海王星 在当今数据丰富的世界中,有效管理复杂的互连信息至关重要。尽管传统数据库仍然相关,但他们经常与HI斗争

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器