搜索
首页科技周边人工智能大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好

Angesichts der derzeit gängigen Praxis, bei der Feinabstimmung großer Modelle hauptsächlich auf von Menschen generierten Daten zu basieren, hat Google DeepMind nach einem effizienteren Weg gesucht, diese Abhängigkeit zu verringern.


Wie Sie und ich sehen können, verändern Large Language Models (LLMs) die Deep-Learning-Landschaft und demonstrieren überlegene Fähigkeiten bei der Generierung von Texten in menschlicher Qualität und der Lösung verschiedener Sprachaufgaben. Während die Branche die Leistung bei bestimmten Aufgaben durch die überwachte Feinabstimmung der von Menschen gesammelten Daten weiter verbessert hat, stößt die Beschaffung hochwertiger menschlicher Daten auf erhebliche Engpässe. Dies gilt insbesondere für Aufgaben, bei denen es um die Lösung komplexer Probleme geht, die erhebliche Ressourcen und Fachwissen erfordern.

Wie löst man das Problem? Durch Modelle generierte synthetische Daten sind eine vielversprechende Alternative, die skalierbar und kostengünstig sein kann, solange die Qualität der Daten erhalten bleibt.

Während LLM in der Lage ist, die generierten Daten selbst auszuwerten, untersucht Google DeepMind in diesem Artikel einen einfacheren Aufbau, der ein externes skalares Feedback-Signal als Qualitätsindikator für jede generierte Probe verwendet.

大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好

Papieradresse: https://arxiv.org/pdf/2312.06585.pdf

Um das Training anhand modellgenerierter Daten zu untersuchen, erwogen die Forscher ein einfaches, aber leistungsstarkes Sprachmodell zum Selbsttraining Die Methode erfordert nur zwei Funktionen: Die eine besteht darin, Stichproben basierend auf dem Modell zu generieren, und die andere darin, den Bewertungsmechanismus zur Bewertung dieser Stichproben zu verwenden.

Um Klarheit und Konsistenz zu gewährleisten, haben die Forscher eine verstärkende Selbsttrainingsmethode ReST^?? übernommen und bewiesen, dass diese Methode Erwartungsmaximierung (EM) für verstärkendes Lernen nutzen kann. Insbesondere wechselt ReST^?? zwischen Erwartungs- und Maximierungsschritten.

  1. Generierung (E-Schritt): Das Sprachmodell generiert mehrere Ausgabebeispiele für jeden Eingabekontext und filtert diese Beispiele dann mithilfe binärer Belohnungen, um einen Trainingsdatensatz zu sammeln.
  2. Verbesserung (M-Schritt): Das ursprüngliche Sprachmodell wird überwacht, anhand des Trainingsdatensatzes aus dem vorherigen E-Schritt verfeinert und dann im nächsten E-Schritt verwendet.

Forscher bestätigten, dass ReST^?? und seine Varianten bei der Verbesserung von Sprachmodellen in verschiedenen Bereichen erfolgreich waren, darunter maschinelle Übersetzung, semantische Analyse, Präferenzausrichtung und grundlegendes Denken.

Darüber hinaus wurde in früheren Arbeiten hauptsächlich ReST^??für relativ kleine Modelle (bis zu 7 Milliarden Parameter) verwendet, mit begrenzter Skalierbarkeit für größere Modelle. Daher zielt dieser Artikel darauf ab, die Wirksamkeit und Skalierbarkeit von modellgenerierten synthetischen Daten im Vergleich zu von Menschen generierten Daten in zwei anspruchsvollen, aber weniger untersuchten Bereichen zu untersuchen: Mathematische Problemlösung auf Wettbewerbsniveau (MATH) und Codegenerierung (APPS).

Empirische Ergebnisse zeigen, dass bei der Verwendung von ReST^?? für PaLM 2-Modelle unterschiedlicher Größe erhebliche Leistungsverbesserungen bei mathematischen Argumentations- und Codegenerierungsaufgaben erzielt werden. Modelle, die auf vom Modell generierten synthetischen Daten verfeinert wurden, erzielten größere Leistungssteigerungen als Modelle, die auf von Menschen geschriebenen Daten trainiert wurden. Interessanterweise nimmt die Leistung ab einer bestimmten Anzahl von ReST^??-Iterationen ab, was auf die Möglichkeit einer Überanpassung bei einer kleinen Anzahl von Trainingsproblemen hinweist.

Darüber hinaus wurde das Modell mithilfe von ReST verfeinert^?? Die Pass@k-Metrik und die Mehrheitsabstimmungsleistung wurden verbessert. Diese fein abgestimmten Modelle zeigen auch Leistungsverbesserungen bei relevanten, aber ausgebliebenen Benchmarks, darunter Mathematik (GSM8K und ungarische HS-Finale), Codierung (HumanEval) und Big-Bench-Schweraufgaben.

Zusammenfassend zeigen die Ergebnisse dieser Arbeit, dass Selbsttraining mit Feedback eine vielversprechende Methode ist, um die Abhängigkeit von menschlichen Daten zu reduzieren.

Erwartetes Maximum (EM) für das verstärkende Selbsttraining

Erstens basiert diese Studie auf der früheren Forschung von Dayan und Hinton und verwendet ein Sprachmodell zur Beschreibung des EM-basierten Rahmens für verstärkendes Lernen . Insbesondere definierten sie zunächst eine binäre optimale Variable O mit ?(?= 1|?,?)∝?(?(?,?)); dann erreichten sie für die nicht abnehmende Funktion ?: ℝ → ℝ+ die Maximierung Beobachtung?= 1 (Erzielung einer hohen Belohnung), wird die folgende Formel erhalten:

大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好

然而,求解上式中的序列 ? 的和很棘手。因而本文考虑相对于参数 ? 和变分分布 ?( ?|?) 最大化其 ELBO ?( ??, ?),而不是最大化 log ?(? = 1; ?)。具体来说:

大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好

公式(2)中的 EM 算法在 E-step(Expectation) 和 M-step(Maximization)之间交替进行。

ReST^??:受 EM 框架的启发,接下来论文讨论了 Gulcehre 等人提出的 ReST 方法的简化版本。为了清楚起见,本文将这种方法称为 ReST^??,它将 RL pipeline 中的数据收集 (E-step) 和策略优化 (M-step) 进行解耦。如算法 1 所示:

大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好

生成(E-step):在此步骤中,该研究通过从当前策略 ?? 大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好中采样输出序列来生成数据集大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好。在这里,输入是从原始数据集大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好中重新采样的。然后使用二元奖励函数 ?(?, ?) 对大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好中的输出序列进行评分。

改进(M-step):在第 ?步迭代中,该研究使用 E-step 中的新数据集大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好来微调策略 ??。不同于 Gulcehre 的研究,他们微调基本预训练语言模型,以最大限度地减少特定于任务的过度拟合并最大限度地减少与基本模型的偏差。为了进行微调,该研究最小化奖励加权负对数似然损失大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好。一旦策略得到改进,就可以再次创建质量更好样本的新数据集。

实验和分析

本文进行实验的主要目标是回答以下问题:

  1. 与人类生成的数据进行微调相比,ReST^??的效果如何? 
  2. 需要多少次迭代才能获得最佳性能?ReST^??多长时间会导致训练集过度拟合? 
  3. ReST^??如何影响 pass@k 和多数投票表现? 
  4. 如果用户在特定任务上使用模型生成的数据进行微调,是否会迁移到其他任务上?在广泛的任务中评估本文的微调模型时,与基本模型相比,性能是否会下降?
  5. 大约需要多少输入数据才能从 ReST^?? 获得大部分性能提升?ReST^??的一次迭代是否足够?

该研究使用 PaLM 2 模型和 Google Cloud 上的公共 API 进行实验,包括 PaLM 2-S (Bison)、PaLM 2-S* (Codey) 和 PaLM 2-L (Unicorn)。训练数据集采用 MATH 数据集和 APPS 数据集。

图 2 和图 3 分别显示了 ReST^??在 MATH 和 APPS 数据集上训练的性能。可以得出 MATH 受益于  ReST^?? 的多次迭代,无论是在 MATH 测试集上的性能还是迁移到 GSM8K 方面。另一方面可以看到 APPS 的大部分收益来自第一次迭代,而执行更多次迭代会导致 APPS 和 HumanEval 的性能下降。

大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好

大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好

训练和测试性能的差距。图 4 显示,虽然训练集性能随着 ReST^??迭代次数线性增加,但测试集性能却没有。对于 MATH,第一次迭代后测试性能改进很小,而对于 APPS,在第二次迭代中观察到性能回归。该研究猜测性能的回归可能是由于过度拟合造成的。由于 APPS 数据集的大小约为 MATH 数据集的三分之一,因此它更容易受到此问题的影响。

大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好

图 5 显示了 Palm-2-L 模型在 pass@K 指标上的性能。结果显示,微调后获得的 ReST^?? 模型对于所有 K 值都更强,其中性能差距通常在 K=1 时最大。大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好

以上是大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
烹饪创新:人工智能如何改变食品服务烹饪创新:人工智能如何改变食品服务Apr 12, 2025 pm 12:09 PM

AI增强食物准备 在新生的使用中,AI系统越来越多地用于食品制备中。 AI驱动的机器人在厨房中用于自动化食物准备任务,例如翻转汉堡,制作披萨或组装SA

Python名称空间和可变范围的综合指南Python名称空间和可变范围的综合指南Apr 12, 2025 pm 12:00 PM

介绍 了解Python功能中变量的名称空间,范围和行为对于有效编写和避免运行时错误或异常至关重要。在本文中,我们将研究各种ASP

视觉语言模型(VLMS)的综合指南视觉语言模型(VLMS)的综合指南Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

联发科技与kompanio Ultra和Dimenty 9400增强优质阵容联发科技与kompanio Ultra和Dimenty 9400增强优质阵容Apr 12, 2025 am 11:52 AM

继续使用产品节奏,本月,Mediatek发表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。这些产品填补了Mediatek业务中更传统的部分,其中包括智能手机的芯片

本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势本周在AI:沃尔玛在时尚趋势之前设定了时尚趋势Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:现在是星期一早上。作为AI驱动的招聘人员,您更聪明,而不是更努力。您在手机上登录公司的仪表板。它告诉您三个关键角色已被采购,审查和计划的FO

生成的AI遇到心理摩托车生成的AI遇到心理摩托车Apr 12, 2025 am 11:50 AM

我猜你一定是。 我们似乎都知道,心理障碍包括各种chat不休,这些chat不休,这些chat不休,混合了各种心理术语,并且常常是难以理解的或完全荒谬的。您需要做的一切才能喷出fo

原型:科学家将纸变成塑料原型:科学家将纸变成塑料Apr 12, 2025 am 11:49 AM

根据本周发表的一项新研究,只有在2022年制造的塑料中,只有9.5%的塑料是由回收材料制成的。同时,塑料在垃圾填埋场和生态系统中继续堆积。 但是有帮助。一支恩金团队

AI分析师的崛起:为什么这可能是AI革命中最重要的工作AI分析师的崛起:为什么这可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近与领先的企业分析平台Alteryx首席执行官安迪·麦克米伦(Andy Macmillan)的对话强调了这一在AI革命中的关键但不足的作用。正如Macmillan所解释的那样,原始业务数据与AI-Ready Informat之间的差距

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。