「模仿学习」只会套话？解释微调+130亿参数Orca：推理能力打平ChatGPT-人工智能-PHP中文网

首页

科技周边

人工智能

「模仿学习」只会套话？解释微调+130亿参数Orca：推理能力打平ChatGPT

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 17, 2023 am 11:39 AM

ai学习

自ChatGPT API开放后，大量的研究都选择利用ChatGPT和GPT-4等大型基础模型（LFM）的输出作为训练数据，然后通过模仿学习来提升小模型的能力。

但由于模仿信号流于表面、训练数据量不够大、缺乏严格的评估标准等问题，小模型的实际性能被高估了。

从效果上来看，小模型更倾向于模仿LFM的输出风格，而非推理过程。

「模仿学习」只会套话？解释微调+130亿参数Orca：推理能力打平ChatGPT

论文链接：https://arxiv.org/pdf/2306.02707.pdf

为了应对这些挑战，微软最近发布了一篇长达51页论文，提出了一个130亿参数的Orca模型，可以学习模仿LFMs的推理过程。

研究人员为大模型设计了丰富的训练信号，使得Orca可以从GPT-4中学习到解释痕迹、逐步的思维过程、复杂的指令等，并由ChatGPT的教师协助指导；并通过采样和选择来挖掘大规模且多样化的模仿数据，可以进一步提升渐进式学习效果。

在实验评估中，Orca超过了其他SOTA指令微调模型，在BigBench Hard（BBH）等复杂的零样本推理基准中实现了比Vicuna-13B翻倍的性能表现，在AGIEval上也实现了42%的性能提升。

「模仿学习」只会套话？解释微调+130亿参数Orca：推理能力打平ChatGPT

此外，Orca在BBH基准上还实现了与ChatGPT持平的性能，在SAT、LSAT、GRE和GMAT等专业和学术考试中只有4%的性能差距，并且都是在没有思维链的零样本设置下测量的。

「模仿学习」只会套话？解释微调+130亿参数Orca：推理能力打平ChatGPT

研究结果表明，让模型从分步解释中学习，无论这些解释是由人类还是更高级的人工智能模型产生的，都是提高模型能力和技能的一个有前景的研究方向。

解释微调（Explanation Tuning）

数据集构造

在训练数据中，每个实例都包括三部分，即系统消息、用户查询和LFM回复。

系统消息（system message）放置在提示中开头的部分，提供给LFM基本的上下文、引导以及其他相关的细节。

系统消息可以用来改变回复的长度、描述AI助手的性格、建立可接受和不可接受的LFM行为，并确定AI模型的回复结构。

研究人员手工制作了16条系统信息来设计LFM不同类型的回复，可以生成创造性的内容以及解决信息查询问题，最重要的是能够根据提示生成解释和逐步推理的答案。

「模仿学习」只会套话？解释微调+130亿参数Orca：推理能力打平ChatGPT

用户查询（user query）定义了希望LFM执行的实际任务。

为了获得大量的、多样化的用户查询，研究人员利用FLAN-v2集合，从中抽取500万个用户查询（FLAN-5M），并收集ChatGPT的回复；然后进一步从500万条指令中抽出100万条指令（FLAN-1M），收集GPT-4的回复。

FLAN-v2集合由五个子集合组成，即CoT、NiV2、T0、Flan 2021和Dialogue，其中每个子集包含多个任务，每个任务都是一个查询的集合。

每个子集合都与多个学术数据集相关，并且每个数据集都有一个或多个任务，主要关注零样本和少样本的查询。

在这项工作中，研究人员只取样训练Orca的零样本查询，并且没有从Dialogue子集中取样，因为这些查询往往缺乏背景，无法从ChatGPT中获得有用的回复。

让ChatGPT扮演Teaching Assistant

首先在FLAN-5M数据上训练Orca（ChatGPT增强），随后在FLAN-1M上进行第二阶段的训练（GPT-4增强）。

将ChatGPT作为中间的教师助手主要有两个原因：

1. 能力差距

虽然GPT-4的参数量没有公开，但130亿参数的Orca肯定比GPT-4要小很多倍，而ChatGPT和Orca之间的能力差距更小，更适合作为中间教师，并且这种方式已经被证明可以提高更小的学生模型在知识蒸馏中的模仿学习性能。

这种方式也可以看作是一种渐进式学习或课程学习，学生首先从较容易的例子中学习，然后再学习较难的例子，假定了较长的回复会比较短的回复更难模仿，可以从更大规模的教师模型中改进推理和逐步解释能力。

2. 成本和时间

从Azure OpenAI API进行大规模数据收集时会受到一些限制，包括每分钟请求的速率限制，防止流量过大；由于服务延迟问题，每分钟可用的token数量有限；提示长度和token补全的金钱成本。

「模仿学习」只会套话？解释微调+130亿参数Orca：推理能力打平ChatGPT

相比之下，ChatGPT API比GPT-4终端更快、更便宜，所以从ChatGPT上收集了比GPT-4多5倍的数据。

「模仿学习」只会套话？解释微调+130亿参数Orca：推理能力打平ChatGPT

从ChatGPT和GPT-4对应于不同系统消息的回复长度分布中可以观察到，GPT-4的回复平均比ChatGPT长1.5倍，使得Orca能够逐步从教师解释的复杂性中学习，并通过消融实验证明了教师帮助的影响。

训练

在分词阶段，研究人员利用LLaMA的字节对编码（BPE）分词器来处理输入的样本，其中多位数字会被分割成多个单数字，并回落到字节来分解未知的UTF-8字符。

为了处理可变长度的序列，在LLaMA分词器的词汇表中引入了一个填充词[[PAD]]，最终的词汇表包含32001个token

为了优化训练过程并有效利用可用的计算资源，研究人员利用了packing技术，将多个输入实例串联成一个序列后再训练模型。

在packing的过程中，串联序列的总长度不超过max_len=2048 tokens，对输入的样本进行随机打乱后将分成几组，每组串联序列的长度最多为max_len

考虑到训练数据中增强指令的长度分布，每个序列的打包系数为2.7

为了训练Orca，研究人员选择只计算教师模型生成token的损失，也就是说学习生成以系统信息和任务指令为条件的回复，可以确保模型专注于从最相关和最有信息的token中学习，提高了训练过程的整体效率和效果。

最后在20个装有80GB内存的NVIDIA A100 GPU上训练Orca，先在FLAN-5M（ChatGPT增强）上训练4个epoch，花了160个小时；然后在FLAN-1M（GPT-4增强）上继续训练4个epoch

由于流量限制、终端负载以及回复的长度问题，从GPT-3.5-turbo（ChatGPT）和GPT-4的多个终端收集数据分别用了2周和3周的时间。

实验部分

研究人员主要验证了Orca在推理上的能力。

「模仿学习」只会套话？解释微调+130亿参数Orca：推理能力打平ChatGPT

在AGIEval的实验中可以看到，Orca的表现与Text-da-Vinci-003相当，并实现了ChatGPT 88%的性能表现，不过明显落后于GPT-4

对于分析和推理任务，Vicuna的表现明显更差，只保留了62%的ChatGPT质量，表明这种开源语言模型的推理能力很差。

虽然Orca与Text-da-Vinci-003的表现相当，但仍然比ChatGPT低5分，Orca在与数学有关的任务（在SAT、GRE、GMAT中）上与ChatGPT表现出较大的差距。

与Vicuna相比，Orca显示出更强的性能，在每个类别上都超过了Vicuna，平均有42%的相对提高。

GPT-4的性能远远超过了所有其他模型，但在这个基准中仍有很大的提升空间，目前所有模型的性能都明显低于人类的得分。

「模仿学习」只会套话？解释微调+130亿参数Orca：推理能力打平ChatGPT

Orca的性能根据系统信息的类型有很大的不同，对于训练的模型来说，空的系统消息往往效果很好。

「模仿学习」只会套话？解释微调+130亿参数Orca：推理能力打平ChatGPT

Orca在不同任务的325个样本中超越了ChatGPT（Orca-beats-ChatGPT例子），其中大部分来自LogiQA（29%），而其他LSAT任务和SAT-英语任务各占不到10%

在Big-Bench Hard Results数据集上的推理评估结果显示，Orca在所有任务中的综合表现上略好于ChatGPT，但明显落后于GPT-4；比Vicuna性能高出113%

「模仿学习」只会套话？解释微调+130亿参数Orca：推理能力打平ChatGPT

以上是「模仿学习」只会套话？解释微调+130亿参数Orca：推理能力打平ChatGPT的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

脱衣舞用法教程指南文章May 13, 2025 am 10:43 AM

有关使用distressai创建色情图片/视频的教程：1。打开相应的工具Web链接； 2。单击工具按钮； 3。根据页面提示上传所需的生产内容； 4。保存并享受结果。

[带AI的吉卜力风格图像]介绍如何使用Chatgpt和版权创建免费图像May 13, 2025 am 01:57 AM

OpenAI发布的最新模型GPT-4o，不仅能生成文本，还具备图像生成功能，引发广泛关注。其中最受瞩目的功能便是“吉卜力风格插画”的生成。只需将照片上传至ChatGPT，并给出简单的指令，即可生成宛如吉卜力工作室作品般梦幻的图像。本文将详细解读实际操作流程、效果感受，以及需要注意的错误和版权问题。 OpenAI发布的最新模型“o3”详情请点击此处⬇️ OpenAI o3(ChatGPT o3)详解：特性、定价体系及o4-mini介绍吉卜力风格文章的英文版请点击此处⬇️ 利用ChatGPT创作吉

解释在地方政府中使用和实施CANTGPT的示例！还介绍了禁止的地方政府May 13, 2025 am 01:53 AM

作为一种新的交流方法，在地方政府中使用和引入Chatgpt引起了人们的关注。尽管这种趋势在广泛的领域正在发展，但一些地方政府拒绝使用Chatgpt。在本文中，我们将介绍地方政府中ChatGPT实施的示例。我们将通过各种改革实例，包括支持文件创建和与公民对话，从而探索如何通过各种改革实例来实现地方政府服务的质量和效率提高。不仅旨在减少员工工作量并改善公民的便利性的地方政府官员，而且都对高级用例感兴趣。

chatgpt中的福卡式风格提示是什么？示例句子的详尽解释！May 13, 2025 am 01:52 AM

您是否听说过一个名为“福卡斯提示系统”的框架？诸如ChatGpt之类的语言模型非常出色，但是适当的提示对于发挥其潜力至关重要。福卡（Fukatsu）提示是旨在提高输出准确性的最受欢迎的提示技术之一。本文解释了福卡式风格提示的原理和特征，包括特定的用法方法和示例。此外，我们还引入了其他众所周知的及时模板和有用的技术来及时设计，因此，根据这些设计，我们将介绍C。

什么是chatgpt搜索？解释主要功能，用法和费用结构！May 13, 2025 am 01:51 AM

CHATGPT搜索：使用创新的AI搜索引擎有效获取最新信息！在本文中，我们将彻底解释OpenAI提供的新的ChatGpt功能“ ChatGpt搜索”。让我们仔细研究一下功能，用法以及该工具如何根据实时网络信息和直观的易用性来帮助您提高信息收集效率。 chatgpt搜索提供了一种对话互动搜索体验，该体验在舒适，隐藏的环境中回答用户问题，以隐藏广告

易于理解的解释如何在Chatgpt和提示中创建构图！May 13, 2025 am 01:50 AM

信息爆炸的现代社会，创作出令人信服的文章并非易事。如何在有限的时间和精力内，发挥创造力，撰写出吸引读者的文章，需要高超的技巧和丰富的经验。这时，作为革命性的写作辅助工具，ChatGPT 备受瞩目。ChatGPT 利用庞大的数据训练出的语言生成模型，能够生成自然流畅、精炼的文章。本文将介绍如何有效利用 ChatGPT，高效创作高质量文章的技巧。我们将逐步讲解使用 ChatGPT 的写作流程，并结合具体案例，详细阐述其优缺点、适用场景以及安全使用注意事项。ChatGPT 将成为作家克服各种障碍，

如何使用chatgpt创建图！还解释了插图的加载和插件May 13, 2025 am 01:49 AM

使用AI创建图表的有效指南视觉材料对于有效传达信息至关重要，但是创建它需要大量时间和精力。但是，由于AI技术（例如Chatgpt和dall-e 3）的兴起，图表创建过程正在发生巨大变化。本文使用这些尖端工具提供了有关有效而有吸引力的图创建方法的详细说明。它涵盖了从想法到完成的所有内容，并包含大量信息，可用于创建图表，从可以使用的特定步骤，提示，插件和API以及如何使用图像一代AI“ dall-e 3.”）

易于理解的解释Chatgpt加上定价结构和付款方式！May 13, 2025 am 01:48 AM

解锁ChatGPT Plus：费用、支付方式及升级指南全球瞩目的顶尖生成式AI，ChatGPT已广泛应用于日常生活和商业领域。虽然ChatGPT基本免费，但付费版ChatGPT Plus提供多种增值服务，例如插件、图像识别等，显着提升工作效率。本文将详细解读ChatGPT Plus的收费标准、支付方式及升级流程。 OpenAI最新图像生成技术“GPT-4o图像生成”详情请点击： GPT-4o图像生成详解：使用方法、提示词示例、商业应用及与其他AI的差异目录 ChatGPT Plus费用 Ch

See all articles