ChatGPT专题之一GPT家族进化史-人工智能-PHP中文网

首页

科技周边

人工智能

ChatGPT专题之一GPT家族进化史

PHPz

May 09, 2023 pm 07:19 PM

chatgptgpt神经网络

时间线

2018 年 6 月

OpenAI发布GPT-1模型，1.1亿参数。

2018 年 11 月

OpenAI发布GPT-2模型，15亿参数，但由于担心滥用，不向公众开放模型的全部代码及数据。

2019 年 2 月

OpenAI开放了GPT-2模型的部分代码和数据，但仍然限制了访问。

2019 年 6 月 10 日

OpenAI发布GPT-3模型，1750亿参数，并向部分合作伙伴提供了访问权限。

2019 年 9 月

OpenAI开放了GPT-2的全部代码和数据，并发布了更大版本。

2020 年 5 月

OpenAI宣布推出GPT-3模型的beta版本，该模型拥有1750亿个参数，是迄今为止最大的自然语言处理模型。

2022 年 3 月

OpenAI发布InstructGPT，用到 Instruction Tuning

2022 年 11 月 30 日

OpenAI通过GPT-3.5系列大型语言模型微调而成的，全新对话式AI模型ChatGPT正式发布。

2022 年 12 月 15 日

ChatGPT 第一次更新，提升了总体性能，增加了保存和查看历史对话记录的新功能。

2023 年 1 月 9 日

ChatGPT 第二次更新，改善了回答的真实性，增加了“停止生成”新功能。

2023 年 1 月 21 日

OpenAI发布限于部分用户使用的付费版ChatGPT Professional。

2023 年 1 月 30 日

ChatGPT第三次更新，在此提升了答案真实性的同时，还提升了数学能力。

2023 年 2 月 2 日

OpenAI正式推出ChatGPT收费版订阅服务，新版本对比免费版响应速度更快，运行更为稳定。

2023 年 3 月 15 日

OpenAI震撼推出了大型多模态模型GPT-4，不仅能够阅读文字，还能识别图像，并生成文本结果，现已接入ChatGPT 向Plus用户开放。

GPT-1：基于单向Transformer的预训练模型

在 GPT 出现之前，NLP 模型主要是基于针对特定任务的大量标注数据进行训练。这会导致一些限制：

大规模高质量的标注数据不易获得；

模型仅限于所接受的训练，泛化能力不足；

无法执行开箱即用的任务，限制了模型的落地应用。

为了克服这些问题，OpenAI走上了预训练大模型的道路。GPT-1是由OpenAI于2018年发布的第一个预训练模型，它采用了单向Transformer模型，并使用了超过40GB的文本数据进行训练。GPT-1的关键特征是：生成式预训练（无监督）+判别式任务精调（有监督）。先用无监督学习的预训练，在 8 个 GPU 上花费了1 个月的时间，从大量未标注数据中增强AI系统的语言能力，获得大量知识，然后进行有监督的微调，与大型数据集集成来提高系统在NLP任务中的性能。GPT-1在文本生成和理解任务上表现出了很好的性能，成为了当时最先进的自然语言处理模型之一。

GPT-2：多任务预训练模型

由于单任务模型缺乏泛化性，并且多任务学习需要大量有效训练对，GPT-2在GPT-1的基础上进行了扩展和优化，去掉了有监督学习，只保留了无监督学习。GPT-2采用了更大的文本数据和更强大的计算资源进行训练，参数规模达到了1.5亿，远超过GPT-1的1.1亿参数。除了使用更大的数据集和更大的模型去学习，GPT-2还提出了一个新的更难的任务:零样本学习（zero-shot），即将预训练好的模型直接应用于诸多的下游任务。GPT-2在多项自然语言处理任务上表现出了卓越的性能，包括文本生成、文本分类、语言理解等。

ChatGPT专题之一GPT家族进化史

GPT-3：创造出新的自然语言生成和理解能力

GPT-3是GPT系列模型中最新的一款模型，采用了更大的参数规模和更丰富的训练数据。GPT-3的参数规模达到了1.75万亿，是GPT-2的100倍以上。GPT-3在自然语言生成、对话生成和其他语言处理任务上表现出了惊人的能力，在一些任务上甚至能够创造出新的语言表达形式。

GPT-3提出了一个非常重要的概念：情境学习（In-context learning），具体内容会在下次推文中进行解释。

InstructGPT ＆ ChatGPT

InstructGPT/ChatGPT的训练分成3步，每一步需要的数据也有些许差异，下面我们分别介绍它们。

从一个预训练的语言模型开始，应用以下三个步骤。

ChatGPT专题之一GPT家族进化史

步骤1：监督微调SFT：收集演示数据，训练一个受监督的策略。我们的标签器提供了输入提示分布上所需行为的演示。然后，我们使用监督学习在这些数据上对预训练的GPT-3模型进行微调。

步骤2：奖励模型Reward Model训练。收集比较数据，训练一个奖励模型。我们收集了一个模型输出之间比较的数据集，其中标签者表示他们更喜欢给定输入的哪个输出。然后我们训练一个奖励模型来预测人类偏好的输出。

步骤3：通过奖励模型上的近端策略优化(PPO)强化学习：使用RM的输出作为标量奖励。我们使用PPO算法对监督策略进行微调，以优化该奖励。

步骤2和步骤3可以连续迭代；在当前最优策略上收集更多的比较数据，这些数据用于训练一个新的RM，然后是一个新的策略。

前两步的prompts，来自于OpenAI的在线API上的用户使用数据，以及雇佣的标注者手写的。最后一步则全都是从API数据中采样的，InstructGPT的具体数据：

1. SFT数据集

SFT数据集是用来训练第1步有监督的模型，即使用采集的新数据，按照GPT-3的训练方式对GPT-3进行微调。因为GPT-3是一个基于提示学习的生成模型，因此SFT数据集也是由提示-答复对组成的样本。SFT数据一部分来自使用OpenAI的PlayGround的用户，另一部分来自OpenAI雇佣的40名标注工（labeler）。并且他们对labeler进行了培训。在这个数据集中，标注工的工作是根据内容自己编写指示。

2. RM数据集

RM数据集用来训练第2步的奖励模型，我们也需要为InstructGPT/ChatGPT的训练设置一个奖励目标。这个奖励目标不必可导，但是一定要尽可能全面且真实的对齐我们需要模型生成的内容。很自然的，我们可以通过人工标注的方式来提供这个奖励，通过人工对可以给那些涉及偏见的生成内容更低的分从而鼓励模型不去生成这些人类不喜欢的内容。InstructGPT/ChatGPT的做法是先让模型生成一批候选文本，让后通过labeler根据生成数据的质量对这些生成内容进行排序。

3. PPO数据集

InstructGPT的PPO数据没有进行标注，它均来自GPT-3的API的用户。既又不同用户提供的不同种类的生成任务，其中占比最高的包括生成任务（45.6%），QA（12.4%），头脑风暴（11.2%），对话（8.4%）等。

附录：

ChatGPT 的各项能力来源：

ChatGPT专题之一GPT家族进化史

GPT-3 到 ChatGPT 以及这之间的迭代版本的能力和训练方法：

ChatGPT专题之一GPT家族进化史

参考文献

1、拆解追溯 GPT-3.5 各项能力的起源：https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756

2、全网最全时间线梳理！从ChatGPT的前世今生，到如今AI领域的竞争格局https://www.bilibili.com/read/cv22541079

3、GPT-1论文：Improving Language Understanding by Generative Pre-Training, OpenAI.

4、GPT-2论文：Language Models are Unsupervised Multitask Learners, OpenAI.

5、GPT-3论文：Language Models are Few-Shot Learners, OpenAI.

6、Jason W, Maarten B, Vincent Y, et al. Finetuned Language Models Are Zero-Shot Learners[J]. arXiv preprint arXiv: 2109.01652, 2021.

7、OpenAI是如何“魔鬼调教” GPT的？——InstructGPT论文解读 https://cloud.tencent.com/developer/news/979148

以上是ChatGPT专题之一GPT家族进化史的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

脱衣舞用法教程指南文章May 13, 2025 am 10:43 AM

有关使用distressai创建色情图片/视频的教程：1。打开相应的工具Web链接； 2。单击工具按钮； 3。根据页面提示上传所需的生产内容； 4。保存并享受结果。

[带AI的吉卜力风格图像]介绍如何使用Chatgpt和版权创建免费图像May 13, 2025 am 01:57 AM

OpenAI发布的最新模型GPT-4o，不仅能生成文本，还具备图像生成功能，引发广泛关注。其中最受瞩目的功能便是“吉卜力风格插画”的生成。只需将照片上传至ChatGPT，并给出简单的指令，即可生成宛如吉卜力工作室作品般梦幻的图像。本文将详细解读实际操作流程、效果感受，以及需要注意的错误和版权问题。 OpenAI发布的最新模型“o3”详情请点击此处⬇️ OpenAI o3(ChatGPT o3)详解：特性、定价体系及o4-mini介绍吉卜力风格文章的英文版请点击此处⬇️ 利用ChatGPT创作吉

解释在地方政府中使用和实施CANTGPT的示例！还介绍了禁止的地方政府May 13, 2025 am 01:53 AM

作为一种新的交流方法，在地方政府中使用和引入Chatgpt引起了人们的关注。尽管这种趋势在广泛的领域正在发展，但一些地方政府拒绝使用Chatgpt。在本文中，我们将介绍地方政府中ChatGPT实施的示例。我们将通过各种改革实例，包括支持文件创建和与公民对话，从而探索如何通过各种改革实例来实现地方政府服务的质量和效率提高。不仅旨在减少员工工作量并改善公民的便利性的地方政府官员，而且都对高级用例感兴趣。

chatgpt中的福卡式风格提示是什么？示例句子的详尽解释！May 13, 2025 am 01:52 AM

您是否听说过一个名为“福卡斯提示系统”的框架？诸如ChatGpt之类的语言模型非常出色，但是适当的提示对于发挥其潜力至关重要。福卡（Fukatsu）提示是旨在提高输出准确性的最受欢迎的提示技术之一。本文解释了福卡式风格提示的原理和特征，包括特定的用法方法和示例。此外，我们还引入了其他众所周知的及时模板和有用的技术来及时设计，因此，根据这些设计，我们将介绍C。

什么是chatgpt搜索？解释主要功能，用法和费用结构！May 13, 2025 am 01:51 AM

CHATGPT搜索：使用创新的AI搜索引擎有效获取最新信息！在本文中，我们将彻底解释OpenAI提供的新的ChatGpt功能“ ChatGpt搜索”。让我们仔细研究一下功能，用法以及该工具如何根据实时网络信息和直观的易用性来帮助您提高信息收集效率。 chatgpt搜索提供了一种对话互动搜索体验，该体验在舒适，隐藏的环境中回答用户问题，以隐藏广告

易于理解的解释如何在Chatgpt和提示中创建构图！May 13, 2025 am 01:50 AM

信息爆炸的现代社会，创作出令人信服的文章并非易事。如何在有限的时间和精力内，发挥创造力，撰写出吸引读者的文章，需要高超的技巧和丰富的经验。这时，作为革命性的写作辅助工具，ChatGPT 备受瞩目。ChatGPT 利用庞大的数据训练出的语言生成模型，能够生成自然流畅、精炼的文章。本文将介绍如何有效利用 ChatGPT，高效创作高质量文章的技巧。我们将逐步讲解使用 ChatGPT 的写作流程，并结合具体案例，详细阐述其优缺点、适用场景以及安全使用注意事项。ChatGPT 将成为作家克服各种障碍，

如何使用chatgpt创建图！还解释了插图的加载和插件May 13, 2025 am 01:49 AM

使用AI创建图表的有效指南视觉材料对于有效传达信息至关重要，但是创建它需要大量时间和精力。但是，由于AI技术（例如Chatgpt和dall-e 3）的兴起，图表创建过程正在发生巨大变化。本文使用这些尖端工具提供了有关有效而有吸引力的图创建方法的详细说明。它涵盖了从想法到完成的所有内容，并包含大量信息，可用于创建图表，从可以使用的特定步骤，提示，插件和API以及如何使用图像一代AI“ dall-e 3.”）

易于理解的解释Chatgpt加上定价结构和付款方式！May 13, 2025 am 01:48 AM

解锁ChatGPT Plus：费用、支付方式及升级指南全球瞩目的顶尖生成式AI，ChatGPT已广泛应用于日常生活和商业领域。虽然ChatGPT基本免费，但付费版ChatGPT Plus提供多种增值服务，例如插件、图像识别等，显着提升工作效率。本文将详细解读ChatGPT Plus的收费标准、支付方式及升级流程。 OpenAI最新图像生成技术“GPT-4o图像生成”详情请点击： GPT-4o图像生成详解：使用方法、提示词示例、商业应用及与其他AI的差异目录 ChatGPT Plus费用 Ch

See all articles