首页 >科技周边 >人工智能 >了解chatgpt的演变:第2部分– GPT-2和GPT-3

了解chatgpt的演变:第2部分– GPT-2和GPT-3

PHPz
PHPz原创
2025-02-25 21:02:11704浏览

>本文探讨了OpenAI GPT模型的演变,重点是GPT-2和GPT-3。 这些模型代表了大型语言模型(LLM)培训方法的重大转变,从传统的“预训练以及微调”范式转向“仅预训练”方法。

Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3

这一转变是由GPT-1的零射击功能的观察到的 - 执行未经专门培训的任务的能力。 为了更好地理解这一点,让我们深入研究关键概念:

第1部分:范式移位及其启用器

微调的局限性,尤其是对于各种看不见的NLP任务,促使朝着任务不合时宜的学习迈进。小型数据集上的大型模型风险过度拟合和泛化。 在没有大规模监督数据集的情况下学习语言任务的人类能力进一步支持了这一转变。

三个关键元素促进了此范式偏移:

  • 任务 - 静态学习(元学习):这种方法在训练过程中为模型提供了广泛的技能,从而使其能够迅速适应新任务而无需进一步的微调。 模型 - 敏捷的元学习(MAML)例证了这个概念。

Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3

  • 量表假设:该假设表明,在较大数据集上训练的较大模型表现出紧急的功能 - 随着模型大小和数据的增加而出乎意料地出现的能力。 GPT-2和GPT-3作为测试的实验。

    >

  • 在文章中学习:该技术涉及在推理时间为模型提供自然语言指令和一些示例(演示),从而使其可以从这些示例中学习任务而无需梯度更新。 零射击,一声和少数学习代表不同级别的示例提供。

    >

Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3第2部分:gpt-2 - 垫脚石

>

GPT-2建立在GPT-1的架构上,具有多种改进:修改后的分层放置,残留层的重量缩放,扩展的词汇(50257)(50257),增加上下文大小(1024个令牌)和较大的批量尺寸(512)。 四个模型接受了参数计数的训练,范围为1.17亿至1.5B。 培训数据集(WebText)约为4500万链接。虽然GPT-2显示出令人鼓舞的结果,尤其是在语言建模中,但它落后于最新的模型,例如阅读理解和翻译等任务。

>

Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3

第3部分:GPT-3 - 飞跃向前

> gpt-3保留了与GPT-2相似的结构,主要在使用交替致密和稀疏的注意力模式方面有所不同。训练了八个型号,范围从12500万到175b参数。 培训数据明显更大,更多样化,基于质量的仔细策划和数据集的加权。

GPT-3评估中的关键发现

表明了规模假设和内在学习的有效性。 性能通过增加的计算平稳缩放,较大的模型在零射击,一击和很少的学习设置中表现出卓越的性能。

Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3

第4部分:结论

GPT-2和GPT-3代表了LLM开发方面的重大进步,为未来研究的新兴能力,培训范式,数据清洁和道德考虑铺平了道路。 他们的成功凸显了任务不合时宜的学习的潜力以及扩大模型大小和培训数据的力量。 这项研究继续影响后续模型的发展,例如gpt-3.5和指令。

有关本系列相关文章的信息,请参见:

第1部分:了解Chatgpt的演变:第1部分 - 对GPT-1的深入研究以及启发了它的原因。
    >
  • 第3部分:codex和consendgpt的洞察力

以上是了解chatgpt的演变:第2部分– GPT-2和GPT-3的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn