本科生60行代码教你手搓GPT大模型，技术介绍堪比教程

本科生60行代码教你手搓GPT大模型，技术介绍堪比教程

Apr 11, 2023 pm 11:49 PM

gpt模型

当前，大型语言模型（LLM）被认为是人工智能突破的方向。人们正在尝试用它们做各种复杂的事情，比如问答、创作、数学推理以及编写代码等。近段时间 ChatGPT 持续的爆火是最好的例证。

然而，对于机器学习从业者来说，大模型的门槛很高：因为体量太大难以训练，很长时间里这个方向一直被大公司垄断。不过最近，简化 GPT 模型的方法越来越多了。1 月中旬，前特斯拉 AI 高级总监 Andrej Karpathy（现已回归 OpenAI）就发布了从零开始构建 GPT 模型的完整教程。不过训练出的 GPT 和 OpenAI 的 GPT-3 比较，两者规模差距达 1 万 - 100 万倍。

近日，加拿大麦克马斯特大学的一位软件工程本科生 Jay Mody 在导入 NumPy 库下，仅用 60 行代码就从头实现了一个 GPT 模型，并将其命名为 PicoGPT。不仅如此，他还将经过训练的 GPT-2 模型权重加载到自己的实现中，并生成了一些文本。下面为 60 行代码展示。

不过要做到这些，你需要熟悉 Python 和 NumPy，还要有一些训练神经网络的基本经验。作者表示，这篇博客旨在对 GPT 进行简单易懂的完整介绍。因此，作者只使用已经训练的模型权重来实现前向传递代码。

代码地址：

https://github.com/jaymody/picoGPT/blob/29e78cc52b58ed2c1c483ffea2eb46ff6bdec785/gpt2_pico.py#L3-L58

对于此项研究，Andrej Karpathy 给出了四个字：虽迟但到。想当初，Karpathy 构建的 minGPT 和 nanoGPT 还要 300 行代码。

值得一提的是，这篇教程不是完全零门槛的。为了让读者明白，作者首先介绍了什么是 GPT、它的输入、输出如何等其他内容，介绍得都非常详细。

至于 GPT 到底能干什么，作者给出了几个示例，它能写电子邮件、总结一本书、给你 instagram 标题的想法、向 5 岁的孩子解释黑洞、用 SQL 编写代码等。

通过仔细阅读这部分内容后，你能大致了解 GPT 的一些基础知识。有了这些背景介绍，接下来就是如何设置了。

项目介绍

设置

这一章节主要介绍了如何设置编码器、超参数以及参数。

你要做的，首先是克隆代码库：

然后安装依赖项：

注意，如果你使用的是 M1 Macbook，在运行 pip install 之前，你需要在 requirements.txt 中将 tensorflow 更改为 tensorflow-macos。在这个项目下，文件包括 encoder.py、utils.py、gpt2.py、gpt2_pico.py：

encoder.py：包含 OpenAI BPE Tokenizer 的代码，直接取自 gpt-2 repo；
utils.py：包含下载和加载 GPT-2 模型权重、tokenizer 和超参数的代码；
gpt2.py：包含 GPT 模型和生成代码，可以将其作为 python 脚本运行；
gpt2_pico.py：与 gpt2.py 相同，但是代码行数更少。

其中 gpt2.py 需要从头开始实现，因此你要做的是先删除 gpt2.py 并重新创建一个空文件：

然后将下列代码复制到 gpt2.py 中：

上述代码包含 4 个主要部分：

gpt2 函数是本次实现 GPT 的实际代码；
generate 函数实现自回归解码算法；
main 函数；
fire.Fire (main) 将文件转换为 CLI 应用程序，以便最终可以运行代码：python gpt2.py "some prompt here"。

main 函数包含有 encode、hparams、params 参数，执行下列代码：

接着必要的模型以及 tokenizer 文件将被下载到 models/124M 文件。

设置完成之后，作者开始介绍编码器、超参数、参数的一些细节内容。就拿编码器来说，本文的编码器和 GPT-2 使用的 BPE tokenizer 一样。下面是该编码器编码和解码的一些文本示例：

实际的 token 长这个样子：

需要注意，有时 token 是单词（例如 Not），有时它们是单词但前面有一个空格（例如 Ġall，Ġ 代表一个空格），有时是单词的一部分（例如 capes 被拆分为 Ġcap 和 es)，有时它们是标点符号（例如 .）。

BPE 的一个好处是它可以对任意字符串进行编码，如果遇到词汇表中不存在的内容，它会将其分解为它能理解的子字符串：

更细节的内容不再赘述。接下来介绍基础神经网络，这一部分就更加基础了，主要包括 GELU、Softmax 函数以及 Layer Normalization 和 Linear。

每一小部分都有代码示例，例如在 Linear 部分，作者展示了标准矩阵乘法 + 偏置：

线性层从一个向量空间投影到另一个向量空间的代码如下：

GPT 架构

这部分介绍 GPT 自身架构。

Transformer 架构如下：

Transformer 仅使用解码器堆栈（图的右侧部分）：

需要注意，由于摆脱了编码器，中间的交叉注意力层也被删除了。

在高层次上，GPT 体系架构有以下三个部分：

文本 + 位置嵌入；
Transformer 解码器堆栈；
投影到词汇表。

代码就像下面这样：

代码部分截图

接下来更详细地分解以上三个部分中的每一个部分，这里也不再赘述。

以上就是作者对 GPT 的实现，接下来就是将它们组合在一起并运行代码，得到 gpt2.py。它的全部内容只有 120 行代码（如果删除注释和空格，则为 60 行）。

作者通过以下方式测试结果：

输出结果如下：

正如作者说的：这次实验成功了。

本文只是跟着作者的思路大概介绍了整体流程，想要了解更多内容的小伙伴，可以参考原文链接。

原文链接：https://jaykmody.com/blog/gpt-from-scratch/#basic-layers

以上是本科生60行代码教你手搓GPT大模型，技术介绍堪比教程的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

在LLMS中调用工具

在LLMS中调用工具Apr 14, 2025 am 11:28 AM

大型语言模型（LLMS）的流行激增，工具称呼功能极大地扩展了其功能，而不是简单的文本生成。现在，LLM可以处理复杂的自动化任务，例如Dynamic UI创建和自主a

多动症游戏，健康工具和AI聊天机器人如何改变全球健康

多动症游戏，健康工具和AI聊天机器人如何改变全球健康Apr 14, 2025 am 11:27 AM

视频游戏可以缓解焦虑，建立焦点或支持多动症的孩子吗？随着医疗保健在全球范围内挑战，尤其是在青年中的挑战，创新者正在转向一种不太可能的工具：视频游戏。现在是世界上最大的娱乐印度河之一

没有关于AI的投入：获胜者，失败者和机遇

没有关于AI的投入：获胜者，失败者和机遇Apr 14, 2025 am 11:25 AM

“历史表明，尽管技术进步推动了经济增长，但它并不能自行确保公平的收入分配或促进包容性人类发展，”乌托德秘书长Rebeca Grynspan在序言中写道。

通过生成AI学习谈判技巧

通过生成AI学习谈判技巧Apr 14, 2025 am 11:23 AM

易于使用，使用生成的AI作为您的谈判导师和陪练伙伴。让我们来谈谈。对创新AI突破的这种分析是我正在进行的《福布斯》列的最新覆盖范围的一部分，包括识别和解释

泰德（Ted）从Openai，Google，Meta透露出庭，与我自己自拍

泰德（Ted）从Openai，Google，Meta透露出庭，与我自己自拍Apr 14, 2025 am 11:22 AM

在温哥华举行的TED2025会议昨天在4月11日举行了第36版。它有来自60多个国家 /地区的80个发言人，包括Sam Altman，Eric Schmidt和Palmer Luckey。泰德（Ted）的主题“人类重新构想”是量身定制的

约瑟夫·斯蒂格利兹（Joseph Stiglitz

约瑟夫·斯蒂格利兹（Joseph StiglitzApr 14, 2025 am 11:21 AM

约瑟夫·斯蒂格利茨（Joseph Stiglitz）是2001年著名的经济学家，是诺贝尔经济奖的获得者。斯蒂格利茨认为，AI可能会使现有的不平等和合并权力恶化，并在几个主导公司的手中加剧，最终破坏了经济的经济。

什么是图形数据库？

什么是图形数据库？Apr 14, 2025 am 11:19 AM

图数据库：通过关系彻底改变数据管理随着数据的扩展及其特征在各个字段中的发展，图形数据库正在作为管理互连数据的变革解决方案的出现。与传统不同

LLM路由：策略，技术和Python实施

LLM路由：策略，技术和Python实施Apr 14, 2025 am 11:14 AM

大型语言模型（LLM）路由：通过智能任务分配优化性能 LLM的快速发展的景观呈现出各种各样的模型，每个模型都具有独特的优势和劣势。有些在创意内容gen上表现出色

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么（黄色晶体）

3 周前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳图形设置

3 周前By尊渡假赌尊渡假赌尊渡假赌

刺客信条阴影：贝壳谜语解决方案

2 周前ByDDD

R.E.P.O.如果您听不到任何人，如何修复音频

4 周前By尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解锁Myrise中的所有内容

1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境，用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问，并防止学生使用未经授权的资源。

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具，用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合，这些列表在安全评估过程中经常使用，都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表，帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上，他就可以访问到所需的每种类型的列表。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

热门话题

gmail邮箱登陆入口在哪里

7502

15

1377

52

steam的账户名称是什么格式

78

11

win11激活密钥永久

52

19

NYT连接提示和答案

19

54