GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型

GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 16, 2023 am 11:53 AM

openaigpt-4

GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型

7 月 13 日消息，外媒 Semianalysis 近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘，其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型（Mixture of Experts）等具体的参数和信息。

GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型

▲ 图源 Semianalysis

外媒表示，GPT-4 在 120 层中总共包含了 1.8 万亿参数，而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本，OpenAI 采用混合专家模型来进行构建。

IT之家注：混合专家模型（Mixture of Experts）是一种神经网络，该系统根据数据进行分离训练多个模型，在各模型输出后，系统将这些模型整合输出为一个单独的任务。

GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型

▲ 图源 Semianalysis

据悉，GPT-4 使用了 16 个混合专家模型 (mixture of experts)，每个有 1110 亿个参数，每次前向传递路由经过两个专家模型。

此外，它有 550 亿个共享注意力参数，使用了包含 13 万亿 tokens 的数据集训练，tokens 不是唯一的，根据迭代次数计算为更多的 tokens。

GPT-4 预训练阶段的上下文长度为 8k，32k 版本是对 8k 微调的结果，训练成本相当高，外媒表示，8x H100 也无法以每秒 33.33 个 Token 的速度提供所需的密集参数模型，因此训练该模型需要导致极高的推理成本，以 H100 物理机每小时 1 美元计算，那么一次的训练成本就高达 6300 万美元（约 4.51 亿元人民币）。

对此，OpenAI 选择使用云端的 A100 GPU 训练模型，将最终训练成本降至 2150 万美元（约 1.54 亿元人民币）左右，用稍微更长的时间，降低了训练成本。

以上是GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

10个生成AI编码扩展，在VS代码中，您必须探索

10个生成AI编码扩展，在VS代码中，您必须探索Apr 13, 2025 am 01:14 AM

嘿，编码忍者！您当天计划哪些与编码有关的任务？在您进一步研究此博客之前，我希望您考虑所有与编码相关的困境，这是将其列出的。完毕？ - 让＆＃8217

烹饪创新：人工智能如何改变食品服务

烹饪创新：人工智能如何改变食品服务Apr 12, 2025 pm 12:09 PM

AI增强食物准备在新生的使用中，AI系统越来越多地用于食品制备中。 AI驱动的机器人在厨房中用于自动化食物准备任务，例如翻转汉堡，制作披萨或组装SA

Python名称空间和可变范围的综合指南

Python名称空间和可变范围的综合指南Apr 12, 2025 pm 12:00 PM

介绍了解Python功能中变量的名称空间，范围和行为对于有效编写和避免运行时错误或异常至关重要。在本文中，我们将研究各种ASP

视觉语言模型（VLMS）的综合指南

视觉语言模型（VLMS）的综合指南Apr 12, 2025 am 11:58 AM

介绍想象一下，穿过美术馆，周围是生动的绘画和雕塑。现在，如果您可以向每一部分提出一个问题并获得有意义的答案，该怎么办？您可能会问：“您在讲什么故事？

联发科技与kompanio Ultra和Dimenty 9400增强优质阵容

联发科技与kompanio Ultra和Dimenty 9400增强优质阵容Apr 12, 2025 am 11:52 AM

继续使用产品节奏，本月，Mediatek发表了一系列公告，包括新的Kompanio Ultra和Dimenty 9400。这些产品填补了Mediatek业务中更传统的部分，其中包括智能手机的芯片

本周在AI：沃尔玛在时尚趋势之前设定了时尚趋势

本周在AI：沃尔玛在时尚趋势之前设定了时尚趋势Apr 12, 2025 am 11:51 AM

＃1 Google推出了Agent2Agent 故事：现在是星期一早上。作为AI驱动的招聘人员，您更聪明，而不是更努力。您在手机上登录公司的仪表板。它告诉您三个关键角色已被采购，审查和计划的FO

生成的AI遇到心理摩托车

生成的AI遇到心理摩托车Apr 12, 2025 am 11:50 AM

我猜你一定是。我们似乎都知道，心理障碍包括各种chat不休，这些chat不休，这些chat不休，混合了各种心理术语，并且常常是难以理解的或完全荒谬的。您需要做的一切才能喷出fo

原型：科学家将纸变成塑料

原型：科学家将纸变成塑料Apr 12, 2025 am 11:49 AM

根据本周发表的一项新研究，只有在2022年制造的塑料中，只有9.5％的塑料是由回收材料制成的。同时，塑料在垃圾填埋场和生态系统中继续堆积。但是有帮助。一支恩金团队

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么（黄色晶体）

3 周前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳图形设置

3 周前By尊渡假赌尊渡假赌尊渡假赌

刺客信条阴影：贝壳谜语解决方案

2 周前ByDDD

R.E.P.O.如果您听不到任何人，如何修复音频

3 周前By尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解锁Myrise中的所有内容

4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中，你可以继续在那里关注我们。MinGW：GNU编译器集合（GCC）的本地Windows移植版本，可自由分发的导入库和用于构建本地Windows应用程序的头文件；包括对MSVC运行时的扩展，以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

VSCode Windows 64位下载

VSCode Windows 64位下载

微软推出的免费、功能强大的一款IDE编辑器

PhpStorm Mac 版本

PhpStorm Mac 版本

最新（2018.2.1 ）专业的PHP集成开发工具

热门话题

gmail邮箱登陆入口在哪里

7477

15

1377

52

steam的账户名称是什么格式

77

11

win11激活密钥永久

49

19

NYT连接提示和答案

19

32