LLM将成历史？开源bGPT或颠覆深度学习范式：直接模拟二进制，开启模拟数字世界新纪元！-人工智能-PHP中文网

首页

科技周边

人工智能

LLM将成历史？开源bGPT或颠覆深度学习范式：直接模拟二进制，开启模拟数字世界新纪元！

PHPz

Mar 13, 2024 pm 07:20 PM

模型训练模拟器

微软亚洲研究院推出的最新成果bGPT，这种基于字节的Transformer模型，为我们探索数字世界开辟了新的大门。

与传统基于词表的语言模型不同，bGPT具有独特之处，即其能够直接处理原始二进制数据，不受特定格式或任务的限制。其旨在全面模拟数字世界，为模型的发展打开了新的可能性。

LLM将成历史？开源bGPT或颠覆深度学习范式：直接模拟二进制，开启模拟数字世界新纪元！

论文：https://www.php.cn/link/ee88b3cea2051be97bcddf2e0d9a28f6

代码：https://www.php.cn/link/359499f804ea7988921bf86c9377fb95

模型：https://www.php.cn/link/4b459ea1a5917be436df5f0bd5b3c4ad

项目主页：https://www.php.cn/link/71af59614c8b42af334933e9261e53be

研究小组在他们的研究论文中展示了bGPT在建模方面的巨大潜力。通过进行字节级处理，bGPT不仅能够生成文本、图像和音频，还能够模拟计算机的行为，包括格式转换算法和CPU状态的建模。这种将所有数据视为字节序列的方法使得bGPT能够将不同类型的数据整合到同一个框架中。

一经发布，bGPT的论文在X（Twitter）上引起了广泛热议，突显了深度学习模式的潜在变革，为模型真正理解和模拟数字世界中的各种活动打开了新可能性。

二进制数据：构成数字世界的基础DNA

二进制数据是数字世界的基石，它贯穿了计算机处理器以及我们日常使用的电子产品的操作系统，是所有数据、设备和软件的核心。因此，基于这一基础，bGPT的目标是通过研究二进制数据序列来理解数字系统的内在逻辑，从而重塑和模拟各种复杂的数字现象。

bGPT通过字节级的处理，不仅能应用于常规的AI生成和理解任务，还能处理更多的非传统应用。例如，它能直接模拟MIDI——一种音乐传输和存储的标准格式，这在之前的研究中由于MIDI的二进制本质而避免了直接建模。

但bGPT天生适合此类任务，能够精确模拟音乐数据的转换算法，将ABC记谱法转换为MIDI格式时，达到极低的错误率（0.0011 BPB）。

在实际应用中，bGPT通常能够准确地完成ABC符号与MIDI文件之间的转换，有时甚至能纠正原始文件中的错误，使音乐转换更加准确。

LLM将成历史？开源bGPT或颠覆深度学习范式：直接模拟二进制，开启模拟数字世界新纪元！

bGPT自动将ABC记谱法转换成MIDI格式（上图）与原MIDI数据（下图）的对比，凸显了关键的差异：虽然原MIDI数据中漏掉了一拍（见下图），导致和弦伴奏断开，但由bGPT转换的结果（见上图）正确填补了这一缺失，确保了和弦伴奏的流畅性。

研究团队还将CPU建模作为硬件行为模拟的代表性任务：该任务要求模型接收低级机器指令序列作为输入，其目标是准确预测每个指令执行后CPU状态如何更新，直至程序停止。

在这个任务中，bGPT展现出超过99.99%的准确率，显示了字节模型在处理原生二进制数据方面的强大能力和可扩展性。

LLM将成历史？开源bGPT或颠覆深度学习范式：直接模拟二进制，开启模拟数字世界新纪元！

在提供了程序和初始CPU状态的情况下，bGPT能够准确地预测CPU执行的完整过程，直到程序终止。在这个示例中，bGPT精确地处理了所有CPU指令。为了便于理解，这里将实际的字节序列转换成了更易读的格式。

从字节到万物：突破边界，向着统一的数据建模进发

bGPT不仅能处理原生二进制数据，还能将多种数据类型融合进一个统一的模型架构中，视一切数据为字节序列。

这种方法不但简化了数据建模流程，还使得从任何数据源的整合变得轻而易举，且无需为特定数据类型定制模型。

研究团队在论文中举例了传统文本、图像及音频文件，展现了bGPT在统一数据建模方面的能力。他们训练的bGPT模型拥有约1亿参数。

实验结果表明，在与GPT-2（文本模型）、ViT（视觉模型）和AST（音频模型）等同规模模型的比较中，bGPT在不同数据类型上均展现出了可媲美的性能。

bGPT在文本生成方面的表现非常出色。得益于其字节级的文本编码，该模型无需依赖词汇表，从而能支持所有语言。

它的分层Transformer架构，尽管计算开销与GPT-2相近，却能生成长达8KB的文本，大大超出了GPT-2的长度限制。在经过Wikipedia数据进行预训练后，bGPT生成的文本在风格和主题上都与GPT-2不相上下，证明了其在文本生成方面的强大能力。

bGPT在Wikipedia数据集上进行预训练，生成的文本样例质量和主题一致性与GPT-2相当。

bGPT可以通过预测图像字节序列中的下一个字节来生成图像。该模型在ImageNet数据集上进行了预训练，生成的图像分辨率为32x32像素。

虽然在当前规模下，通过字节序列准确捕捉图像的二维空间关系有所困难，导致生成的图像存在伪影和噪点，但纹理和光影效果通常还是比较准确的。

此外，这些生成的图像均能被正常解码为BMP文件。研究团队指出，通过扩大bGPT的规模，类似于OpenAI开发的iGPT在像素序列建模方面的方法，或许可以实现更高质量、更逼真的图像生成。

这些是由在ImageNet数据集上进行预训练的bGPT生成的一组图像。虽然图像的纹理和光影效果通常比较准确，但在这些生成的图像中识别主要物体却有一定难度。

bGPT将音频数据视为字节序列，能生成1秒长、采样率为8000 Hz的音频样本。

该模型在LibriSpeech数据集上完成了预训练，并进一步在Speech Commands v2数据集上进行微调和演示。bGPT生成的音频样本保持了较高的准确度，其中一些样本几乎与真实音频无法区分。以下是展示bGPT在音频生成领域能力的示例集。

通过bGPT探索字节构成的数字世界

传统语言模型，不管它们有多强大，主要专注于处理自然语言文本。bGPT模型通过基于字节的处理机制，打破了这种仅限于文本处理的局限性，开辟了一个全新的数据处理范畴。

这一进步让bGPT有能力无缝地处理包括文本、图像、音频在内的各种数据类型，甚至能处理来自算法和硬件的原生二进制数据，为全面模拟和理解数字世界铺平了道路。

虽然bGPT展现出了引人注目的能力，但其在计算开销方面的局限性，如当前在常规显卡上仅能处理最大8KB的字节序列，对于那些需要生成或处理大量数据的应用来说，构成了明显的限制。未来的工作计划将集中在开发更高效的算法和利用硬件的进步上，旨在提高处理更大规模数据序列的能力。

全球的技术爱好者们已经开始展望bGPT未来的潜力，从网络修剪和自我学习的优化到超大规模网络的自我重构能力，这些讨论指向了一个共同的愿景：bGPT最终可能实现一个统一的模型，能够处理和输出所有类型的字节数据，真正成为数字世界的全面模拟器。

LLM将成历史？开源bGPT或颠覆深度学习范式：直接模拟二进制，开启模拟数字世界新纪元！

研究团队已将bGPT的代码和模型开源。这意味着你可以在自己的数据集上直接训练bGPT，无需做出任何模型架构上的调整，便可探索字节模型在数字领域的广阔前景。

以上是LLM将成历史？开源bGPT或颠覆深度学习范式：直接模拟二进制，开启模拟数字世界新纪元！的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

微软工作趋势指数2025显示工作场所容量应变Apr 24, 2025 am 11:19 AM

由于AI的快速整合而加剧了工作场所的迅速危机危机，要求战略转变以外的增量调整。 WTI的调查结果强调了这一点：68％的员工在工作量上挣扎，导致BUR

AI可以理解吗？中国房间的论点说不，但是对吗？Apr 24, 2025 am 11:18 AM

约翰·塞尔（John Searle）的中国房间论点：对AI理解的挑战 Searle的思想实验直接质疑人工智能是否可以真正理解语言或具有真正意识。想象一个人，对下巴一无所知

中国的'智能” AI助手回应微软召回的隐私缺陷Apr 24, 2025 am 11:17 AM

与西方同行相比，中国的科技巨头在AI开发方面的课程不同。他们不专注于技术基准和API集成，而是优先考虑“屏幕感知” AI助手 - AI T

Docker将熟悉的容器工作流程带到AI型号和MCP工具Apr 24, 2025 am 11:16 AM

MCP：赋能AI系统访问外部工具模型上下文协议（MCP）让AI应用能够通过标准化接口与外部工具和数据源交互。由Anthropic开发并得到主要AI提供商的支持，MCP允许语言模型和智能体发现可用工具并使用合适的参数调用它们。然而，实施MCP服务器存在一些挑战，包括环境冲突、安全漏洞以及跨平台行为不一致。 Forbes文章《Anthropic的模型上下文协议是AI智能体发展的一大步》作者：Janakiram MSVDocker通过容器化解决了这些问题。基于Docker Hub基础设施构建的Doc