搜索
首页web3.0Tokenformer:通过将参数视为令牌来重新思考 Transformer

Tokenformer:通过将参数视为令牌来重新思考 Transformer

Nov 04, 2024 am 12:36 AM
ScalingTokenformer Transformer Architecture Tokenized Parameters AI Applications

Transformers 改变了人工智能,在 NLP、计算机视觉和多模式数据集成方面提供了无与伦比的性能。这些模型擅长通过注意力机制识别数据中的模式,使其成为复杂任务的理想选择。然而,由于传统结构的计算成本较高,变压器模型的快速扩展需要改进。

Tokenformer:通过将参数视为令牌来重新思考 Transformer

Transformers 彻底改变了人工智能,在自然语言处理 (NLP)、计算机视觉和多模式数据集成方面提供了无与伦比的性能。这些模型擅长通过注意力机制识别数据中的模式,使其成为复杂任务的理想选择。然而,由于传统结构的计算成本较高,变压器模型的快速扩展需要改进。随着这些模型的增长,它们需要大量的硬件资源和训练时间,并且随着模型大小的增加呈指数级增长。

缩放变压器的主要障碍在于其线性投影层内的固定参数。这种静态结构限制了模型在不完全重新训练的情况下扩展的能力,随着模型大小的增加,这种能力会呈指数级增长。当架构发生修改时,例如增加通道尺寸,这些传统模型通常需要全面的重新训练。

因此,这些扩展的计算成本变得非常高,而且该方法缺乏灵活性。无法动态添加新参数会抑制增长,使这些模型不太适应不断发展的人工智能应用程序,并且在时间和资源方面成本更高。

从历史上看,管理模型可扩展性的方法包括使用 Net2Net 等方法复制权重或重构模型,其中复制神经元扩展层。然而,这些方法通常会破坏预训练模型的平衡,导致收敛速度变慢并增加训练复杂性。

虽然这些方法取得了渐进的进展,但它们在扩展过程中保持模型完整性方面仍然面临限制。 Transformer 严重依赖静态线性投影,导致参数扩展成本高昂且不灵活。 GPT 和其他大型 Transformer 等传统模型经常从头开始重新训练,每个新的扩展阶段都会产生高昂的计算成本。

现在,马克斯普朗克研究所、谷歌和北京大学的研究人员开发了一种名为 Tokenformer 的新架构,通过将模型参数视为令牌,从根本上重新构想了 Transformer,从而允许令牌和参数之间进行动态交互。

在这个框架中,Tokenformer 引入了一个称为令牌参数注意(Pattention)层的新颖组件,它有助于增量扩展。该模型可以添加新的参数标记而无需重新训练,大大降低了训练成本。

通过在同一框架内表示输入令牌和参数,Tokenformer 可以灵活扩展,为研究人员提供更高效、资源意识更强的模型架构,同时保持可扩展性和高性能。

Tokenformer 的 Pattention 层使用输入 token 作为查询,而模型参数作为键和值,这与标准 Transformer 方法不同,仅依赖于线性投影。

模型的扩展是通过添加新的键值参数对、保持输入和输出维度不变并避免完全重新训练来实现的。 Tokenformer 的架构设计为模块化,使研究人员能够通过合并额外的代币来无缝扩展模型。

这种增量扩展功能支持预训练权重的有效重用,同时能够快速适应新数据集或更大的模型大小,而不会破坏学习的信息。

Tokenformer 的性能优势非常显着,因为该模型在保持准确性的同时显着降低了计算成本。例如,Tokenformer 将参数从 1.24 亿扩展到 14 亿,而训练成本仅为传统 Transformer 所需的一半。

在一项实验中,该模型针对 14 亿个参数配置实现了 11.77 的测试困惑度,几乎与从头开始训练的类似大小的 Transformer 的 11.63 困惑度相匹配。

这种效率意味着 Tokenformer 可以在多个领域实现高性能,包括语言和视觉建模任务,而资源支出只是传统模型的一小部分。

Tokenformer 提出了许多关于推进人工智能研究和改进基于 Transformer 的模型的关键要点。其中包括:

将参数视为令牌可以实现增量模型扩展,而无需重新训练。

令牌参数注意层有助于高效的参数扩展。

模块化架构通过合并额外的代币来支持无缝模型增长。

该模型以最少的资源消耗在不同领域实现了高性能。

总之,Tokenformer 提供了一种变革性方法来扩展基于 Transformer 的模型。该模型架构通过将参数视为令牌、降低成本并保持跨任务的模型性能来实现可扩展性和资源效率。

这种灵活性代表了变压器设计的突破,提供了一种无需重新训练即可适应先进人工智能应用需求的模型。 Tokenformer 的架构为未来的人工智能研究带来了希望,提供了可持续、高效地开发大规模模型的途径。

查看 HuggingFace 上的论文、GitHub 页面和模型。

这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记在 Twitter 上关注我们并加入我们的 Telegram 频道和 LinkedIn 群组。如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。不要忘记加入我们的 55k ML SubReddit。

[我们的赞助机会]与 100 万每月读者和 50 万社区成员推广您的研究/产品/网络研讨会

以上是Tokenformer:通过将参数视为令牌来重新思考 Transformer的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
2025年币圈十大交易所app排名 十大好用的虚拟币交易平台排行榜2025年币圈十大交易所app排名 十大好用的虚拟币交易平台排行榜Apr 22, 2025 am 11:30 AM

币圈十大交易所app最新排名如下:1. Binance,2. OKX,3. Gate.io,4. Huobi Global,5. Coinbase,6. Kraken,7. Bittrex,8. KuCoin,9. Bitfinex,10. Poloniex。这些平台各具特色,Binance以高效和低手续费着称,OKX以安全和用户友好界面闻名,Gate.io提供丰富币种等等。

币圈十大交易所app排行榜 靠谱数字货币交易平台排名前十币圈十大交易所app排行榜 靠谱数字货币交易平台排名前十Apr 22, 2025 am 11:27 AM

币圈十大交易所app最新排名:1. Binance,2. OKX,3. Gate.io,4. Huobi Global,5. Coinbase,6. Kraken,7. Bittrex,8. KuCoin,9. Bitfinex,10. Poloniex。这些平台各具特色,Binance以高效和低手续费着称,OKX以安全和用户友好界面闻名,Gate.io提供丰富币种等等。

2025年5月购买的10种最佳加密货币2025年5月购买的10种最佳加密货币Apr 22, 2025 am 11:24 AM

本文重点介绍了2025年5月要考虑的10种最佳加密货币,提供了既定的巨人和有希望的新项目的混合。

十大虚拟币app交易平台 虚拟币交易所app排行榜Top10十大虚拟币app交易平台 虚拟币交易所app排行榜Top10Apr 22, 2025 am 11:24 AM

十大虚拟币交易app排行榜:1. Binance,2. OKX,3. Gate.io,4. KuCoin,5. Coinbase,6. Kraken,7. Huobi,8. Bybit,9. Bitfinex,10. Bitstamp,每个平台提供不同的功能和服务,满足不同用户需求。

Mantra创始人将燃烧价值8200万美元的OM令牌Mantra创始人将燃烧价值8200万美元的OM令牌Apr 22, 2025 am 11:22 AM

It's Monday!世界各地的一些市场仍在复活节假期关闭,但这并没有阻止两家备受瞩目的公司吞噬更多的比特币。

虚拟币交易所平台排名前十 十大数字货币交易所最新排行榜2025年虚拟币交易所平台排名前十 十大数字货币交易所最新排行榜2025年Apr 22, 2025 am 11:21 AM

十大虚拟币交易app排行榜:1. Binance,2. OKX,3. Gate.io,4. KuCoin,5. Coinbase,6. Kraken,7. Huobi,8. Bybit,9. Bitfinex,10. Bitstamp,每个平台提供不同的功能和服务,满足不同用户需求。

由投资者起诉的Meteora Labs涉嫌M3M3代币的价格操纵由投资者起诉的Meteora Labs涉嫌M3M3代币的价格操纵Apr 22, 2025 am 11:20 AM

一群投资者已针对分散的加密货币交易所Meteora提起集体诉讼,指控该公司参与操纵M3M3代币的发行和市场价格。

这是我们每周的《福布斯加密通讯》的发布版本。在此处注册以获取加密货币日期,您可以在收件箱中免费获得。这是我们每周的《福布斯加密通讯》的发布版本。在此处注册以获取加密货币日期,您可以在收件箱中免费获得。Apr 22, 2025 am 11:18 AM

就在上周,Mantra的OM代币看起来很棒:超过800%的一年,新的1.08亿美元的生态系统基金和10亿美元的迪拜真实交易

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器