RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 19, 2024 pm 09:30 PM

模型内存占用eagle 7brnn

在大模型内卷的同时，Transformer的地位也接连受到挑战。

近日，RWKV发布了Eagle 7B模型，基于最新的RWKV-v5架构。

Eagle 7B在多语言基准测试中脱颖而出，在英语测试中与顶尖模型不相上下。

同时，Eagle 7B用的是RNN架构，相比于同尺寸的Transformer模型，推理成本降低了10-100倍以上，可以说是世界上最环保的7B模型。

由于RWKV-v5的论文可能要下个月才能发布，我们先提供RWKV的论文，这是第一个将参数扩展到数百亿的非Transformer架构。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

论文地址：https://arxiv.org/pdf/2305.13048.pdf

EMNLP 2023录用了这篇工作，作者来自世界各地的顶尖高校、研究机构和科技公司。

下面是Eagle 7B的官图，表示这只老鹰正在飞跃变形金刚。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

Eagle 7B

Eagle 7B使用来自100多种语言的，1.1T（万亿）个Token的训练数据，在下图的多语言基准测试中，Eagle 7B平均成绩位列第一。

基准测试包括xLAMBDA、xStoryCloze、xWinograd和xCopa，涵盖了23种语言，以及各自语言的常识推理。

Eagle 7B拿到了其中三项的第一，尽管有一项没打过Mistral-7B，屈居第二，但对手使用的训练数据要远高于Eagle。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

下图的英语测试包含了12个独立的基准、常识推理和世界知识。

在英语性能测试中，Eagle 7B的水平接近Falcon（1.5T）、LLaMA2（2T）、Mistral（>2T），与同样使用了1T左右训练数据的MPT-7B不相上下。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

并且，在两种测试中，新的v5架构相比于之前的v4，有了巨大的整体飞跃。

Eagle 7B目前由Linux基金会托管，以Apache 2.0许可证授权，可以不受限制地用于个人或商业用途。

多语言支持

前面说了，Eagle 7B的训练数据来自100多种语言，而上面采用的4项多语言基准测试只包括了23种语言。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

虽然取得了第一名的成绩，但总的来说，Eagle 7B是吃亏的，毕竟，基准测试无法直接评估模型在其他70多种语言中的性能。

额外的训练代价并不能帮助自己刷榜，如果集中在英语，可能会获得比现在更好的成绩。

——那么，RWKV为什么要这么做呢？官方对此表示：

Building inclusive AI for everyone in this world —— not just the English

在对于RWKV模型的众多反馈中，最常见的是：

多语言方法损害了模型的英语评估分数，并减缓了线性Transformer的发展；

让多语言模型与纯英语模型，比较多语言性能是不公平的

官方表示，「在大多数情况下，我们同意这些意见，」

「但我们没有计划改变这一点，因为我们正在为世界构建人工智能——这不仅仅是一个英语世界。」

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

2023年，世界上只有17%的人口会说英语（大约13亿人），但是，通过支持世界上排名前25位的语言，模型可以覆盖大约40亿人，即世界人口总数的50%。

团队希望未来的人工智能可以为每个人都提供帮助，比如让模型可以在低端硬件上以低廉的价格运行，比如支持更多的语言。

团队将在之后逐渐扩大多语言数据集，以支持更广泛的语言，并慢慢将覆盖范围扩大到世界上100%的地区，——确保没有语言被遗漏。

数据集+可扩展架构

在模型的训练过程中，有一个值得注意的现象：

随着训练数据规模不断增加，模型的性能逐渐进步，当训练数据达到300B左右时，模型显示出与pythia-6.9b 相似的性能，而后者的训练数据量为300B。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

这个现象与之前在RWKV-v4架构上进行的一项实验相同，——也就是说，在训练数据规模相同的情况下，像RWKV这种线性Transformer的性能会和Transformer差不多。

那么我们不禁要问，如果确实如此，那么是不是相比于确切的架构，数据反而对模型的性能提升更加重要？

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

我们知道，Transformer类的模型，计算和存储代价是平方级别的，而在上图中RWKV架构的计算成本只是随着Token数线性增长。

也许我们应该寻求更高效、更可扩展的架构，以提高可访问性，降低每个人的人工智能成本，并减少对环境的影响。

RWKV

RWKV架构是一种具有GPT级别LLM性能的RNN，同时又可以像Transformer一样并行化训练。

RWKV结合了RNN和Transformer的优点——出色的性能、快速推理、快速训练、节省VRAM、「无限」的上下文长度和免费的句子嵌入，RWKV并不使用注意力机制。

下图展示了RWKV与Transformer派模型在计算成本上的对比：

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

为了解决Transformer的时间和空间复杂度问题，研究人员提出了多种架构：

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

RWKV架构由一系列堆叠的残差块组成，每个残差块由一个具有循环结构的时间混合和一个通道混合子块组成

下图中左边为RWKV块元素，右边为RWKV残差块，以及用于语言建模的最终头部。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

递归可以表述为当前输入和前一个时间步的输入之间的线性插值（如下图中的对角线所示），可以针对输入嵌入的每个线性投影独立调整。

这里还引入了一个单独处理当前Token的向量，以补偿潜在的退化。

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多图片

RWKV可以在我们所说的时间并行模式下有效地并行化（矩阵乘法）。

在循环网络中，通常使用前一时刻的输出作为当前时刻的输入。这在语言模型的自回归解码推理中尤为明显，它要求在输入下一步之前计算每个令牌，从而使RWKV能够利用其类似RNN的结构，称为时间顺序模式。

在这种情况下，RWKV可以方便地递归表述，以便在推理过程中进行解码，它利用了每个输出令牌仅依赖于最新状态的优势，状态的大小是恒定的，而与序列长度无关。

然后充当RNN解码器，相对于序列长度产生恒定的速度和内存占用，从而能够更有效地处理较长的序列。

相比之下，自注意力的KV缓存相对于序列长度不断增长，从而导致效率下降，并随着序列的延长而增加内存占用和时间。

参考资料：

https://www.php.cn/link/fda2217a3921c464be73975603df7510

以上是RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

如何使用Huggingface Smollm建立个人AI助手

如何使用Huggingface Smollm建立个人AI助手Apr 18, 2025 am 11:52 AM

利用“设备” AI的力量：建立个人聊天机器人CLI 在最近的过去，个人AI助手的概念似乎是科幻小说。想象一下科技爱好者亚历克斯（Alex）梦见一个聪明的本地AI同伴 - 不依赖

通过斯坦福大学激动人心的新计划，精神健康的AI专心分析

通过斯坦福大学激动人心的新计划，精神健康的AI专心分析Apr 18, 2025 am 11:49 AM

他们的首届AI4MH发射于2025年4月15日举行，著名的精神科医生兼神经科学家汤姆·因斯尔（Tom Insel）博士曾担任开幕式演讲者。 Insel博士因其在心理健康研究和技术方面的杰出工作而闻名

2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争

2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争Apr 18, 2025 am 11:44 AM

恩格伯特说：“我们要确保WNBA仍然是每个人，球员，粉丝和公司合作伙伴，感到安全，重视和授权的空间。” anno

Python内置数据结构的综合指南 - 分析Vidhya

Python内置数据结构的综合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介绍 Python擅长使用编程语言，尤其是在数据科学和生成AI中。在处理大型数据集时，有效的数据操作（存储，管理和访问）至关重要。我们以前涵盖了数字和ST

与替代方案相比，Openai新型号的第一印象

与替代方案相比，Openai新型号的第一印象Apr 18, 2025 am 11:41 AM

潜水之前，一个重要的警告：AI性能是非确定性的，并且特定于高度用法。简而言之，您的里程可能会有所不同。不要将此文章（或任何其他）文章作为最后一句话 - 目的是在您自己的情况下测试这些模型

AI投资组合|如何为AI职业建立投资组合？

AI投资组合|如何为AI职业建立投资组合？Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投资组合：初学者和专业人士指南创建引人注目的投资组合对于确保在人工智能（AI）和机器学习（ML）中的角色至关重要。本指南为建立投资组合提供了建议

代理AI对安全操作可能意味着什么

代理AI对安全操作可能意味着什么Apr 18, 2025 am 11:36 AM

结果？倦怠，效率低下以及检测和作用之间的差距扩大。这一切都不应该令任何从事网络安全工作的人感到震惊。不过，代理AI的承诺已成为一个潜在的转折点。这个新课

Google与Openai：AI为学生打架

Google与Openai：AI为学生打架Apr 18, 2025 am 11:31 AM

直接影响与长期伙伴关系？两周前，Openai提出了强大的短期优惠，在2025年5月底之前授予美国和加拿大大学生免费访问Chatgpt Plus。此工具包括GPT-4O，A A A A A

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

刺客信条阴影：贝壳谜语解决方案

3 周前ByDDD

Windows 11 KB5054979中的新功能以及如何解决更新问题

2 周前ByDDD

在哪里可以找到原子中的起重机控制钥匙卡

3 周前ByDDD

节省R.E.P.O.解释（并保存文件）

1 个月前By尊渡假赌尊渡假赌尊渡假赌

刺客信条阴影 - 如何找到铁匠，解锁武器和装甲定制

3 周前ByDDD

热工具

SublimeText3汉化版

SublimeText3汉化版

中文版，非常好用

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中，你可以继续在那里关注我们。MinGW：GNU编译器集合（GCC）的本地Windows移植版本，可自由分发的导入库和用于构建本地Windows应用程序的头文件；包括对MSVC运行时的扩展，以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

mPDF

mPDF

mPDF是一个PHP库，可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件，并处理不同的语言。与原始脚本如HTML2FPDF相比，它的速度较慢，并且在使用Unicode字体时生成的文件较大，但支持CSS样式等，并进行了大量增强。支持几乎所有语言，包括RTL（阿拉伯语和希伯来语）和CJK（中日韩）。支持嵌套的块级元素（如P、DIV），

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

热门话题

gmail邮箱登陆入口在哪里

7562

15

1384

52

steam的账户名称是什么格式

84

11

win11激活密钥永久

60

19

NYT连接提示和答案

28

99