首頁 >科技週邊 >人工智慧 >無注意力大模型Eagle7B：基於RWKV，推理成本降低10-100 倍

無注意力大模型Eagle7B：基於RWKV，推理成本降低10-100 倍

WBOY轉載: 2024-02-01 14:39:461197瀏覽

在AI賽道中，小模型近來備受矚目，相較於擁有上千億參數的模型。例如，法國AI新創公司發布的Mistral-7B模型在每個基準測試中都表現優於Llama 2 13B，並且在程式碼、數學和推理方面都超過了Llama 1 34B。

與大模型相比，小模型具有許多優點，例如對算力的要求低、可在端側運行等。

近日，又有一個新的語言模型出現了，即7.52B 參數Eagle 7B，來自開源非營利組織RWKV，其具有以下特點：

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

基於RWKV-v5 架構構建，該架構的推理成本較低（RWKV 是線性transformer，推理成本降低10-100 倍以上）；
在100 多種語言、1.1 兆token 上訓練而成；
##在多語言基準測驗中優於所有的7B 類別模型；
在英文評測中，Eagle 7B 表現接近Falcon (1.5T)、LLaMA2 (2T)、Mistral；
#英文評測中與MPT-7B (1T) 相當；
#沒有註意力的Transformer。

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

Eagle 7B是基於RWKV-v5架構建構而成的。 RWKV（Receptance Weighted Key Value）是結合了RNN和Transformer的優點，並避免了它們的缺點的新穎架構。它的設計非常精良，能夠緩解Transformer在記憶體和擴充功能方面的瓶頸問題，實現更有效的線性擴充。同時，RWKV也保留了讓Transformer在該領域主導的一些性質。

目前RWKV已經迭代到第六代RWKV-6，效能與大小與Transformer相似。未來研究者可利用此架構創造更有效率的模型。

關於 RWKV 更多信息，大家可以參考「Transformer 時代重塑 RNN，RWKV 將非 Transformer 架構擴展到數百億參數」。

值得一提的是，RWKV-v5 Eagle 7B 可以不受限制地供個人或商業使用。

在23 種語言上的測試結果

不同模型在多語言上的表現如下所示，測試基準包括xLAMBDA、xStoryCloze、xWinograd、xCopa。

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

#共23 種語言

這些基準測試包含了大部分常識推理，顯示出RWKV 架構從v4 到v5 在多語言效能上的巨大飛躍。不過由於缺乏多語言基準，研究只能測試其在 23 種較常用語言上的能力，其餘 75 種以上語言的能力目前仍無法得知。

在英文上的表現

#不同模型在英文上的表現透過12 個基準來判別，包括常識性推理和世界知識。

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

從結果可以再看出 RWKV 從 v4 到 v5 架構的巨大飛躍。 v4 之前輸給了1T token 的MPT-7b，但v5 卻在基準測試中開始追上來，在某些情況下（甚至在某些基準測試LAMBADA、StoryCloze16、WinoGrande、HeadQA_en、Sciq 上）它可以超過FalconCloze16、WinoGrande、HeadQA_en、Sciq 上）它可以超過FalconCloze ，甚至llama2。

此外，根據給定的近似 token 訓練統計，v5 表現開始與預期的 Transformer 表現水準一致。

此前，Mistral-7B 利用 2-7 兆 Token 的訓練方法在 7B 規模的模型上保持領先。該研究希望縮小這一差距，使得 RWKV-v5 Eagle 7B 超越 llama2 性能並達到 Mistral 的水平。

下圖表明，RWKV-v5 Eagle 7B 在3000 億token 點附近的checkpoints 顯示出與pythia-6.9b 類似的性能：

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

這與先前在RWKV-v4 架構上進行的實驗（pile-based）一致，像RWKV 這樣的線性transformers 在性能水平上與transformers 相似，並且具有相同的token 數訓練。

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

可以預見，模型的出現標誌著迄今為止最強的線性 transformer（就評估基準而言）已經來了。

以上是無注意力大模型Eagle7B：基於RWKV，推理成本降低10-100 倍的詳細內容。更多資訊請關注PHP中文網其他相關文章！

架构 Token rnn transformer llama

陳述：

本文轉載於：51cto.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：南大周志華團隊8年力！「學件」系統解決機器學習複用難題，「模型融合」湧現科研新範式下一篇：南大周志華團隊8年力！「學件」系統解決機器學習複用難題，「模型融合」湧現科研新範式

看更多