搜尋
首頁科技週邊人工智慧RNN模型挑戰Transformer霸權! 1%成本性能比肩Mistral-7B,支援100+種語言全球最多

在大模型內卷的同時,Transformer的地位也接連受到挑戰。

近日,RWKV發布了Eagle 7B模型,基於最新的RWKV-v5架構。

Eagle 7B在多語言基準測試中脫穎而出,在英語測試中與頂尖模型不相上下。

同時,Eagle 7B用的是RNN架構,相較於同尺寸的Transformer模型,推理成本降低了10-100倍以上,可以說是世界上最環保的7B模型。

由於RWKV-v5的論文可能要下個月才能發布,我們先提供RWKV的論文,這是第一個將參數擴展到數百億的非Transformer架構。

RNN模型挑戰Transformer霸權! 1%成本性能比肩Mistral-7B,支援100+種語言全球最多圖片

論文網址:https://arxiv.org/pdf/2305.13048.pdf

#EMNLP 2023錄用了這篇工作,作者來自世界各地的頂尖大學、研究機構和科技公司。

下面是Eagle 7B的官圖,表示這隻老鷹正在飛躍變形金剛。

RNN模型挑戰Transformer霸權! 1%成本性能比肩Mistral-7B,支援100+種語言全球最多圖片

Eagle 7B

Eagle 7B使用來自100多種語言的,1.1T(兆)個Token的訓練數據,在下圖的多語言基準測試中,Eagle 7B平均成績位居第一。

基準測試包括xLAMBDA、xStoryCloze、xWinograd和xCopa,涵蓋了23種語言,以及各自語言的常識推理。

Eagle 7B拿到了其中三項的第一,儘管有一項沒打過Mistral-7B,屈居第二,但對手使用的訓練資料要遠高於Eagle。

RNN模型挑戰Transformer霸權! 1%成本性能比肩Mistral-7B,支援100+種語言全球最多圖片

下圖的英文測驗包含了12個獨立的基準、常識推理和世界知識。

在英文表現測試中,Eagle 7B的程度接近Falcon(1.5T)、LLaMA2(2T)、Mistral(>2T),與同樣使用了1T左右訓練資料的MPT-7B不相上下。

RNN模型挑戰Transformer霸權! 1%成本性能比肩Mistral-7B,支援100+種語言全球最多圖片

並且,在兩種測試中,新的v5架構相比於之前的v4,有了巨大的整體飛躍。

Eagle 7B目前由Linux基金會託管,以Apache 2.0許可證授權,可以不受限制地用於個人或商業用途。

多語言支援

前面說了,Eagle 7B的訓練資料來自100多種語言,而上面採用的4項多語言基準測試只包括了23種語言。

RNN模型挑戰Transformer霸權! 1%成本性能比肩Mistral-7B,支援100+種語言全球最多圖片

雖然取得了第一名的成績,但總的來說,Eagle 7B是吃虧的,畢竟,基準測試無法直接評估模型在其他70多種語言中的表現。

額外的訓練代價並不能幫助自己刷榜,如果集中在英語,可能會獲得比現在更好的成績。

——那麼,RWKV為什麼要這麼做呢?官方對此表示:

Building inclusive AI for everyone in this world —— not just the English

##在對於RWKV模型的眾多反饋中,最常見的是:

多語言方法損害了模型的英語評估分數,並減緩了線性Transformer的發展;

讓多語言模型與純英語模型,比較多語言表現是不公平的

官方表示,「在大多數情況下,我們同意這些意見,」 #

「但我們沒有計劃改變這一點,因為我們正在為世界建立人工智慧——這不僅僅是一個英語世界。」

RNN模型挑戰Transformer霸權! 1%成本性能比肩Mistral-7B,支援100+種語言全球最多##圖片

2023年,世界上只有17%的人口會說英語(大約13億人),但是,透過支援世界上排名前25位的語言,模型可以涵蓋大約40億人,即世界人口總數的50%。

團隊希望未來的人工智慧可以為每個人都提供幫助,例如讓模型可以在低端硬體上以低廉的價格運行,例如支援更多的語言。

團隊將在之後逐漸擴大多語言資料集,以支援更廣泛的語言,並慢慢將覆蓋範圍擴大到世界上100%的地區,—確保沒有語言被遺漏。

資料集可擴展架構

在模型的訓練過程中,有一個值得注意的現象:

#隨著訓練資料規模不斷增加,模型的效能逐漸進步,當訓練資料達到300B左右時,模型顯示出與pythia-6.9b 相似的效能,而後者的訓練資料量為300B。

RNN模型挑戰Transformer霸權! 1%成本性能比肩Mistral-7B,支援100+種語言全球最多圖片

這個現象與先前在RWKV-v4架構上進行的一項實驗相同,--也就是說,在訓練資料規模相同的情況下,像RWKV這種線性Transformer的效能會和Transformer差不多。

那麼我們不禁要問,如果確實如此,那麼是不是相比於確切的架構,資料反而對模型的效能提升更加重要?

RNN模型挑戰Transformer霸權! 1%成本性能比肩Mistral-7B,支援100+種語言全球最多圖片

我們知道,Transformer類別的模型,計算和儲存代價是平方層級的,而在上圖中RWKV架構的運算成本只是隨著Token數線性成長。

也許我們應該尋求更有效率、更可擴展的架構,以提高可訪問性,降低每個人的人工智慧成本,並減少對環境的影響。

RWKV

RWKV架構是具有GPT等級LLM效能的RNN,同時又可以像Transformer一樣並行化訓練。

RWKV結合了RNN和Transformer的優點——出色的性能、快速推理、快速訓練、節省VRAM、「無限」的上下文長度和免費的句子嵌入,RWKV並不使用注意力機制。

下圖展示了RWKV與Transformer派模型在計算成本上的比較:

RNN模型挑戰Transformer霸權! 1%成本性能比肩Mistral-7B,支援100+種語言全球最多圖片

##為了解決Transformer的時間和空間複雜度問題,研究人員提出了多種架構:

圖片RNN模型挑戰Transformer霸權! 1%成本性能比肩Mistral-7B,支援100+種語言全球最多

#RWKV架構由一系列堆疊的殘差塊組成,每個殘差塊由一個具有循環結構的時間混合和一個通道混合子塊組成

下圖中左邊為RWKV塊元素,右邊為RWKV殘差塊,以及用於語言建模的最終頭部。

圖片RNN模型挑戰Transformer霸權! 1%成本性能比肩Mistral-7B,支援100+種語言全球最多

遞迴可以表述為目前輸入和前一個時間步的輸入之間的線性內插(如下圖的對角線所示),可以針對輸入嵌入的每個線性投影獨立調整。

這裡也引入了一個單獨處理目前Token的向量,以補償潛在的退化。

RNN模型挑戰Transformer霸權! 1%成本性能比肩Mistral-7B,支援100+種語言全球最多圖片

RWKV可以在我們所說的時間並行模式下有效地並行化(矩陣乘法)。

在循環網路中,通常使用前一時刻的輸出作為當下時刻的輸入。這在語言模型的自回歸解碼推理中尤其明顯,它要求在輸入下一步之前計算每個令牌,從而使RWKV能夠利用其類似RNN的結構,稱為時間順序模式。

在這種情況下,RWKV可以方便地遞歸表述,以便在推理過程中進行解碼,它利用了每個輸出令牌僅依賴最新狀態的優勢,狀態的大小是恆定的,而與序列長度無關。

然後充當RNN解碼器,相對於序列長度產生恆定的速度和記憶體佔用,從而能夠更有效地處理較長的序列。

相比之下,自註意力的KV快取相對於序列長度不斷增長,從而導致效率下降,並隨著序列的延長而增加記憶體佔用和時間。

參考資料:

https://www.php.cn/link/fda2217a3921c464be73975603df7510

#

以上是RNN模型挑戰Transformer霸權! 1%成本性能比肩Mistral-7B,支援100+種語言全球最多的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
讓我們跳舞:結構化運動以微調我們的人類神經網讓我們跳舞:結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

Markitdown MCP可以將任何文檔轉換為Markdowns!Markitdown MCP可以將任何文檔轉換為Markdowns!Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理? - 分析Vidhya如何使用Google ADK進行建築代理? - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics Vidhya在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

如何將Google Gemini模型用於計算機視覺任務? - 分析Vidhya如何將Google Gemini模型用於計算機視覺任務? - 分析VidhyaApr 27, 2025 am 09:26 AM

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Apr 27, 2025 am 09:20 AM

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中