首頁  >  文章  >  科技週邊  >  介紹RWKV:線性Transformers的興起與探索替代方案

介紹RWKV:線性Transformers的興起與探索替代方案

WBOY
WBOY轉載
2023-09-27 14:01:272676瀏覽

以下是我在RWKV播客中的一些想法摘要:https://www.php. cn/link/9bde76f262285bb1eaeb7b40c758b53e

介紹RWKV:線性Transformers的興起與探索替代方案



1為什麼替代方案的重要性如此突出?


隨著2023年的人工智慧革命,Transformer架構目前正處於巔峰。然而,由於人們急於採用成功的Transformer架構,所以會容易忽略可以藉鏡的替代品。

身為工程師,我們不應該採取一刀切的方法,對每個問題都使用相同的解決方案。我們應該在每一個情況下權衡利弊;否則將會被困在特定平台的限制範圍內,同時因不知道有其他選擇而感到“滿足”,這可能會使發展一夜回到解放前

  • 這個問題並不是人工智慧領域獨有的,而是從古到今都在重複的歷史模式。
  • SQL戰爭歷史的一頁,是關於資料庫管理系統之間的競爭和對抗的故事。在這個故事中,各種資料庫管理系統如Oracle、MySQL和SQL Server等,為了爭取市場佔有率和技術優勢,展開了激烈的競爭。這些競爭不僅體現在效能和功能方面,還涉及商業策略、市場推廣以及用戶滿意度等多個方面。這些資料庫管理系統不斷地推出新的功能和改進,以吸引更多的用戶和企業選擇他們的產品。 SQL戰爭歷史的一頁,見證了資料庫管理系統產業的發展與變革,也為我們提供了寶貴的經驗與教訓

最近在軟體開發中有一個值得注意的例子是,當SQL伺服器開始受到實體限制時,就出現了NoSQL的趨勢。世界各地的新創公司都因為"規模"的原因轉向了NoSQL,儘管它們遠未達到這些規模

然而,隨著時間的推移,隨著最終一致性和NoSQL管理開銷的出現,以及硬體功能在SSD速度和容量方面的巨大飛躍,SQL伺服器最近又出現了回歸的趨勢,因為它們使用簡單性,並且現在90%以上的新創公司都有足夠的可擴展性

SQL和NoSQL是兩種不同的資料庫技術。 SQL是結構化查詢語言的縮寫,主要用於處理結構化資料。 NoSQL則是指非關聯式資料庫,適用於處理非結構化或半結構化資料。 雖然有人認為SQL比NoSQL更好,或者反之亦然,但實際上這只是意味著每種技術都有自己的優缺點和適用場景。在某些情況下,SQL可能更適合處理複雜的關係型數據,而NoSQL則更適合處理大規模的非結構化資料。 然而,這並不意味著只能選擇其中一種技術。實際上,許多應用程式和系統在實踐中使用了SQL和NoSQL的混合解決方案。根據特定的需求和資料類型,可以選擇最適合的技術來解決問題。 因此,重要的是理解每種技術的特點和適用場景,並根據具體情況做出明智的選擇。無論是SQL或NoSQL,都有其獨特的學習點和首選用例,可以在類似技術中相互借鑒和交叉傳播

目前Transformer

架構最大的痛點是什麼?

###通常,這包括計算、上下文大小、資料集和對齊。在本次討論中,我們將重點討論計算和上下文長度:######################由於使用/生成的每個令牌的O(N^ 2)增加而導致的二次計算成本。這使得大於10萬的上下文大小非常昂貴,從而影響推理和訓練。 ##################目前的GPU短缺加劇了這個問題。 ##################上下文大小限制了Attention機制,嚴重限制了「智慧代理」用例(如smol-dev),並強制解決問題。較大的上下文需要較少的解決方法。 #####################那麼,我們該如何解決這個問題呢? ##############################介紹RWKV:一種線性T######ransformer###### /現代大型RNN#####################RWKV和微軟RetNet是被稱為「線性Transformer」的新類別中的第一個###### #############它透過支援以下內容直接解決了上述三個限制:############
  • 線性計算成本,與上下文大小無關。
  • 在CPU(尤其是ARM)中,允許以更低的要求在RNN模式下輸出合理的令牌/秒。
  • 沒有作為RNN的硬上下文大小限制。文件中的任何限制都是指導原則——您可以對其進行微調。

隨著我們不斷將人工智慧模型擴展到10##0k及以上的上下文大小,二次方計算成本開始呈指數級增長。

然而,線性Transformer並沒有放棄遞歸神經網路架構及解決其瓶頸,這迫使它們被取代。

不過,重新設計的RNN吸取了Transformer可擴展的經驗教訓,使RNN能與Transformer運作方式類似,並消除了這些瓶頸。

在訓練速度方面,用Transformer讓它們重返賽場——允許它們在O(N)成本下高效運行,同時在訓練中擴展到10億個參數以上,同時維持類似的性能水準。

介紹RWKV:線性Transformers的興起與探索替代方案

圖表:線性Transformer計算成本以每個令牌線性縮放與變換器的指數增長


當你將平方比例應用於線性縮放時,你會在2k令牌計數時獲得10倍以上的增長,在100k令牌長度時獲得100倍以上的成長

在14B參數下,RWKV是最大的開源線性Transformer,與GPT NeoX和其他類似資料集(如the Pile)不相上下。


介紹RWKV:線性Transformers的興起與探索替代方案

#RWKV模型的性能與現有規模的現有變壓器模型相當,各種基準顯示


但用更簡單的話來說,這代表什麼?


  • 在較大的上下文大小中,推理/訓練比Transformer便宜10倍甚至更多
  • 在RNN模式下,可以非常在有限的硬體上緩慢運行
  • 與相同資料集上的Transformer效能相似
  • # #RNN沒有技術上下文大小限制(無限上下文!)


  • ##滑動視窗問題,有損記憶體超過某一點
  • ##可擴展到14B參數以上
  • 不如變壓器優化和採用


##因此,儘管RWKV還沒有達到像LLaMA2那樣的60B 參數規模,但只要有正確的支持和資源,它有可能以更低的成本和更廣泛的環境來實現這一目標,特別是在模型趨向於更小、更有效率的情況下

如果您的用例對效率很重要,請考慮這一點。然而,這並非最終解決方案——關鍵在於健康的替代品


#我們應該考慮學習其他替代方案以及它們的好處

擴散模型:文字訓練速度較慢,但對多時期訓練具有極高的彈性。找出原因可以幫助緩解代幣危機。

產生對抗性網路/代理:可以在沒有資料集的情況下,使用技術將所需的訓練集訓練到特定目標,即使是基於文本的模型。

######原文標題:######Introducing RWKV: The Rise of Linear Transformers and Exploring Alternatives### ###,作者:######picocreator#####################https://www.php.cn/link/b433da1b32b5ca96c0ba7fcb9edba97d############################################################################################。 ############

以上是介紹RWKV:線性Transformers的興起與探索替代方案的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除