首頁 >科技週邊 >人工智慧 >非Transformer架構站起來了！首個純無注意力大模型，超越開源巨頭Llama 3.1

非Transformer架構站起來了！首個純無注意力大模型，超越開源巨頭Llama 3.1

WBOY原創: 2024-08-13 16:37:46478瀏覽

Mamba 架構的大模型又一次向 Transformer 發起了挑戰。

Mamba 架構模型這次終於要「站」起來了？自 2023 年 12 月首次推出以來，Mamba 成為了 Transformer 的強大競爭對手。

此後，採用 Mamba 架構的模型不斷出現，例如 Mistral 發布的首個基於 Mamba 架構的開源大模型 Codestral 7B。

今天，阿布達比技術創新研究所（TII）發布了一個新的開源 Mamba 模型 ——Falcon Mamba 7B。

非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

先來總結一波 Falcon Mamba 7B 的亮點：無需增加內存存儲，就可以處理任意長度的序列，並且能夠在單個 24GB A10 GPU 上運行。

目前可以在 Hugging Face 上查看並使用Falcon Mamba 7B，這個僅用因果解碼器的模型採用了新穎的 Mamba 狀態空間語言模型（StateState Space Language Model, SSLM）架構來處理各種文字產生任務。

從結果來看，Falcon Mamba 7B 在一些基準上超越同尺寸級別的領先模型，包括 Meta 的 Llama 3 8B、Llama 3.1 8B 和 Mistral 7B。

非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

Falcon Mamba 7B 分為四個變體模型，分別是基礎版本、指令微調版本、4bit 版本和指令微調 4bit 版本。

非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

作為一個開源模型， Falcon Mamba 7B 採用了基於 Apache 2.0 的許可證“Falcon License 2.0”，支持研究和應用目的。

非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

Hugging Face 網址：https://huggingface.co/tiiuae/falcon-mamba-7b

首個Mamba SSLM 架構模型

。非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

首個通用的大型純Mamba 模型

一直以來，基於Transformer 的模型一直佔據著生成式AI 的統治地位，然而，研究人員注意到，Transformer 架構在處理較長的文字資訊時可能會遇到困難。

本質上，Transformer 中的注意力機制透過將每個單字（或token）與文本中的每個單字進行比較來理解上下文，它需要更多的運算能力和記憶體需求來處理不斷增長的上下文視窗。

但是如果不相應地擴展計算資源，模型推理速度就會變慢，超過一定長度的文本就沒法處理了。為了克服這些障礙，狀態空間語言模型(SSLM) 架構應運而生，該架構透過在處理單字時不斷更新狀態來運作，已成為一種有前途的替代方案，包括TII 在內的許多機構都在部署這種架構。

Falcon Mamba 7B 採用了卡內基美隆大學和普林斯頓大學研究人員最初在2023 年12 月的一篇論文中提出的 Mamba SSM 架構。

此架構使用一種選擇機制，允許模型根據輸入動態調整其參數。這樣，模型可以專注或忽略特定輸入，類似於注意力機制在 Transformer 中的工作方式，同時提供處理長文本序列（例如整本書）的能力，而無需額外的記憶體或計算資源。

TII 指出，該方法使模型適用於企業級機器翻譯、文字摘要、電腦視覺和音訊處理任務以及估計和預測等任務。

訓練資料

Falcon Mamba 7B

Falcon Mamba 7B > ，主要由 RefinedWeb 資料集組成，並添加了來自公共來源的高品質技術資料、程式碼資料和數學資料。所有資料透過 Falcon-7B/11B 標記器進行 tokenized 操作。

與其他 Falcon 系列模型類似，Falcon Mamba 7B 採用多階段訓練策略進行訓練，上下文長度從 2048 增加到了 8192

。此外，受到課程學習概念的啟發，TII 在整個訓練階段精心選擇了混合數據，充分考慮了數據的多樣性和複雜性。

在最後的訓練階段，TII 使用了一小部分高品質精選資料（即來自 Fineweb-edu 的樣本），以進一步提升效能。

訓練過程、超參數

Falcon Mamba 7B 的訓練大多

在256 個H100 80GB GPU 上完成

的，採用了3D 並行（TP=1、PP=1、DP=256）與ZeRO 結合的策略。下圖為模型超參數細節，包括精確度、最佳化器、最大學習率、權重衰減和 batch 大小。非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

具體而言，Falcon Mamba 7B 經過了AdamW 優化器、WSD（預熱- 穩定- 衰減）學習率計劃的訓練，並且在前50 GT 的訓練過程中，batch 大小從b_min=128 增加到了b_max =2048。

在穩定階段，TII 使用了最大學習率η_max=6.4×10^−4，然後使用超過500GT 的指數計劃將其衰減到最小值非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

。同時，TII 在加速階段採用了 BatchScaling 以重新調整學習率 η，使得 Adam 雜訊溫度非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

保持恆定。

整個模型訓練花了大約兩個月時間。

模型評估

為了了解Falcon Mambau 77B與相同尺寸等級模型相比如何，研究進行了一項測試，以確定使用單一24GB A10GPU 時模型可以處理的最大上下文長度。

結果顯示，Falcon Mamba 能夠比目前的 Transformer 模型適應更大的序列，同時理論上能夠適應無限的上下文長度。

非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

接下來，研究者使用批次大小為 1 ，硬體採用 H100 GPU 的設定中測量模型產生吞吐量。結果如下圖所示，Falcon Mamba 以恆定的吞吐量產生所有 token，且 CUDA 峰值記憶體沒有任何增加。對於 Transformer 模型，峰值記憶體會增加，生成速度會隨著產生的 token 數量的增加而減慢。

非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

即使在標準的行業基準測試中，新模型的性能也優於或接近流行的 transformer 模型以及純狀態空間模型和混合狀態空間模型。

例如，在Arc、TruthfulQA 和GSM8K 基準測試中，Falcon Mamba 7B 的得分分別為62.03%，53.42% 和52.54%，超過了Llama 342% Llama 3.1 8B, Gemma 7B 和Mistral 7B。然而，在 MMLU 和 Hellaswag 基準測試中，Falcon Mamba 7B 遠遠落後於這些模型。

非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

TII 首席研究員Hakim Hacid 在聲明中表示：Falcon Mamba 7B 的發布代表著該機構向前邁出的重大一步，它激發了新的觀點，並進一步推動了對智慧系統的探索。在 TII，他們正在突破 SSLM 和 transformer 模型的界限，以激發生成式 AI 的進一步創新。

目前，TII 的 Falcon 系列語言模型下載量已超過 4500 萬次 —— 成為阿聯酋最成功的 LLM 版本之一。

Falcon Mamba 7B 論文即將放出，大家可以等一等。

^{參考連結：}

^{://hugging.co/ blog/falconmamba}

^{https://venturebeat.com/ai/falcon-mamba-7bs-powerful-new-ai-architecture-offers-alternative-to -transformer-models/}

以上是非Transformer架構站起來了！首個純無注意力大模型，超越開源巨頭Llama 3.1的詳細內容。更多資訊請關注PHP中文網其他相關文章！

batch 架构 Token apache transformer https llama

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：首個支持國語和方言混說的TTS大模型：河南話、上海話、粵語說得溜下一篇：首個支持國語和方言混說的TTS大模型：河南話、上海話、粵語說得溜

看更多