Google之後,Meta 也來卷無限長上下文。
Transformers的二次複雜度和弱長度外推限制了它們擴展到長序列的能力,雖然存在線性注意力力和狀態空間模型等次二次解決方案,但從以往經驗來看,它們在預訓練效率和下游任務準確性方面表現不佳。
近日,Google提出的Infini-Transformer引入了有效方法,可以將基於Transformer的大型語言模型(LLM)擴展到無限長輸入,而不增加儲存和運算需求,吸引了人們的注意。
幾乎就在同時,Meta 也提出了一種無限長文字技術。
論文網址:https://arxiv.org/pdf/2404.08801.pdf
論文標題:MEGALODON: Efficient LLM Pretraining and Inference with Unlimited Context Length
從技術上講,MEGA 中的 EMA 子層有助於捕獲每個 token 附近的本地上下文信息,從而緩解了在超出塊邊界的上下文中丟失信息的問題。儘管 MEGA 取得了令人深刻的印象,但面臨以下問題:
i)由於 MEGA 中 EMA 子層的表達能力有限,具有塊級注意力的 MEGA 性能仍然落後於全注意力 MEGA。
ii) 對於不同的任務、資料類型,最終的 MEGA 架構可能有架構差異,例如,不同的歸一化層、歸一化模式和注意力函數 f (・) 。
iii) 沒有實證顯示 MEGA 可擴展用於大規模預訓練。
CEMA:將多維阻尼EMA 擴展到複數域
為了解決MEGA 面臨的問題,該研究提出了MEGALODON。
具體而言,他們創造性地提出了複指數移動平均CEMA( complex exponential moving average ),將上式(1)改寫為如下形式:
#並將(2)中的θ_j 參數化為:
#時間步(Timestep)歸一化
儘管層歸一化與Transformer 結合的性能令人印象深刻,但很明顯,層歸一化不能直接減少沿空間維度(也稱為時間步長或序列維度)的內部協變量偏移。
在 MEGALODON 中,該研究透過計算累積平均值和變異數將組別歸一化擴展到自迴歸情況。
圖 2 說明了層歸一化和時間步標準化。
MEGALODON 中的歸一化注意力
此外,研究還提出了專門為MEGA 定制的歸一化注意力機制,以提高其穩定性。形式如下:
則上式(17) 中的注意力運算改為:
##具有Two-hop 殘差的預範數(Pre-Norm)
透過調查發現,擴大模型大小會造成預歸一化不穩定問題。基於Transformer 區塊的預歸一化可以表示為(如圖3 (b) 所示):實驗
#為了評估MEGALODON 在長上下文序列建模上的可擴展性和效率,本文將MEGALODON 擴展到70 億規模大小。LLM 預訓練
為了提高資料效率,研究者在訓練過程中顯示了MEGALODON-7B、LLAMA2-7B 和LLAMA2-13B 的負對數似然(NLL),如圖1 所示。 在相同數量的訓練 token 下,MEGALODON-7B 獲得了比 LLAMA2-7B 明顯更好(更低)的 NLL,表現出更好的數據效率。圖 4 說明了分別使用 4K 和 32K 上下文長度的 LLAMA2-7B 和 MEGALODON-7B 在每個裝置上的平均 WPS( word/token per second )。對於 LLAMA2 模型,研究使用 Flash-Attention V2 加速全注意力的計算。在 4K 上下文長度下,由於引入了 CEMA 和時間步歸一化,MEGALODON-7B 比 LLAMA2-7B 稍慢(約 6%)。當將上下文長度擴展到 32K 時,MEGALODON-7B 明顯比 LLAMA2-7B 快(約 32%),這證明了 MEGALODON 對於長上下文預訓練的計算效率。
短上下文評估
表1 總結了MEGALODON 和LLAMA2 在學術基準上的結果,以及其他開源基礎模型,包括MPT、RWKV 、Mamba 、 Mistral 和Gemma 的比較結果。在相同的 2T token 上進行預訓練後,MEGALODON-7B 在所有基準測試中均優於 LLAMA2-7B。在某些任務上,MEGALODON-7B 的表現與 LLAMA2-13B 相當甚至更好。
長上下文評估
#圖5 顯示了驗證資料集在4K 到2M 各種上下文長度下的困惑度( PPL)。可以觀察到 PPL 隨著上下文長度單調下降,驗證了 MEGALODON 在建模極長序列方面的有效性和穩健性。
指令微調
表 3 總結了 7B 模型在 MT-Bench 上的表現。與 Vicuna 相比,MEGALODON 在 MT-Bench 上表現出優越的性能,並且與 LLAMA2-Chat 相當,而後者利用 RLHF 進行了進一步的對齊微調。
中型基準評估
為了評估MEGALODON 在影像分類任務上的效能,該研究在Imagenet-1K 資料集上進行了實驗。表 4 報告了驗證集上的 Top-1 準確率。 MEGALODON 的準確率比 DeiT-B 提高了 1.3%,比 MEGA 提高了 0.8%。
表5 說明了MEGALODON 在PG-19 上的字級困惑度(PPL),以及與先前最先進的模型,包括Compressive Transformer 、Perceiver AR、Perceiver AR、區塊循環Transformer 和MEGABYTE 等的比較。 MEGALODON 性能明顯領先。
更詳細內容請參考論文原文。
以上是Meta無限長文本大模型來了:參數僅7B,已開源的詳細內容。更多資訊請關注PHP中文網其他相關文章!

法律技術革命正在獲得動力,促使法律專業人員積極採用AI解決方案。 對於那些旨在保持競爭力的人來說,被動抵抗不再是可行的選擇。 為什麼技術採用至關重要? 法律專業人員

許多人認為與AI的互動是匿名的,與人類交流形成了鮮明的對比。 但是,AI在每次聊天期間都會積極介紹用戶。 每個單詞的每個提示都經過分析和分類。讓我們探索AI Revo的這一關鍵方面

成功的人工智能戰略,離不開強大的企業文化支撐。正如彼得·德魯克所言,企業運作依賴於人,人工智能的成功也同樣如此。 對於積極擁抱人工智能的組織而言,構建適應AI的企業文化至關重要,它甚至決定著AI戰略的成敗。 西蒙諾諮詢公司(West Monroe)近期發布了構建蓬勃發展的AI友好型企業文化的實用指南,以下是一些關鍵要點: 1. 明確AI的成功模式: 首先,要對AI如何賦能業務有清晰的願景。理想的AI運作文化,能夠實現人與AI系統之間工作流程的自然融合。 AI擅長某些任務,而人類則擅長創造力、判

Meta升級AI助手應用,可穿戴式AI時代來臨!這款旨在與ChatGPT競爭的應用,提供文本、語音交互、圖像生成和網絡搜索等標準AI功能,但現在首次增加了地理位置功能。這意味著Meta AI在回答你的問題時,知道你的位置和正在查看的內容。它利用你的興趣、位置、個人資料和活動信息,提供最新的情境信息,這在以前是無法實現的。該應用還支持實時翻譯,這徹底改變了Ray-Ban眼鏡上的AI體驗,使其實用性大大提升。 對外國電影徵收關稅是對媒體和文化的赤裸裸的權力行使。如果實施,這將加速向AI和虛擬製作的

人工智能正在徹底改變網絡犯罪領域,這迫使我們必須學習新的防禦技巧。網絡罪犯日益利用深度偽造和智能網絡攻擊等強大的人工智能技術進行欺詐和破壞,其規模前所未有。據報導,87%的全球企業在過去一年中都成為人工智能網絡犯罪的目標。 那麼,我們該如何避免成為這波智能犯罪的受害者呢?讓我們探討如何在個人和組織層面識別風險並採取防護措施。 網絡罪犯如何利用人工智能 隨著技術的進步,犯罪分子不斷尋找新的方法來攻擊個人、企業和政府。人工智能的廣泛應用可能是最新的一個方面,但其潛在危害是前所未有的。 特別是,人工智

最好將人工智能(AI)與人類智力(NI)之間的複雜關係理解為反饋循環。 人類創建AI,對人類活動產生的數據進行培訓,以增強或複制人類能力。 這個AI

Anthropic最近的聲明強調了有關尖端AI模型缺乏了解,引發了專家之間的激烈辯論。 這是一個真正的技術危機,還是僅僅是通往更秘密的道路上的臨時障礙

印度是一個多元化的國家,具有豐富的語言,使整個地區的無縫溝通成為持續的挑戰。但是,Sarvam的Bulbul-V2正在幫助彌合其高級文本到語音(TTS)T


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3漢化版
中文版,非常好用

Dreamweaver CS6
視覺化網頁開發工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Atom編輯器mac版下載
最受歡迎的的開源編輯器