如果你曾經與任何一款對話式 AI 機器人交流過,你一定會記得一些令人感到非常沮喪的時刻。例如,你在前一天的對話中提到的重要事項,被AI 完全忘記了…
這是因為目前的多數LLM 只能記住有限的上下文,就像為考試而臨時抱佛腳的學生,稍加盤問就會「露出馬腳」。
如果AI助理能夠在聊天中根據上下文參考幾週或幾個月前的對話,或者你可以要求AI助理總結長達數千頁的報告,那麼這樣的能力是不是令人羨慕呢?
為了讓LLM能夠更好地記住和記住更多內容,研究人員一直在不斷努力。最近,來自麻省理工學院、Meta AI和卡內基美隆大學的研究人員提出了一種名為“StreamingLLM”的方法,使得語言模型能夠流暢地處理無窮無盡的文本
- 論文網址:https://arxiv.org/pdf/2309.17453.pdf
- #計畫網址:https://github.com/mit-han-lab/streaming-llm
StreamingLLM 的工作原理是識別並保存模型固有的「注意力池」(attention sinks)錨定其推理的初始token。結合最近 token 的滾動緩存,StreamingLLM 的推理速度提高了 22 倍,而不需要犧牲任何的準確性。短短幾天,該專案在GitHub 平台已斬獲2.5K 星:
#具體來說,StreamingLLM 是一種使語言模型能夠準確無誤地記住上一場比賽的得分、新生兒的名字、冗長的合約或辯論內容的技術。就像為 AI 助理升級了記憶體一樣,它能夠完美地處理更繁重的工作
#接下來讓我們看看技術細節。
方法創新
通常,LLM 在預訓練時受到注意力視窗的限制。儘管為擴大此視窗大小、提高訓練和推理效率,先前已有很多工作,但 LLM 可接受的序列長度仍然是有限的,這對於持久部署來說並不友善。
在這篇論文中,研究者首先介紹了LLM 流應用的概念,並提出了一個問題:「能否在不犧牲效率和性能的情況下以無限長輸入部署LLM?」
將LLM 應用於無限長輸入流時,會面臨兩個主要挑戰:
1、在解碼階段,基於transformer 的LLM 會快取所有先前token 的Key 和Value 狀態(KV),如圖1 (a) 所示,這可能會導致記憶體使用過多,並增加解碼延遲;
#2、現有模型的長度外推能力有限,即當序列長度超過預訓練時設定的注意力視窗大小時,其表現就會下降。
一種直覺的方法稱為視窗注意力(Window Attention)(如圖1 b),這種方法只在最近token的KV 狀態上保持一個固定大小的滑動窗口,雖然能確保在緩存填滿後仍能保持穩定的內存使用率和解碼速度,但一旦序列長度超過緩存大小,甚至只是驅逐第一個token 的KV,模型就會崩潰。另一種方法是重新計算滑動視窗(如圖1 c 所示),這種方法會為每個產生的token 重建最近token 的KV 狀態,雖然效能強大,但需要在視窗內計算二次注意力,因此速度明顯較慢,在實際的串流應用上並不理想。
在研究視窗注意力失效的過程中,研究人員發現了一個有趣的現象:根據圖2顯示,大量的注意力分數被分配給了初始的標記,而不論這些標記是否與語言建模任務相關
#研究者將這些token 稱為「注意力池」:儘管它們缺乏語意上的意義,但卻佔據了大量的注意力分數。研究者將這一現象歸因於Softmax(要求所有上下文token 的注意力分數總和為1),即使當前查詢在許多以前的token 中沒有很強的匹配,模型仍然需要將這些不需要的注意力值分配到某處,從而使其總和為1。初始 token 成為「池」的原因很直觀:由於自回歸語言建模的特性,初始 token 對幾乎所有後續 token 都是可見的,這使得它們更容易被訓練成註意力池。
根據上述洞察,研究者提出了StreamingLLM。這是一個簡單而高效的框架,可以讓使用有限注意力視窗訓練的注意力模型在不進行微調的情況下處理無限長的文字
StreamingLLM 利用了注意力池具有高注意力值這一事實,保留這些注意力池可以使注意力分數分佈接近常態分佈。因此,StreamingLLM 只需保留注意力池 token 的 KV 值(只需 4 個初始 token 即可)和滑動視窗的 KV 值,就能錨定注意力計算並穩定模型的效能。
使用StreamingLLM,包括Llama-2-[7,13,70] B、MPT-[7,30] B、Falcon-[7,40] B 和Pythia [2.9 ,6.9,12] B 在內的模型可以可靠地模擬400 萬個token,甚至更多。
與重新計算滑動視窗相比,StreamingLLM 的速度提高了22.2倍,而沒有影響效能的損失
評估
#在實驗中,如圖3所示,對於跨度為20K個標記的文本,StreamingLLM的困惑度與重新計算滑動視窗的Oracle基準相當。同時,當輸入長度超過預訓練視窗時,密集注意力會失效,而當輸入長度超過快取大小時,視窗注意力會陷入困境,導致初始標記被剔除
圖5 進一步證實了StreamingLLM 的可靠性,它可以處理非常規規模的文本,包括400 多萬個標記,涵蓋了各種模型系列和規模。這些模型包括Llama-2-[7,13,70] B、Falcon-[7,40] B、Pythia-[2.8,6.9,12] B 和MPT-[7,30] B
#隨後,研究者證實了「注意力池」的假設,並證明語言模型可以通過預訓練,在流式部署時只需要一個注意力池token。具體來說,他們建議在所有訓練樣本的開頭多加一個可學習的 token,作為指定的注意力池。透過從頭開始預訓練 1.6 億個參數的語言模型,研究者證明了本文方法可以維持模型的效能。這與目前的語言模型形成了鮮明對比,後者需要重新引入多個初始 token 作為注意力池才能達到相同的表現水準。
最後,研究者進行了StreamingLLM 的解碼延遲和記憶體使用率與重新計算滑動視窗的比較,並在單一英偉達A6000 GPU 上使用Llama-2-7B 和Llama- 2-13B 模型進行了測試。根據圖10的結果顯示,隨著快取大小的增加,StreamingLLM 的解碼速度呈現線性成長,而解碼延遲則呈現二次曲線上升。實驗證明,StreamingLLM 實現了令人印象深刻的提速,每個token 的速度提升高達22.2倍
##更多研究細節,可參考原論文。
以上是最多400萬token上下文、推理加速22倍,StreamingLLM火了,已獲GitHub 2.5K星的詳細內容。更多資訊請關注PHP中文網其他相關文章!

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Dreamweaver Mac版
視覺化網頁開發工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SublimeText3漢化版
中文版,非常好用

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具