只有4k視窗長度的大模型,也能閱讀大段文字了!
普林斯頓的華人博士生的一項最新成果,成功「突破」了大模型窗口長度的限制。
不僅能回答各種問題,整個實現的過程全靠prompt就能完成,不需要任何的額外訓練。
研究團隊創建了一種名為MemWalker的樹狀記憶策略,可以突破模型本身的視窗長度限制。
測驗過程中,模型閱讀的最長文字包含了1.2萬 token,成績相比LongChat大幅提升。
相比於相似的TreeIndex,MemWalker可以進行推理並回答任何問題,而不是只做概括。
MemWalker的研發利用到了「分而治之」的思想,就此有網友這樣評論:
每次我們讓大模型的思考過程更像人類,它們的表現就會越好
那麼,具體什麼是樹狀記憶策略,又是如何用有限的視窗長度閱讀長文本的呢?
一個視窗不夠,就多開幾個
模型上,MemWalker使用Stable Beluga 2作為基本模型,它是Llama 2-70B經過指令調優得到的。
在選擇該模型之前,開發者對比了其與原始Llama 2的表現,並最終確定選用。
就像MemWalker這個名字一樣,它的工作過程就像記憶流在行走。
具體來看,大致分為記憶樹建構和導航檢索兩個階段。
建構記憶樹時,長文本會被分割成多個小段(seg1-6),並由大模型分別針對每一段做出總結,得到「葉子節點」(leaf nodes,summ1-6)。
分割時,每段的長度越長,層級就會越少,有利於後續檢索,但其本身過長又會導致準確度下降,因此需要綜合考慮確定每段長度。
作者認為,每一段合理的長度是500-2000token,而實驗中使用的為1000token。
然後,模型遞歸地將這些葉子節點的內容再次進行總結,形成「非葉節點」(non-leaf nodes,summ7-8)。
二者的另一個差異是,葉子節點包含了原始資訊,非葉節點只有概括得到的二級資訊。
作用上,非葉節點用來導覽定位答案所在的葉子節點,而葉子節點則用來推理出答案。
其中的非葉節點可以有多個層級,模型逐步進行總結概括,直到得到“根節點”,形成完整的樹狀結構。
記憶樹建立完畢後,就可以進入導覽檢索階段來產生答案了。
這過程中,模型從根節點開始,逐一讀取下一級子節點的內容,然後推論出應該進入這個節點還是返回。
決定進入這個節點之後,再次重複這樣的過程,直到讀取到葉節點。如果葉節點的內容適合則產生答案,否則回傳。
為了確保答案的完整性,這個過程的結束條件並非發現了一個合適的葉節點,而是模型認為得到了完整答案,或達到最大步數。
導航過程中,如果模型發現進入了錯誤的路徑,也可以導航回退。
此外,MemWalker中還引入了工作記憶機制來提高準確度。
該機制會將已經造訪過的節點內容加入到目前內容的上下文中。
當模型進入一個新節點時,目前節點內容都會被加入記憶中。
這個機制讓模型在每一步都可以利用訪問過的節點內容,避免重要資訊的遺失。
實驗結果顯示,工作記憶機制可以將MemWalker的準確率提升約10%。
而且,上面所說的過程只依靠prompt就能完成,不需要進行額外的訓練。
理論上,只要有足夠的算力,MemWalker可以閱讀無限長的文本。
不過,記憶樹建構時的時間和空間複雜度隨著文字長度的增長是指數型的。
作者簡介
論文第一作者是普林斯頓大學NLP實驗室華人博士生Howard Chen。
清華姚班校友陳丹琦是Howard的導師,她今年在ACL上的學術報告也與搜尋有關。
這項成果是Howard在Meta實習期間完成的,Meta AI實驗室的Ramakanth Pasunuru,Jason Weston和Asli Celikyilmaz三位學者也參與了本計畫。
論文網址:https://arxiv.org/abs/2310.05029
以上是4k視窗長度就能讀長文,陳丹琦高徒聯手Meta推出大模型記憶力增強新方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

禪工作室 13.0.1
強大的PHP整合開發環境

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3漢化版
中文版,非常好用

Atom編輯器mac版下載
最受歡迎的的開源編輯器