搜尋
首頁科技週邊人工智慧4k視窗長度就能讀長文,陳丹琦高徒聯手Meta推出大模型記憶力增強新方法

只有4k視窗長度的大模型,也能閱讀大段文字了!

普林斯頓的華人博士生的一項最新成果,成功「突破」了大模型窗口長度的限制。

不僅能回答各種問題,整個實現的過程全靠prompt就能完成,不需要任何的額外訓練

4k視窗長度就能讀長文,陳丹琦高徒聯手Meta推出大模型記憶力增強新方法

研究團隊創建了一種名為MemWalker的樹狀記憶策略,可以突破模型本身的視窗長度限制。

測驗過程中,模型閱讀的最長文字包含了1.2萬 token,成績相比LongChat大幅提升。

4k視窗長度就能讀長文,陳丹琦高徒聯手Meta推出大模型記憶力增強新方法

相比於相似的TreeIndex,MemWalker可以進行推理並回答任何問題,而不是只做概括。

MemWalker的研發利用到了「分而治之」的思想,就此有網友這樣評論:

每次我們讓大模型的思考過程更像人類,它們的表現就會越好

4k視窗長度就能讀長文,陳丹琦高徒聯手Meta推出大模型記憶力增強新方法

那麼,具體什麼是樹狀記憶策略,又是如何用有限的視窗長度閱讀長文本的呢?

一個視窗不夠,就多開幾個

模型上,MemWalker使用Stable Beluga 2作為基本模型,它是Llama 2-70B經過指令調優得到的。

在選擇該模型之前,開發者對比了其與原始Llama 2的表現,並最終確定選用。

4k視窗長度就能讀長文,陳丹琦高徒聯手Meta推出大模型記憶力增強新方法

就像MemWalker這個名字一樣,它的工作過程就像記憶流在行走。

具體來看,大致分為記憶樹建構導航檢索兩個階段。

4k視窗長度就能讀長文,陳丹琦高徒聯手Meta推出大模型記憶力增強新方法

建構記憶樹時,長文本會被分割成多個小段(seg1-6),並由大模型分別針對每一段做出總結,得到「葉子節點(leaf nodes,summ1-6)

分割時,每段的長度越長,層級就會越少​​,有利於後續檢索,但其本身過長又會導致準確度下降,因此需要綜合考慮確定每段長度。

作者認為,每一段合理的長度是500-2000token,而實驗中使用的為1000token。

4k視窗長度就能讀長文,陳丹琦高徒聯手Meta推出大模型記憶力增強新方法

然後,模型遞歸地將這些葉子節點的內容再次進行總結,形成「非葉節點(non-leaf nodes,summ7-8)

二者的另一個差異是,葉子節點包含了原始資訊,非葉節點只有概括得到的二級資訊

作用上,非葉節點用來導覽定位答案所在的葉子節點,而葉子節點則用來推理出答案。

其中的非葉節點可以有多個層級,模型逐步進行總結概括,直到得到“根節點”,形成完整的樹狀結構。

記憶樹建立完畢後,就可以進入導覽檢索階段來產生答案了。

4k視窗長度就能讀長文,陳丹琦高徒聯手Meta推出大模型記憶力增強新方法

這過程中,模型從根節點開始,逐一讀取下級子節點的內容,然後推論出應該進入這個節點還是返回。

決定進入這個節點之後,再次重複這樣的過程,直到讀取到葉節點。如果葉節點的內容適合則產生答案,否則回傳。

為了確保答案的完整性,這個過程的結束條件並非發現了一個合適的葉節點,而是模型認為得到了完整答案,或達到最大步數。

導航過程中,如果模型發現進入了錯誤的路徑,也可以導航回退。

此外,MemWalker中還引入了工作記憶機制來提高準確度。

4k視窗長度就能讀長文,陳丹琦高徒聯手Meta推出大模型記憶力增強新方法

該機制會將已經造訪過的節點內容加入到目前內容的上下文中。

當模型進入一個新節點時,目前節點內容都會被加入記憶中。

這個機制讓模型在每一步都可以利用訪問過的節點內容,避免重要資訊的遺失。

實驗結果顯示,工作記憶機制可以將MemWalker的準確率提升約10%。

而且,上面所說的過程只依靠prompt就能完成,不需要進行額外的訓練。

4k視窗長度就能讀長文,陳丹琦高徒聯手Meta推出大模型記憶力增強新方法

理論上,只要有足夠的算力,MemWalker可以閱讀無限長的文本。

不過,記憶樹建構時的時間和空間複雜度隨著文字長度的增長是指數型的。

作者簡介

論文第一作者是普林斯頓大學NLP實驗室華人博士生Howard Chen。

清華姚班校友陳丹琦是Howard的導師,她今年在ACL上的學術報告也與搜尋有關。

這項成果是Howard在Meta實習期間完成的,Meta AI實驗室的Ramakanth Pasunuru,Jason Weston和Asli Celikyilmaz三位學者也參與了本計畫。

論文網址:https://arxiv.org/abs/2310.05029

以上是4k視窗長度就能讀長文,陳丹琦高徒聯手Meta推出大模型記憶力增強新方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器