在大家不斷升級迭代自家大模型的時候,LLM(大語言模型)對上下文視窗的處理能力,也成為重要評估指標。
例如 OpenAI 的 gpt-3.5-turbo 提供 16k token 的上下文視窗選項,AnthropicAI 的更是將 Claude 處理 token 能力提升到 100k。大模型處理上下文視窗是個什麼概念,就拿 GPT-4 支援 32k token 來說,這相當於 50 頁的文字,意味著在對話或生成文本時,GPT-4 最多可以記住 50 頁左右內容。
一般來講,大語言模型處理上下文視窗大小的能力是預定好的。例如,Meta AI 發布的 LLaMA 模型,其輸入 token 大小必須少於 2048。
然而,在進行長對話、總結長文檔或執行長期計劃等應用程式中,經常會超過預先設定的上下文視窗限制,因而,能夠處理更長上下文視窗的LLM 更受歡迎。
但這又面臨一個新的問題,從頭開始訓練具有較長上下文視窗的 LLM 需要很大的投入。這自然引出一個疑問:我們能否擴展現有的預訓練 LLM 的上下文視窗?
一種直接的方法是對現有的預訓練 Transformer 進行微調,以獲得更長的上下文視窗。然而,實證結果表明,使用這種方式訓練的模型對長上下文視窗的適應速度非常慢。經過 10000 個批次的訓練後,有效的情境視窗增加仍然非常小,僅從 2048 增加到 2560(實驗部分的表 4 可以看出)。這表明這種方法在擴展到更長的上下文視窗上效率低下。
本文中,來自Meta 的研究者引入了位置插值(Position Interpolation,PI)來對某些現有的預訓練LLM(包括LLaMA)的上下文視窗進行擴充。結果表明,LLaMA 上下文視窗從 2k 擴展到 32k,只需要小於 1000 步的微調。
圖片
論文網址:https://arxiv.org/pdf/2306.15595.pdf
#該研究的關鍵思想不是進行外推(extrapolation),而是直接縮小位置索引,使得最大位置索引與預訓練階段的上下文視窗限制相符。換句話說,為了容納更多的輸入token,該研究在相鄰的整數位置上插值位置編碼,利用了位置編碼可以應用於非整數位置的事實,與在訓練過的位置之外進行外推相比,後者可能導致災難性的數值。
PI 方法將基於RoPE(旋轉位置編碼)的預訓練LLM(如LLaMA)的上下文視窗大小擴展到最多32768,只需進行最小的微調(在1000 個步驟內),這項研究在需要長上下文的各種任務上表現較好,包括檢索、語言建模以及從LLaMA 7B 到65B 的長文檔摘要。同時,透過 PI 擴展的模型在其原始上下文視窗內相對保持了較好的品質。
方法
在我們比較熟悉的LLaMA、ChatGLM-6B、PaLM 等大語言模型中,都有RoPE 身影,該方法由追一科技蘇劍林等人提出,RoPE 透過絕對編碼的方式實現了相對位置編碼。
雖然 RoPE 中的注意力分數只取決於相對位置,但它的外推表現並不好。特別是,當直接擴展到更大的上下文視窗時,困惑度可能會飆升到非常高的數字 (即 > 10^3)。
本文採用位置內插的方法,其與外推方法的比較如下。由於基底函數 ϕ_j 的平滑性,內插法更加穩定,不會導致野值。
圖片
該研究將RoPE f 替換為f ′,並得到如下公式
该研究将在位置编码上的转换称为位置插值。这一步将位置索引从 [0, L′ ) 缩减到 [0, L) ,以匹配计算 RoPE 前的原始索引范围。因此,作为 RoPE 的输入,任意两个 token 之间的最大相对距离已从 L ′ 缩减到 L。通过在扩展前后对位置索引和相对距离的范围进行对齐,减轻了由于上下文窗口扩展而对注意力分数计算产生的影响,这使得模型更容易适应。
值得注意的是,重新缩放位置索引方法不会引入额外的权重,也不会以任何方式修改模型架构。
实验
该研究展示了位置插值可以有效地将上下文窗口扩展到原始大小的 32 倍,并且这种扩展只需进行几百个训练步骤即可完成。
表 1 和表 2 报告了 PI 模型和基线模型在 PG-19 、 Arxiv Math Proof-pile 数据集上的困惑度。结果表明使用 PI 方法扩展的模型在较长的上下文窗口大小下显著改善了困惑度。
表 3 报告了在 PG19 数据集上使用 PI 方法,将 LLaMA 7B 模型扩展到 8192 和 16384 上下文窗口大小时的困惑度与微调步数之间的关系。
由结果可得,在没有微调的情况下(步数为 0),模型可以展现出一定的语言建模能力,如将上下文窗口扩展到 8192 时的困惑度小于 20(相比之下,直接外推方法的困惑度大于 10^3)。在 200 个步骤时,模型的困惑度超过了 2048 上下文窗口大小下原始模型的困惑度,表明模型能够有效利用比预训练设置更长的序列进行语言建模。在 1000 个步骤时可以看到模型稳步改进,并取得了更好的困惑度。
图片
下表表明,通过 PI 扩展的模型在有效上下文窗口大小方面都成功地实现了扩展目标,即仅通过微调 200 个步骤后,有效上下文窗口大小达到最大值,在 7B 和 33B 模型大小以及最高 32768 上下文窗口的情况下保持一致。相比之下,仅通过直接微调扩展的 LLaMA 模型的有效上下文窗口大小仅从 2048 增加到 2560,即使经过 10000 多个步骤的微调,也没有明显加速窗口大小增加的迹象。
图片
表 5 显示扩展到 8192 的模型在原始基准任务上产生了可比较的结果,而该基准任务是针对更小的上下文窗口设计的,对于 7B 和 33B 模型大小,在基准任务中的退化最多达到 2%。
图片
表 6 表明,具有 16384 上下文窗口的 PI 模型,可以有效地处理长文本摘要任务。
图片
以上是田徑棟團隊新研究:微調的詳細內容。更多資訊請關注PHP中文網其他相關文章!

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

禪工作室 13.0.1
強大的PHP整合開發環境

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3漢化版
中文版,非常好用

Atom編輯器mac版下載
最受歡迎的的開源編輯器