搜尋
首頁科技週邊人工智慧田徑棟團隊新研究:微調

在大家不斷升級迭代自家大模型的時候,LLM(大語言模型)對上下文視窗的處理能力,也成為重要評估指標。

例如 OpenAI 的 gpt-3.5-turbo 提供 16k token 的上下文視窗選項,AnthropicAI 的更是將 Claude 處理 token 能力提升到 100k。大模型處理上下文視窗是個什麼概念,就拿 GPT-4 支援 32k token 來說,這相當於 50 頁的文字,意味著在對話或生成文本時,GPT-4 最多可以記住 50 頁左右內容。 

一般來講,大語言模型處理上下文視窗大小的能力是預定好的。例如,Meta AI 發布的 LLaMA 模型,其輸入 token 大小必須少於 2048。

然而,在進行長對話、總結長文檔或執行長期計劃等應用程式中,經常會超過預先設定的上下文視窗限制,因而,能夠處理更長上下文視窗的LLM 更受歡迎。

但這又面臨一個新的問題,從頭開始訓練具有較長上下文視窗的 LLM 需要很大的投入。這自然引出一個疑問:我們能否擴展現有的預訓練 LLM 的上下文視窗?

一種直接的方法是對現有的預訓練 Transformer 進行微調,以獲得更長的上下文視窗。然而,實證結果表明,使用這種方式訓練的模型對長上下文視窗的適應速度非常慢。經過 10000 個批次的訓練後,有效的情境視窗增加仍然非常小,僅從 2048 增加到 2560(實驗部分的表 4 可以看出)。這表明這種方法在擴展到更長的上下文視窗上效率低下。

本文中,來自Meta 的研究者引入了位置插值(Position Interpolation,PI)來對某些現有的預訓練LLM(包括LLaMA)的上下文視窗進行擴充。結果表明,LLaMA 上下文視窗從 2k 擴展到 32k,只需要小於 1000 步的微調

田徑棟團隊新研究:微調<1000步,將LLaMA上下文擴展至32K圖片

論文網址:https://arxiv.org/pdf/2306.15595.pdf

#該研究的關鍵思想不是進行外推(extrapolation),而是直接縮小位置索引,使得最大位置索引與預訓練階段的上下文視窗限制相符。換句話說,為了容納更多的輸入token,該研究在相鄰的整數位置上插值位置編碼,利用了位置編碼可以應用於非整數位置的事實,與在訓練過的位置之外進行外推相比,後者可能導致災難性的數值。

田徑棟團隊新研究:微調<1000步,將LLaMA上下文擴展至32K

PI 方法將基於RoPE(旋轉位置編碼)的預訓練LLM(如LLaMA)的上下文視窗大小擴展到最多32768,只需進行最小的微調(在1000 個步驟內),這項研究在需要長上下文的各種任務上表現較好,包括檢索、語言建模以及從LLaMA 7B 到65B 的長文檔摘要。同時,透過 PI 擴展的模型在其原始上下文視窗內相對保持了較好的品質。

方法

在我們比較熟悉的LLaMA、ChatGLM-6B、PaLM 等大語言模型中,都有RoPE 身影,該方法由追一科技蘇劍林等人提出,RoPE 透過絕對編碼的方式實現了相對位置編碼。

雖然 RoPE 中的注意力分數只取決於相對位置,但它的外推表現並不好。特別是,當直接擴展到更大的上下文視窗時,困惑度可能會飆升到非常高的數字 (即 > 10^3)​​。

本文採用位置內插的方法,其與外推方法的比較如下。由於基底函數 ϕ_j 的平滑性,內插法更加穩定,不會導致野值。

田徑棟團隊新研究:微調<1000步,將LLaMA上下文擴展至32K圖片

 該研究將RoPE f 替換為f ′,並得到如下公式

田徑棟團隊新研究:微調<1000步,將LLaMA上下文擴展至32K

###圖片######

该研究将在位置编码上的转换称为位置插值。这一步将位置索引从 [0, L′ ) 缩减到 [0, L) ,以匹配计算 RoPE 前的原始索引范围。因此,作为 RoPE 的输入,任意两个 token 之间的最大相对距离已从 L ′ 缩减到 L。通过在扩展前后对位置索引和相对距离的范围进行对齐,减轻了由于上下文窗口扩展而对注意力分数计算产生的影响,这使得模型更容易适应。

值得注意的是,重新缩放位置索引方法不会引入额外的权重,也不会以任何方式修改模型架构。

实验

该研究展示了位置插值可以有效地将上下文窗口扩展到原始大小的 32 倍,并且这种扩展只需进行几百个训练步骤即可完成。

表 1 和表 2 报告了 PI 模型和基线模型在 PG-19 、 Arxiv Math Proof-pile 数据集上的困惑度。结果表明使用 PI 方法扩展的模型在较长的上下文窗口大小下显著改善了困惑度。

田徑棟團隊新研究:微調<1000步,將LLaMA上下文擴展至32K

田徑棟團隊新研究:微調<1000步,將LLaMA上下文擴展至32K

表 3 报告了在 PG19 数据集上使用 PI 方法,将 LLaMA 7B 模型扩展到 8192 和 16384 上下文窗口大小时的困惑度与微调步数之间的关系。

由结果可得,在没有微调的情况下(步数为 0),模型可以展现出一定的语言建模能力,如将上下文窗口扩展到 8192 时的困惑度小于 20(相比之下,直接外推方法的困惑度大于 10^3)。在 200 个步骤时,模型的困惑度超过了 2048 上下文窗口大小下原始模型的困惑度,表明模型能够有效利用比预训练设置更长的序列进行语言建模。在 1000 个步骤时可以看到模型稳步改进,并取得了更好的困惑度。

田徑棟團隊新研究:微調<1000步,將LLaMA上下文擴展至32K图片

下表表明,通过 PI 扩展的模型在有效上下文窗口大小方面都成功地实现了扩展目标,即仅通过微调 200 个步骤后,有效上下文窗口大小达到最大值,在 7B 和 33B 模型大小以及最高 32768 上下文窗口的情况下保持一致。相比之下,仅通过直接微调扩展的 LLaMA 模型的有效上下文窗口大小仅从 2048 增加到 2560,即使经过 10000 多个步骤的微调,也没有明显加速窗口大小增加的迹象。

田徑棟團隊新研究:微調<1000步,將LLaMA上下文擴展至32K图片

表 5 显示扩展到 8192 的模型在原始基准任务上产生了可比较的结果,而该基准任务是针对更小的上下文窗口设计的,对于 7B 和 33B 模型大小,在基准任务中的退化最多达到 2%。

田徑棟團隊新研究:微調<1000步,將LLaMA上下文擴展至32K图片

表 6 表明,具有 16384 上下文窗口的 PI 模型,可以有效地处理长文本摘要任务。

田徑棟團隊新研究:微調<1000步,將LLaMA上下文擴展至32K图片

以上是田徑棟團隊新研究:微調的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
讓我們跳舞:結構化運動以微調我們的人類神經網讓我們跳舞:結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

Markitdown MCP可以將任何文檔轉換為Markdowns!Markitdown MCP可以將任何文檔轉換為Markdowns!Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理? - 分析Vidhya如何使用Google ADK進行建築代理? - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics Vidhya在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

如何將Google Gemini模型用於計算機視覺任務? - 分析Vidhya如何將Google Gemini模型用於計算機視覺任務? - 分析VidhyaApr 27, 2025 am 09:26 AM

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Apr 27, 2025 am 09:20 AM

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器