今年 2 月,Meta 發布的 LLaMA 大型語言模型系列,成功推動了開源聊天機器人的發展。因為LLaMA 比之前發布的許多大模型參數少(參數量從70 億到650 億不等),但性能更好,例如,最大的650 億參數的LLaMA 模型可以媲美谷歌的Chinchilla-70B 和PaLM-540B ,所以一發表讓很多研究者興奮不已。
然而,LLaMA 僅授權給學術界的研發人員使用,從而限制了該模型的商業應用。
因而,研究者開始尋找那些可用於商業用途的LLaMA,UC 伯克利的博士生Hao Liu 發起的計畫OpenLLaMA,就是其中一個比較熱門的LLaMA 開源複製品,其使用了與原始LLaMA 完全相同的預處理和訓練超參數,可以說OpenLLaMA 完全按照LLaMA 的訓練步驟來的。最重要的一點是,該模型可商用。
OpenLLaMA 在 Together 公司發布的 RedPajama 資料集上訓練完成,有三個模型版本,分別為 3B、7B 和 13B,這些模型都經過了 1T tokens 的訓練。結果顯示,OpenLLaMA 在多項任務中的表現都與原始 LLaMA 相當,甚至有超越的情況。
除了不斷發布新模型,研究者對模型處理 token 的能力探索不斷。
幾天前,田徑棟團隊的最新研究用不到 1000 步微調,將 LLaMA 上下文擴展到 32K。再往前追溯,GPT-4 支援 32k token(這相當於 50 頁的文字) ,Claude 可以處理 100k token (大概相當於一鍵總結《哈利波特》第一部)等等。
現在,一個新的基於 OpenLLaMA 大型語言模型來了,它將上下文的長度擴展到 256k token,甚至更多。該研究由 IDEAS NCBR 、波蘭科學院、華沙大學、 Google DeepMind 共同完成。
圖片
LongLLaMA 基於 OpenLLaMA 完成,微調方法採用 FOT ( Focused Transformer )。本文表明,FOT 可以用於對已經存在的大型模型進行微調,以擴展其上下文長度。
研究以 OpenLLaMA-3B 和 OpenLLaMA-7B 模型為起點,並使用 FOT 對它們進行微調。由此產生的模型稱之為 LONGLLAMAs,能夠在其訓練上下文長度之外進行外推(甚至可以達到 256K),並且在短上下文任務上還能保持表現。
有人將這項研究形容為OpenLLaMA 的無限上下文版本,借助FOT,模型很容易外推到更長的序列,例如在8K token 上訓練的模型,可以輕易外推到256K 視窗大小。
圖片
本文用到了FOT 方法,它是Transformer 模型中一種即插即用的擴展,可用來訓練新模型,也可對現有較大的模型進行更長情境微調。
為了達到這個目的,FOT 使用了記憶注意力層和跨批次(crossbatch)訓練過程:
有關FOT 架構的概述,請參考圖2:
圖片
下表為LongLLaMA 的一些模型資訊:
圖片
最後,該專案也提供了LongLLaMA 與原始OpenLLaMA 模型的比較結果。
下圖為 LongLLaMA 一些實驗結果,在密碼檢索任務上,LongLLaMA 取得了良好的效能。具體而言,LongLLaMA 3B 模型遠遠超出了它的訓練上下文長度 8K,對於 token 為 100k 時,準確率達到 94.5%,當 token 為 256k 時,準確率為 73%。
圖片
下表為LongLLaMA 3B 模型在兩個下游任務(TREC 問題分類和WebQS 問題回答)上的結果,結果顯示,在使用長上下文時,LongLLaMA 效能改進明顯。
圖片
下表顯示了即使在不需要長上下文的任務上,LongLLaMA 也能表現良好。實驗在零樣本設定下,對 LongLLaMA 和 OpenLLaMA 進行了比較。
圖片
了解更多細節,可參考原文與專題。
以上是將上下文長度擴展到256k,無限上下文版本的LongLLaMA來了?的詳細內容。更多資訊請關注PHP中文網其他相關文章!