今年 2 月,Meta 發布的 LLaMA 大型語言模型系列,成功推動了開源聊天機器人的發展。因為LLaMA 比之前發布的許多大模型參數少(參數量從70 億到650 億不等),但性能更好,例如,最大的650 億參數的LLaMA 模型可以媲美谷歌的Chinchilla-70B 和PaLM-540B ,所以一發表讓很多研究者興奮不已。
然而,LLaMA 僅授權給學術界的研發人員使用,從而限制了該模型的商業應用。
因而,研究者開始尋找那些可用於商業用途的LLaMA,UC 伯克利的博士生Hao Liu 發起的計畫OpenLLaMA,就是其中一個比較熱門的LLaMA 開源複製品,其使用了與原始LLaMA 完全相同的預處理和訓練超參數,可以說OpenLLaMA 完全按照LLaMA 的訓練步驟來的。最重要的一點是,該模型可商用。
OpenLLaMA 在 Together 公司發布的 RedPajama 資料集上訓練完成,有三個模型版本,分別為 3B、7B 和 13B,這些模型都經過了 1T tokens 的訓練。結果顯示,OpenLLaMA 在多項任務中的表現都與原始 LLaMA 相當,甚至有超越的情況。
除了不斷發布新模型,研究者對模型處理 token 的能力探索不斷。
幾天前,田徑棟團隊的最新研究用不到 1000 步微調,將 LLaMA 上下文擴展到 32K。再往前追溯,GPT-4 支援 32k token(這相當於 50 頁的文字) ,Claude 可以處理 100k token (大概相當於一鍵總結《哈利波特》第一部)等等。
現在,一個新的基於 OpenLLaMA 大型語言模型來了,它將上下文的長度擴展到 256k token,甚至更多。該研究由 IDEAS NCBR 、波蘭科學院、華沙大學、 Google DeepMind 共同完成。
圖片
LongLLaMA 基於 OpenLLaMA 完成,微調方法採用 FOT ( Focused Transformer )。本文表明,FOT 可以用於對已經存在的大型模型進行微調,以擴展其上下文長度。
研究以 OpenLLaMA-3B 和 OpenLLaMA-7B 模型為起點,並使用 FOT 對它們進行微調。由此產生的模型稱之為 LONGLLAMAs,能夠在其訓練上下文長度之外進行外推(甚至可以達到 256K),並且在短上下文任務上還能保持表現。
- 計畫網址:https://github.com/CStanKonrad/long_llama
- 論文網址:https://arxiv. org/pdf/2307.03170.pdf
有人將這項研究形容為OpenLLaMA 的無限上下文版本,借助FOT,模型很容易外推到更長的序列,例如在8K token 上訓練的模型,可以輕易外推到256K 視窗大小。
圖片
本文用到了FOT 方法,它是Transformer 模型中一種即插即用的擴展,可用來訓練新模型,也可對現有較大的模型進行更長情境微調。
為了達到這個目的,FOT 使用了記憶注意力層和跨批次(crossbatch)訓練過程:
- #記憶注意力層使模型能夠在推理時從外部記憶體中檢索訊息,從而有效地擴展了上下文;
- 跨批次訓練過程使模型傾向於學習(鍵,值)表示,這些表示對於記憶注意力層的使用非常簡單。
有關FOT 架構的概述,請參考圖2:
圖片
下表為LongLLaMA 的一些模型資訊:
圖片
最後,該專案也提供了LongLLaMA 與原始OpenLLaMA 模型的比較結果。
下圖為 LongLLaMA 一些實驗結果,在密碼檢索任務上,LongLLaMA 取得了良好的效能。具體而言,LongLLaMA 3B 模型遠遠超出了它的訓練上下文長度 8K,對於 token 為 100k 時,準確率達到 94.5%,當 token 為 256k 時,準確率為 73%。
圖片
下表為LongLLaMA 3B 模型在兩個下游任務(TREC 問題分類和WebQS 問題回答)上的結果,結果顯示,在使用長上下文時,LongLLaMA 效能改進明顯。
圖片
下表顯示了即使在不需要長上下文的任務上,LongLLaMA 也能表現良好。實驗在零樣本設定下,對 LongLLaMA 和 OpenLLaMA 進行了比較。
圖片
了解更多細節,可參考原文與專題。
以上是將上下文長度擴展到256k,無限上下文版本的LongLLaMA來了?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

介紹 OpenAI O1模型家族大大提高了推理能力和經濟表現,尤其是在科學,編碼和解決問題方面。 Openai的目標是創建越來越高的AI和O1模型

介紹 如今,客戶查詢管理的世界正在以前所未有的速度移動,每天都有新的工具成為頭條新聞。大型語言模型(LLM)代理是在這種情況下的最新創新,增強了Cu

介紹 採用生成AI可能是任何公司的變革旅程。但是,Genai實施過程通常會繁瑣且令人困惑。 Niit Lim的董事長兼聯合創始人Rajendra Singh Pawar

介紹 人工智能革命引起了創造力的新時代,文本對圖像模型正在重新定義藝術,設計和技術的交集。 pixtral 12b和qwen2-vl-72b是兩個開創性的力量。

介紹 隨著人工智能的發展,科學研究已經發生了巨大的轉變。每年在不同的技術和部門上發表數百萬篇論文。但是,將這片信息海洋瀏覽到Retr

介紹 大型語言模型正在迅速改變行業 - 迄今為止,它們為從銀行業的個性化客戶服務到全球溝通中的實時語言翻譯提供了動力。他們可以回答任務

介紹 不想在API上花錢,還是您擔心隱私?還是您只想在本地運行LLMS?不用擔心;本指南將幫助您使用本地LLMS構建代理和多代理框架

介紹 本週,人工智能(AI)世界上充滿了重大更新。從OpenAI的O1模型展示高級推理到蘋果的開創性視覺智能技術,Tech


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。