搜尋
首頁科技週邊人工智慧參數量1/50,Meta發布110億參數模型,擊敗GooglePaLM

我們可以將大型語言模型(LLMs)理解為小樣本學習者,其能夠透過很少的例子就能學習新任務,甚至僅透過簡單的說明就能學習,其中對模型參數量和訓練資料的大小進行擴展是模型擁有泛化能力的關鍵。 LLMs 的這種提升歸功於更強大算力和儲存能力。直觀上,推理能力的提高會帶來更好的泛化,從而減少樣本的學習,然而目前還不清楚有效的小樣本學習在多大程度上需要大量的模型參數知識。

目前為止檢索增強模型還沒有展現出令人信服的小樣本學習能力。論文中,來自 Meta AI Research 等機構的研究者提出小樣本學習是否需要模型在其參數中存儲大量信息,以及存儲是否可以與泛化解耦。他們提出 Atlas,其是檢索增強語言模型的一種,具有很強的小樣本學習能力,即使參數量低於目前其它強大的小樣本學習模型。

模型採用非參數存儲,即使用基於大型外部非靜態知識源上的神經檢索器去增強參數語言模型。除了儲存能力,此類架構在適應性、可解釋性和效率方面都存在優勢,因此很有吸引力。

參數量1/50,Meta發布110億參數模型,擊敗GooglePaLM

論文網址:https://arxiv.org/pdf/2208.03299.pdf

參數量1/50,Meta發布110億參數模型,擊敗GooglePaLM

參數量1/50,Meta發布110億參數模型,擊敗GooglePaLM

Atlas 檢索相關文件是基於Contriever 雙編碼器架構的通用密度檢索器,檢索文件時基於目前上下文檢索相關文件。檢索到的文件與目前上下文一起交由序列到序列模型處理,該模型使用 Fusion-in-Decoder 架構產生對應的輸出。

作者研究了不同技術對訓練 Atlas 在一系列下游任務(包括問答和事實檢查)上的小樣本資料集表現的影響。研究發現聯合預訓練組件對於小樣本表現至關重要,作者評估了許多現有和新穎的預訓練任務和方案,Atlas 在小樣本和資源豐富的環境中都擁有強大的下游表現。

在只有11B 個參數的情況下,Atlas 使用64 個訓練範例在NaturalQuestions(NQ)上實現了42.4% 準確率,比540B 參數模型PaLM( 39.6% )高出近3 個百分點,在全資料集設定中(Full)達到64.0% 準確率。 參數量1/50,Meta發布110億參數模型,擊敗GooglePaLM

Yann LeCun 表示:Atlas 是一個不太大的語言模型(11B 參數),在問答和事實核查方面擊敗了「大傢伙」。 Atlas 主要區別在於它可以從語料庫中檢索事實。 ########################方法概覽#########Atlas 遵循文字到文字框架。這意味著所有任務的總體框架是:系統以文字查詢作為輸入,產生文字輸出。例如,在問答任務情況下,查詢對應於問題,模型需要產生答案。在分類任務情況下,查詢對應於文字輸入,模型產生類別標籤,即標籤對應的單字。圖 2 中的 KILT 基準給出了更多下游任務的範例。許多自然語言處理任務需要知識,Atlas 的目標是透過檢索增強標準文字到文字模型,因為檢索可能對於模型小樣本場景下的學習能力至關重要。 ########################架構##########Atlas 模型基於兩個子模型:檢索器和語言模型。執行任務時,從問答到產生 Wikipedia 文章,模型首先透過檢索器從大型文字語料庫中檢索前 k 個相關文件。然後,這些文件連同查詢一起作為輸入給到語言模型,產生輸出。檢索器和語言模型都基於預先訓練的 transformer 網絡,以下將它們詳細介紹。 ######

檢索器:Atlas 的檢索器模組基於 Contriever,這是一種基於連續密度嵌入的資訊檢索技術。 Contriever 使用雙編碼器架構,其中查詢和文件由 transformer 編碼器獨立嵌入。平均池化應用於最後一層的輸出,以獲得每個查詢或文件的向量表示。然後透過計算查詢和每個文件間的相互嵌入的點積,得到它們的相似度分數。 Contriever 模型使用 MoCo 對比損失進行預訓練,並且僅使用無監督資料。密度檢索器的優點之一是查詢和文件編碼器都可以在沒有文件註釋的情況下使用標準技術(例如梯度下降和蒸餾)進行訓練。

語言模型:對於語言模型,Atlas 依賴 T5 序列到序列架構。模型同時也依賴序列到序列模型的 Fusion-in-Decoder 修改,並在編碼器中獨立處理每個文件。之後模型連接對應於不同文件的編碼器的輸出,並在解碼器中對單一序列執行 cross-attention。模型把查詢連接到編碼器中的每個文件。在語言模型中處理檢索到的文件的另一種方法是將查詢和所有文件連接起來,並使用這個長序列作為模型的輸入。但這種方法可擴展性較差,即它不會隨著文檔的數量增多而擴展,因為編碼器中的自註意力機制會導致O(n^2)的時間複雜度(這裡n 是文檔數量)。

實驗結果

作者在 NaturalQuestions 和 TriviaQA 這兩個開放域問答基準上評估 Atlas。並且分別使用 64 個樣例的小樣本資料集和完整的訓練集,與先前的工作進行比較,詳細對比請參閱下表。

參數量1/50,Meta發布110億參數模型,擊敗GooglePaLM

NaturalQuestions 和 TriviaQA 的 64-shot 問答中表現最優。特別是它優於更大的模型 (PaLM) 或需要更多訓練計算的模型(Chinchilla)。在使用全量的訓練集時,Atlas 也能到最優結果,例如把 NaturalQuestions 的準確度從 55.9% 提高到 60.4%。這個結果是在 Atlas 的預設設定下,使用由 CCNet 和 2021 年 12 月 Wikipedia 語料庫組成的索引獲得的。  下表展示了在事實查核資料集 FEVER 上的測試結果。

參數量1/50,Meta發布110億參數模型,擊敗GooglePaLM

Atlas 在 64-shot 情況下,訓練樣本取樣自全量訓練集。 Atlas 達到了 64.3% 的準確率。而在 15-shot 的情況下,從每個類別中統一採樣 5 個樣例,與 Gopher 結果比較,Atlas 準確率為 56.2%,比 Gopher 高 5.1 個百分點。在全量訓練集上微調 Atlas 模型,達到 78% 的準確率,比 ProoFVer 低 1.5%。 ProoFVer 使用專門的架構,以句子級註釋訓練的檢索器,並由維基百科語料庫提供與 FEVER 一起發布,而 Atlas 從 CCNet 和 2021 年 12 月的維基百科轉儲中檢索。當給 Atlas 由 FEVER Wikipedia 語料庫組成的索引,Atlas 取得了 80.1% 最適水準。

為驗證 Atlas 的效能,Atlas 在 KILT 進行了評估,KILT 是由幾個不同的知識密集型任務組成的基準。下表展示了測試集的結果。

參數量1/50,Meta發布110億參數模型,擊敗GooglePaLM

Atlas 64-shot 在實驗中遠遠超過隨機演算法,甚至與排行榜上的某些經過微調的模型不相上下。如在 FEVER 上,Atlas 64-shot 僅落後 Sphere、SEAL 和 Re2G 2-2.5 分,而在 zero-shot RE 上的表現優於 Sphere 和 SEAL。在全量資料集上,Atlas 在 3 個資料集的表現與最好的模型相差在 3% 以內,但在其餘 5 個資料集中是表現最好的。

以上是參數量1/50,Meta發布110億參數模型,擊敗GooglePaLM的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
一個提示可以繞過每個主要LLM的保障措施一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

5個錯誤,大多數企業今年將犯有可持續性5個錯誤,大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

如果Openai購買Chrome,AI可能會統治瀏覽器戰爭如果Openai購買Chrome,AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

'AI是我們,比我們更多''AI是我們,比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud在下一個2025年對基礎架構變得更加認真Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具