完爆GPT3、GooglePaLM！檢索增強模型Atlas刷新知識類小樣本任務SOTA-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

完爆GPT3、GooglePaLM！檢索增強模型Atlas刷新知識類小樣本任務SOTA

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 15, 2023 pm 03:04 PM

ai論文

不知不覺間，大模型小樣本成為了小樣本學習領域的主流打法，在許多的任務背景下，一套通用的思路是先標註小數據樣本，再從預訓練大模型的基礎上使用小數據樣本進行訓練。儘管如我們所見，大模型在一眾小樣本學習的任務上都取得了驚人的效果，但是它也自然而然的將一些大模型固有的弊病放置在了小樣本學習的聚光燈下。

小樣本學習期望模型具有依據少量樣本完成自主推理的能力，也就是說理想中的模型應該透過做題而掌握解題思路，從而面對新出現的題可以舉一反三。然而大模型小樣本的理想且實用的學習能力，似乎卻是靠大模型訓練期間儲存的大量資訊來生生把一道題解設答的過程背誦下來，儘管在各個數據集上神勇無比，但總會給人帶來疑惑依照這個方法學習出來的學生真的是個有潛力的學生嗎？

完爆GPT3、GooglePaLM！檢索增強模型Atlas刷新知識類小樣本任務SOTA

而今天介紹的這篇由Meta AI 推出的論文，便另闢蹊徑的將檢索增強的方法應用於小樣本學習領域，不僅僅以64個範例便在自然問答資料集（Natural Questions）上取得了42%的正確率，同時也對標大模型PaLM 將參數量減少了50 倍（540B—>11B），並且在可解釋性、可控制性、可更新性等方面上都具有其餘大模型所不具備的顯著優勢。

論文主題:Few-shot Learning with Retrieval Augmented Language Models##論文連結:https://arxiv.org/pdf/2208.03299.pdf

#檢索增強溯源

##論文一開始，便向大家拋出了一個問題：“在小樣本學習領域，使用巨量的參數去存儲信息真的是必要的嗎？”，縱觀大模型的發展，前僕後繼的大模型可以樂此不疲的刷SOTA的原因之一，便是其龐大的參數儲存了問題所需的資訊。從Transformer 橫空出世以來，大模型一直是NLP 領域的主流範式，而隨著大模型的逐步發展，「大」的問題不斷暴露，追問所謂「大」的必要性便相當有意義，論文作者從這個問題出發，給了這個問題否定的答案，而其方法，便是檢索增強模型。

完爆GPT3、GooglePaLM！檢索增強模型Atlas刷新知識類小樣本任務SOTA

溯源檢索增強，其實儘管其技術主要被應用於諸如開放域問答、機器閱讀以及文本生成等任務之中，但是檢索增強的想法可以一直上溯到NLP 的RNN 時代。 RNN 模型無法解決資料長期依賴關係的硬傷促使研究者開始廣泛探索解決之道，而我們相當熟悉的Transformer 便使用Attention 機制有效解決了這個模型記不住的問題，從而開啟了預訓練大模型的時代。

而在當時，其實還有另外一條路子，便是Cached LM，它的核心思想在於，既然RNN 一上考場就有可能記不住，那麼乾脆就讓RNN 開卷考試，透過引入Cache 機制，把訓練時預測的字詞存在Cache 中，預測時便可以結合query 與Cache 索引兩方面的資訊來完成任務，從而解決當時RNN 模型的硬傷。

由此，檢索增強技術便走上了一條與大模型依賴參數記憶資訊的迥然不同的道路。基於檢索增強的模型允許引入不同來源的外部知識，而這些檢索來源有訓練語料、外部資料、無監督資料等多種選擇。檢索增強模型一般由一個檢索器與一個生成器構成，透過檢索器根據 query 從外部檢索來源獲得相關知識，透過生成器結合 query 與檢索到的相關知識進行模型預測。

歸根結底，檢索增強模型的目標是期望模型不僅學會記憶數據，同時希望模型學會自己找到數據，這點特性在許多知識密集型的任務中具有極大的優勢並且檢索增強模型也在這些領域取得了巨大的成功，但是檢索增強是否適用於小樣本學習卻不得而知。回到 Meta AI 的這篇論文，便成功試驗了檢索增強在小樣本學習中的應用，Atlas 便應運而生。

完爆GPT3、GooglePaLM！檢索增強模型Atlas刷新知識類小樣本任務SOTA

模型結構

#Atlas 有兩個子模型，一個檢索器與一個語言模型。當面對一個任務時，Atlas 依據輸入的問題使用檢索器從大量語料中生成出最相關的top-k 個文檔，之後將這些文檔與問題query 一同放入語言模型之中，進而產生出所需的輸出。

完爆GPT3、GooglePaLM！檢索增強模型Atlas刷新知識類小樣本任務SOTA

Atlas 模型的基本訓練策略在於，將檢索器與語言模型使用相同損失函數共同訓練。檢索器與語言模型都基於預先訓練的Transformer 網絡，其中：

檢索器基於Contriever 設計，Contriever 透過無監督資料進行預先訓練，使用兩層編碼器，query 與document 被獨立的編碼入編碼器中，並透過對應輸出的點乘獲得query 與document 的相似度。這種設計使得 Atlas 可以在沒有文件標註的情況下訓練檢索器，從而顯著降低記憶體需求。
語言模型基於T5 進行訓練，將不同文檔與query 相互拼接，由編碼器分別獨立處理，最後，解碼器對於所有檢索的段落串聯進行Cross-Attention 得到最後的輸出。這種 Fusion-in-Decoder 的方法有利於 Atlas 有效的適應文件數量的擴展。

值得注意的是，作者對比試驗了四種損失函數以及不做檢索器與語言模型聯合訓練的情況，結果如下圖：

完爆GPT3、GooglePaLM！檢索增強模型Atlas刷新知識類小樣本任務SOTA

可以看出，在小樣本環境下，使用聯合訓練的方法所得到的正確率顯著高於不使用聯合訓練的正確率，因此，作者得出結論，檢索器與語言模型的這種共同訓練是Atlas 獲得小樣本學習能力的關鍵。

實驗結果

在大規模多任務語言理解任務（MMLU）中，對比其他模型，Atlas 在參數量只有11B 的情況下，具有比15 倍於Atlas 參數量的GPT-3 更好的正確率，在引入多任務訓練後，在5-shot 測試上正確率甚至逼近了25 倍於Atlas 參數量的Gopher。

完爆GPT3、GooglePaLM！檢索增強模型Atlas刷新知識類小樣本任務SOTA

在開放域問答的兩個測試資料－NaturalQuestions 以及TriviaQA 中，對比了Atlas 與其他模型在64 個例子上的表現以及全訓練集上的表現如下圖所示，Atlas 在64-shot 中取得了新的SOTA，在TrivuaQA 上僅用64 個數據便實現了84.7% 的準確率。

完爆GPT3、GooglePaLM！檢索增強模型Atlas刷新知識類小樣本任務SOTA

在事實查核任務（FEVER）中，Atlas 在小樣本的表現也顯著優於參數量十倍於Atlas 的Gopher 與ProoFVer，在15-shot 的任務中，超出了Gopher 5.1%。

完爆GPT3、GooglePaLM！檢索增強模型Atlas刷新知識類小樣本任務SOTA

在自家發布的知識密集型自然語言處理任務基準KILT 上，在某些任務裡使用64 個樣本訓練的Atlas 的正確率甚至接近了其他模型使用全樣本所獲得的正確率，在使用全樣本訓練Atlas 後，Atlas 在五個資料集上都刷新了SOTA。

完爆GPT3、GooglePaLM！檢索增強模型Atlas刷新知識類小樣本任務SOTA

可解释性、可控性、可更新性

根据这篇论文的研究，检索增强模型不仅兼顾了更小与更好，同时在可解释性方面也拥有其他大模型不具备的显著优势。大模型的黑箱属性，使得研究者很难以利用大模型对模型运行机理进行分析，而检索增强模型可以直接提取其检索到的文档，从而通过分析检索器所检索出的文章，可以获得对 Atlas 工作更好的理解。譬如，论文发现，在抽象代数领域，模型的语料有 73% 借助了维基百科，而在道德相关领域，检索器提取的文档只有3%来源于维基百科，这一点与人类的直觉相符合。如下图左边的统计图，尽管模型更偏好使用 CCNet 的数据，但是在更注重公式与推理的 STEM 领域，维基百科文章的使用率明显上升。

完爆GPT3、GooglePaLM！檢索增強模型Atlas刷新知識類小樣本任務SOTA

而根据上图右边的统计图作者发现，随着检索出的文章中包含正确答案的次数的升高，模型准确率也不断上升，在文章不包含答案时正确只有 55%，而在答案被提到超过 15 次时，正确率来到了 77%。除此之外，在人为检查了 50 个检索器检索出的文档时，发现其中有 44% 均包含有用的背景信息，显然，这些包含问题背景信息的资料可以为研究者扩展阅读提供很大的帮助。

一般而言，我们往往会认为大模型存在训练数据“泄露”的风险，即有时大模型针对测试问题的回答并非基于模型的学习能力而是基于大模型的记忆能力，也就是说在大模型学习的大量语料中泄露了测试问题的答案，而在这篇论文中，作者通过人为剔除可能会发生泄露的语料信息后，模型正确率从56.4%下降到了55.8%，仅仅下降0.6%，可以看出检索增强的方法可以有效的规避模型作弊的风险。

最后，可更新性也是检索增强模型的一大独特优势，检索增强模型可以无需重新训练而只需更新或替换其依托的语料库实现模型的时时更新。作者通过构造时序数据集，如下图所示，在不更新 Atlas 参数的情况下，仅仅通过使用 2020 年的语料库 Atlas 便实现了 53.1% 的正确率，而有趣的是即使是用2020年的数据微调 T5 ，T5 也没有很好的表现，作者认为，原因很大程度上是由于 T5 的预训练使用的数据是 2020 年以前的数据。

完爆GPT3、GooglePaLM！檢索增強模型Atlas刷新知識類小樣本任務SOTA

结论

我们可以想象有三个学生，一个学生解题只靠死记硬背，一道数学题可以把答案分毫不差的背诵下来，一个学生就靠查书，遇到不会先去翻找资料找到最合适的再一一作答，而最后一个学生则天资聪明，简单的学习一些教科书上的知识便可以自信去考场挥毫泼墨指点江山。

显然，小样本学习的理想是成为第三个学生，而现实却很可能停留在了第一个学生之上。大模型很好用，但“大”绝不是模型最终的目的，回到小样本学习期望模型具有与人类相似的推理判断与举一反三能力的初心，那么我们可以看到，这篇论文是换个角度也好是前进一步也罢，至少是让那个学生可以轻松一点不往脑袋里装那么多可能大量冗余的知识，而可以拎起一本教科书轻装上阵，或许哪怕允许学生开卷考试带着教科书不断翻查，也会比学生生搬硬套死记硬背更接近智能吧！

完爆GPT3、GooglePaLM！檢索增強模型Atlas刷新知識類小樣本任務SOTA

以上是完爆GPT3、GooglePaLM！檢索增強模型Atlas刷新知識類小樣本任務SOTA的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

您必須在無知的面紗後面建立工作場所Apr 29, 2025 am 11:15 AM

在約翰·羅爾斯1971年具有開創性的著作《正義論》中，他提出了一種思想實驗，我們應該將其作為當今人工智能設計和使用決策的核心：無知的面紗。這一理念為理解公平提供了一個簡單的工具，也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。設想一下，您正在為一個新的社會制定規則。但有一個前提：您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮，健康或殘疾，屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作，可以防止規則制定者做出有利於自身的決策。相反，人們會更有動力製定公

決策，決策……實用應用AI的下一步Apr 29, 2025 am 11:14 AM

許多公司專門從事機器人流程自動化（RPA），提供機器人以使重複的任務自動化 - UIPATH，在任何地方自動化，藍色棱鏡等。同時，過程採礦，編排和智能文檔處理專業

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現，能夠獨立行動和任務完成。這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理：研究

為什麼同情在AI驅動的未來中比控制者更重要Apr 29, 2025 am 11:12 AM

快速的技術進步需要對工作未來的前瞻性觀點。當AI超越生產力並開始塑造我們的社會結構時，會發生什麼？ Topher McDougal即將出版的書Gaia Wakes：

用於產品分類的AI：機器可以總稅法嗎？Apr 29, 2025 am 11:11 AM

產品分類通常涉及復雜的代碼，例如諸如統一系統（HS）等系統的“ HS 8471.30”，對於國際貿易和國內銷售至關重要。這些代碼確保正確的稅收申請，影響每個INV

數據中心的需求會引發氣候技術反彈嗎？Apr 29, 2025 am 11:10 AM

數據中心能源消耗與氣候科技投資的未來本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響，並分析了應對這一挑戰的創新解決方案和政策建議。能源需求的挑戰：大型超大規模數據中心耗電量巨大，堪比數十萬個普通北美家庭的總和，而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月，微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元（摩根大通，2024）（表1）。不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導，迫在眉睫的電

AI和好萊塢的下一個黃金時代Apr 29, 2025 am 11:09 AM

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型，以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型，正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景，甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高，但其進步速度令人驚嘆。生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作，另一些則擅長真人影像。值得注意的是，Adobe的Firefly和Moonvalley的Ma

Chatgpt是否會慢慢成為AI最大的Yes-Man？Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降：是模型退化还是用户期望？近期，大量ChatGPT付费用户抱怨其性能下降，引发广泛关注。用户报告称模型响应速度变慢，答案更简短、缺乏帮助，甚至出现更多幻觉。一些用户在社交媒体上表达了不满，指出ChatGPT变得“过于讨好”，倾向于验证用户观点而非提供批判性反馈。这不仅影响用户体验，也给企业客户带来实际损失，例如生产力下降和计算资源浪费。性能下降的证据许多用户报告了ChatGPT性能的显著退化，尤其是在GPT-4（即将于本月底停止服务）等旧版模型中。这

See all articles