大型語言模型(LLM)的強大已經是不容置疑的事實,然而它們有時仍然會犯一些簡單的錯誤,顯示出推理能力較弱的一面
舉個例子,LLM 可能會因為不相關的上下文或輸入提示中固有的偏好或意見而做出錯誤的判斷。後一種情況表現出的問題被稱為“阿諛奉承”,即模型與輸入保持一致
是否有任何方法可以緩解這類問題呢?一些學者嘗試透過添加更多的監督訓練資料或強化學習策略來解決,但這些方法無法從根本上解決問題
在最近的一項研究中,Meta研究者指出,Transformer模型本身的建構方式存在根本性問題,尤其是其註意力機制。換句話說,軟注意力傾向於將機率分配給大部分上下文(包括不相關的部分),並且過度關注重複的標記
因此,研究人員提出了一種完全不同的注意力機制方法,即透過將LLM用作自然語言推理器來執行注意力。具體來說,他們利用LLM遵循指令的能力,提示它們產生應該關注的上下文,從而使它們只包含不會扭曲自身推理的相關資料。研究人員將這個過程稱為System 2 Attention(S2A),他們將底層transformer及其註意力機制視為類似於人類System 1推理的自動操作
##當人們需要當特別注意一項任務並且System 1 可能出錯時,System 2 就會分配費力的腦力活動,並接管人類的工作。因此,這個子系統與研究者提出的S2A 具有類似目標,後者希望透過額外的推理引擎工作來減輕上述transformer 軟注意力的失敗
研究者對S2A機制的類別、提出動機以及幾個具體實現進行了詳細描述。在實驗階段,他們證實S2A相比基於標準注意力的LLM,可以產生更加客觀、少見主觀偏見或諂媚的LLM
特別是在問題中包含幹擾性觀點的修正後TriviQA 資料集上,與LLaMA-2-70B-chat 相比,S2A 將事實性從62.8% 提高到80.3%;在包含幹擾性輸入情緒的長格式參數產生任務重,S2A 的客觀性提高了57.4%,並且基本上不受插入觀點的影響。此外對於 GSM-IC 中帶有與主題不相關語句的數學應用題,S2A 將準確率從 51.7% 提高到了 61.3%。
這項研究得到了 Yann LeCun 的推薦。
下圖1展示了一個偽相關範例。當上下文中包含不相關的句子時,即使是最強大的LLM也會改變對於簡單事實問題的答案,因為上下文中出現的詞語無意中增加了錯誤答案的機率
透過這種方法,LLM 能夠在產生回應之前對輸入的相關部分進行仔細推理和決策。使用指令調整的LLM 還有一個優點,就是可以控制注意力的焦點,這與人類控制自己注意力的方式有些相似
S2A包括兩個步驟:
替代實作與變體 在本文中,我們研究了S2A方法的幾個不同版本 無上下文和問題分離。在圖 2 的實作中,本文選擇重新產生分解為兩部分(上下文和問題)的上下文。圖 12 給出了該提示變體。 保留原始上下文在S2A 中,在重新生成上下文之後,應該包含所有應該注意的必要元素,然後模型僅在重新生成的上下文上進行回應,原始上下文被丟棄。圖 14 給出了該提示變體。 指令式提示。圖 2 中給出的 S2A 提示鼓勵從上下文中刪除固執己見的文本,並使用步驟 2(圖 13)中的說明要求回應不固執己見。 S2A的實現都強調重新生成上下文以提高客觀性並減少阿諛奉承。然而,文章認為還有其他需要強調的點,例如,我們可以強調相關性與不相關性。圖15中的提示變體就給出了一個實例 本文進行了三種設定下的實驗:事實問答、長論點生成、解決數學應用問題。此外,本文也使用LLaMA-2-70B-chat作為基礎模型,在兩種設定下進行了評估 圖 5 (左) 展示了事實問答上的評估結果。 System 2 Attention 比原先的輸入提示有了很大的改進,準確率達到 80.3%—— 接近 Oracle Prompt 效能。 整體結果顯示,基線、Oracle Prompt和System 2 Attention都被評估為能夠提供類似的高品質評估。圖6(右)顯示了分項結果: #在GSM-IC任務中,圖7展示了不同方法的結果。與Shi等人的研究結果一致,我們發現基線準確率遠低於oracle。當不相關的句子與問題屬於同一主題時,這種影響甚至更大,如圖7(右)所示 了解更多內容,請參考原論文。
#實驗
以上是新標題:Meta改進Transformer架構:強化推理能力的新註意力機制的詳細內容。更多資訊請關注PHP中文網其他相關文章!

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

WebStorm Mac版
好用的JavaScript開發工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Dreamweaver Mac版
視覺化網頁開發工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。