搜尋
首頁科技週邊人工智慧新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

大型語言模型(LLM)的強大已經是不容置疑的事實,然而它們有時仍然會犯一些簡單的錯誤,顯示出推理能力較弱的一面

舉個例子,LLM 可能會因為不相關的上下文或輸入提示中固有的偏好或意見而做出錯誤的判斷。後一種情況表現出的問題被稱為“阿諛奉承”,即模型與輸入保持一致

是否有任何方法可以緩解這類問題呢?一些學者嘗試透過添加更多的監督訓練資料或強化學習策略來解決,但這些方法無法從根本上解決問題

在最近的一項研究中,Meta研究者指出,Transformer模型本身的建構方式存在根本性問題,尤其是其註意力機制。換句話說,軟注意力傾向於將機率分配給大部分上下文(包括不相關的部分),並且過度關注重複的標記

因此,研究人員提出了一種完全不同的注意力機制方法,即透過將LLM用作自然語言推理器來執行注意力。具體來說,他們利用LLM遵循指令的能力,提示它們產生應該關注的上下文,從而使它們只包含不會扭曲自身推理的相關資料。研究人員將這個過程稱為System 2 Attention(S2A),他們將底層transformer及其註意力機制視為類似於人類System 1推理的自動操作

##當人們需要當特別注意一項任務並且System 1 可能出錯時,System 2 就會分配費力的腦力活動,並接管人類的工作。因此,這個子系統與研究者提出的S2A 具有類似目標,後者希望透過額外的推理引擎工作來減輕上述transformer 軟注意力的失敗

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

##需要重寫的內容是:論文連結:https://arxiv.org/pdf/2311.11829.pdf

研究者對S2A機制的類別、提出動機以及幾個具體實現進行了詳細描述。在實驗階段,他們證實S2A相比基於標準注意力的LLM,可以產生更加客觀、少見主觀偏見或諂媚的LLM

特別是在問題中包含幹擾性觀點的修正後TriviQA 資料集上,與LLaMA-2-70B-chat 相比,S2A 將事實性從62.8% 提高到80.3%;在包含幹擾性輸入情緒的長格式參數產生任務重,S2A 的客觀性提高了57.4%,並且基本上不受插入觀點的影響。此外對於 GSM-IC 中帶有與主題不相關語句的數學應用題,S2A 將準確率從 51.7% 提高到了 61.3%。

這項研究得到了 Yann LeCun 的推薦。

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

System 2 Attention 

下圖1展示了一個偽相關範例。當上下文中包含不相關的句子時,即使是最強大的LLM也會改變對於簡單事實問題的答案,因為上下文中出現的詞語無意中增加了錯誤答案的機率

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

#因此,我們需要研究一種更深入理解的、更深思熟慮的注意力機制。為了與更底層的注意力機制區分開來,研究者提出了一個被稱為S2A的系統。他們探索了一種利用LLM本身來建構這種注意力機制的方法,特別是透過移除不相關的文字來重寫上下文的指令調整LLM

透過這種方法,LLM 能夠在產生回應之前對輸入的相關部分進行仔細推理和決策。使用指令調整的LLM 還有一個優點,就是可以控制注意力的焦點,這與人類控制自己注意力的方式有些相似

S2A包括兩個步驟:

  • 給定上下文 x,S2A 首先重新產生上下文 x ',從而刪除會對輸出產生不利影響的上下文的不相關部分。本文將其表示為 x ′ ∼ S2A (x)。
  • 給定 x ′ ,然後使用重新產生的上下文而不是原始上下文產生 LLM 的最終回應:y ∼ LLM (x ′ )。

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

替代實作與變體

在本文中,我們研究了S2A方法的幾個不同版本

無上下文和問題分離。在圖 2 的實作中,本文選擇重新產生分解為兩部分(上下文和問題)的上下文。圖 12 給出了該提示變體。

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

保留原始上下文在S2A 中,在重新生成上下文之後,應該包含所有應該注意的必要元素,然後模型僅在重新生成的上下文上進行回應,原始上下文被丟棄。圖 14 給出了該提示變體。

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

指令式提示。圖 2 中給出的 S2A 提示鼓勵從上下文中刪除固執己見的文本,並使用步驟 2(圖 13)中的說明要求回應不固執己見。

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

S2A的實現都強調重新生成上下文以提高客觀性並減少阿諛奉承。然而,文章認為還有其他需要強調的點,例如,我們可以強調相關性與不相關性。圖15中的提示變體就給出了一個實例

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

#實驗

本文進行了三種設定下的實驗:事實問答、長論點生成、解決數學應用問題。此外,本文也使用LLaMA-2-70B-chat作為基礎模型,在兩種設定下進行了評估

  • 基線:資料集中提供的輸入提示被饋送到模型,並以零樣本方式回答。模型生成可能會受到輸入中提供的虛假相關性的影響。
  • Oracle Prompt:沒有附加意見或不相關句子的提示被輸入到模型中,並以零樣本的方式回答。 

圖 5 (左) 展示了事實問答上的評估結果。 System 2 Attention 比原先的輸入提示有了很大的改進,準確率達到 80.3%—— 接近 Oracle Prompt 效能。

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

整體結果顯示,基線、Oracle Prompt和System 2 Attention都被評估為能夠提供類似的高品質評估。圖6(右)顯示了分項結果:

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

#在GSM-IC任務中,圖7展示了不同方法的結果。與Shi等人的研究結果一致,我們發現基線準確率遠低於oracle。當不相關的句子與問題屬於同一主題時,這種影響甚至更大,如圖7(右)所示

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

了解更多內容,請參考原論文。

以上是新標題:Meta改進Transformer架構:強化推理能力的新註意力機制的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
您必須在無知的面紗後面建立工作場所您必須在無知的面紗後面建立工作場所Apr 29, 2025 am 11:15 AM

在約翰·羅爾斯1971年具有開創性的著作《正義論》中,他提出了一種思想實驗,我們應該將其作為當今人工智能設計和使用決策的核心:無知的面紗。這一理念為理解公平提供了一個簡單的工具,也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。 設想一下,您正在為一個新的社會制定規則。但有一個前提:您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮,健康或殘疾,屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作,可以防止規則制定者做出有利於自身的決策。相反,人們會更有動力製定公

決策,決策……實用應用AI的下一步決策,決策……實用應用AI的下一步Apr 29, 2025 am 11:14 AM

許多公司專門從事機器人流程自動化(RPA),提供機器人以使重複的任務自動化 - UIPATH,在任何地方自動化,藍色棱鏡等。 同時,過程採礦,編排和智能文檔處理專業

代理人來了 - 更多關於我們將在AI合作夥伴旁邊做什麼代理人來了 - 更多關於我們將在AI合作夥伴旁邊做什麼Apr 29, 2025 am 11:13 AM

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現,能夠獨立行動和任務完成。 這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理:研究

為什麼同情在AI驅動的未來中比控制者更重要為什麼同情在AI驅動的未來中比控制者更重要Apr 29, 2025 am 11:12 AM

快速的技術進步需要對工作未來的前瞻性觀點。 當AI超越生產力並開始塑造我們的社會結構時,會發生什麼? Topher McDougal即將出版的書Gaia Wakes:

用於產品分類的AI:機器可以總稅法嗎?用於產品分類的AI:機器可以總稅法嗎?Apr 29, 2025 am 11:11 AM

產品分類通常涉及復雜的代碼,例如諸如統一系統(HS)等系統的“ HS 8471.30”,對於國際貿易和國內銷售至關重要。 這些代碼確保正確的稅收申請,影響每個INV

數據中心的需求會引發氣候技術反彈嗎?數據中心的需求會引發氣候技術反彈嗎?Apr 29, 2025 am 11:10 AM

數據中心能源消耗與氣候科技投資的未來 本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響,並分析了應對這一挑戰的創新解決方案和政策建議。 能源需求的挑戰: 大型超大規模數據中心耗電量巨大,堪比數十萬個普通北美家庭的總和,而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月,微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元(摩根大通,2024)(表1)。 不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導,迫在眉睫的電

AI和好萊塢的下一個黃金時代AI和好萊塢的下一個黃金時代Apr 29, 2025 am 11:09 AM

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型,以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型,正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景,甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高,但其進步速度令人驚嘆。 生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作,另一些則擅長真人影像。值得注意的是,Adobe的Firefly和Moonvalley的Ma

Chatgpt是否會慢慢成為AI最大的Yes-Man?Chatgpt是否會慢慢成為AI最大的Yes-Man?Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降:是模型退化还是用户期望? 近期,大量ChatGPT付费用户抱怨其性能下降,引发广泛关注。 用户报告称模型响应速度变慢,答案更简短、缺乏帮助,甚至出现更多幻觉。一些用户在社交媒体上表达了不满,指出ChatGPT变得“过于讨好”,倾向于验证用户观点而非提供批判性反馈。 这不仅影响用户体验,也给企业客户带来实际损失,例如生产力下降和计算资源浪费。 性能下降的证据 许多用户报告了ChatGPT性能的显著退化,尤其是在GPT-4(即将于本月底停止服务)等旧版模型中。 这

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具