搜尋
首頁科技週邊人工智慧被GPT帶飛的In-Context Learning為什麼會起作用?模型在秘密執行梯度下降

繼 BERT 之後,研究者註意到了大規模預訓練模型的潛力,不同的預訓練任務、模型架構、訓練策略等被提出。但 BERT 類別模型通常有兩大缺點:一是過度依賴有標籤資料;二是存在過度擬合現象。

具體而言,現在的語言模型都傾向於兩段式框架,即預訓練下游任務微調,但是在針對下游任務的微調過程中又需要大量的樣本,否則效果很差,然而標註資料的成本高昂。還有就是標註資料有限,模型只能擬合訓練資料分佈,但資料較少的話容易造成過擬合,致使模型的泛化能力下降。

作為大模型的開路先鋒,大型預訓練語言模型,特別是 GPT-3 已經顯示出令人驚訝的 ICL(In-Context Learning)能力。與微調需要額外的參數更新不同,ICL 只需要一些演示“輸入 - 標籤”對,模型就可以預測標籤甚至是沒見過的輸入標籤。在許多下游任務中,一個大型 GPT 模型可以獲得相當好的性能,甚至超過了一些經過監督微調的小型模型。

為何ICL 的表現如此優秀,在來自OpenAI 的一篇長達70 多頁的論文《Language Models are Few-Shot Learners》中,他們對ICL 進行了探索,其目的是讓GPT-3 使用更少的領域資料、且不經過微調去解決問題。

如下圖所示,ICL 包含三種分類:Few-shot learning,允許輸入數條範例和一則任務說明;One-shot learning,只允許輸入一個範例和一則任務說明;Zero-shot learning,不允許輸入任何範例,只允許輸入一則任務說明。結果顯示 ICL 不需要反向傳播,只需要把少量標註樣本放在輸入文字的上下文中即可誘導 GPT-3 輸出答案。

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

#GPT-3 in-context learning

實驗證明在Few-shot 下GPT-3 有很好的表現:

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

為什麼GPT可以在In-Context 學習?

儘管 ICL 在效能上取得了巨大的成功,但其工作機制仍然是一個有待研究的開放性問題。為了更好地理解 ICL 是如何運作的,我們接下來介紹一篇來自北大、清華等機構的研究是如何解釋的。

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

  • 論文網址:https://arxiv.org/pdf/2212.10559v2.pdf
  • #專案網址:https://github.com/microsoft/LMOps

用網友的話來總結,即:「這項工作表明,GPT 自然地學會了使用內部優化來執行某些運行。該研究同時提供了經驗性證據來證明In-Context Learning 和顯式微調在多個層面上表現相似。」

為了更好地理解ICL 是如何運作的,該研究將語言模型解釋為元優化器,ICL 解釋為一個元優化過程,並將ICL 理解為一種隱式微調,試圖在基於GPT 的ICL 和微調之間建立聯繫。從理論上講,該研究發現 Transformer 的注意力具有基於梯度下降的對偶優化形式。

在此基礎上,研究提出了一個新的視角來解釋ICL:GPT 首先根據示範範例產生元梯度,然後將這些元梯度應用於原始GPT 以建立ICL模型。

如圖 1 所示,ICL 和明確微調共享基於梯度下降的對偶最佳化形式。唯一的差異是 ICL 透過前向計算產生元梯度,而微調透過反向傳播計算梯度。因此,將 ICL 理解為某種隱式微調是合理的

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

ICR 執行隱含微調 

該研究首先定性分析了鬆弛線性注意力(relaxed linear attention)形式下的Transformer 注意力,以找出它與基於梯度下降最佳化之間的對偶形式。然後,該研究將 ICL 與顯式微調進行比較,並在這兩種最佳化形式之間建立聯繫。基於這些理論發現,他們建議將 ICL 理解為一種隱式微調。

首先該研究將Transforme 注意力看作元優化,將ICL 解釋為一個元優化過程:(1)一個基於Transformer 的預訓練語言模型作為元優化器;( 2)透過前向計算根據實例產生元梯度;(3)透過注意力,將元梯度應用於原始語言模型,建構ICL。

接下來是 ICL 與微調的比較。經過一系列設定後,研究發現 ICL 與微調有許多共同特性。他們從以下四個面向來組織這些共通點:兩者都執行梯度下降;相同的訓練資訊;訓練例子的因果順序相同;都是圍繞著注意力。

考慮到 ICL 和微調之間的所有這些共同屬性,該研究認為將 ICL 理解為一種隱式微調是合理的。在本文的其餘部分,該研究從多個方面根據經驗比較 ICL 和微調,以提供支持這種理解的定量結果。

實驗結果

研究進行了一系列實驗來全面比較ICL 的行為和基於實際任務的明確微調,在六個分類任務上,他們比較了預訓練GPT 在ICL 和微調設定中關於預測、注意力輸出和注意力得分的情況。正如預期的那樣,ICL 在預測、表示和注意力水平等方面都與顯式微調高度相似。這些結果有力地證明了這一合理性:ICL 執行隱式微調。

 此外,受元最佳化理解的啟發,該研究透過類比基於動量的梯度下降演算法設計了一種基於動量的注意力。它始終優於 vanilla attention 的性能。

表 2 顯示了在六個分類資料集上 ZSL( Zero-Shot Learning )、ICL 和微調(FT)設定中的驗證精確度。與 ZSL 相比,ICL 和微調都取得了相當大的改進,這意味著所做的最佳化都有助於這些下游任務。此外,研究發現 ICL 在 Few-shot 場景中比微調更好。

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

表 3 中顯示了 6 個資料集上 2 個 GPT 模型的 Rec2FTP 分數。平均而言,ICL 可以從 ZSL 中正確預測 87.64% 的微調能夠修正的範例。這些結果顯示在預測層面,ICL 可以涵蓋大多數正確的微調行為。

表 3 也顯示了 6 個資料集上 2 個 GPT 模型的範例與圖層的平均 SimAOU 分數。為了進行比較,研究也提供了一個基準指標(Random SimAOU),用來計算 ICL 更新和隨機產生更新之間的相似性。從表中可以看出,ICL 更新更類似於微調更新而非隨機更新,這意味著在表示層面上,ICL 傾向於按照微調改變的方向來改變注意力結果。

最後,表 3 也顯示了 6 個資料集上 2 個 GPT 模型的範例與圖層的平均 SimAM 分數。作為 SimAM 的基準指標,ZSL SimAM 計算 ICL 注意力權重和 ZSL 注意力權重之間的相似性。透過比較這兩個指標,研究發現,與 ZSL 相比,ICL 更傾向於產生類似微調的注意力權重。同樣在註意力行為層面,研究證明 ICL 的行為類似於微調。

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

為了更徹底地探討 ICL 和微調之間的相似性,研究比較了不同層的 SimAOU 和 SimAM 分數。透過從每個資料集中隨機抽取 50 個驗證範例,分別繪製瞭如下圖 2 和圖 3 所示的 SimAOU 和 SimAM 箱形圖。

從圖中可以發現,SimAOU 和 SimAM 在較低層出現波動,並且往往在較高層更穩定。這種現象說明了 ICL 進行的元優化具有前向累積效應,隨著累積的增加,ICL 的行為更類似於較高層的微調。

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

總結

#總結而言,本文旨在解釋基於GPT 的ICL 工作機制。從理論上講,該研究找出了 ICL 的對偶形式,並建議將 ICL 理解為元最佳化過程。此外,該研究在 ICL 和特定微調設定之間建立了聯繫,發現將 ICL 視為一種隱式微調是合理的。為了支持對 ICL 執行隱式微調的理解,研究綜合比較了 ICL 和基於實際任務的微調的行為。結果證明,ICL 類似於顯式微調。

此外,受元最佳化的啟發,該研究設計了一種基於動量的注意力,以實現一致的性能改進。作者希望研究能幫助更多的人深入了解 ICL 應用和模型設計。

以上是被GPT帶飛的In-Context Learning為什麼會起作用?模型在秘密執行梯度下降的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
最新的最佳及時工程技術的年度彙編最新的最佳及時工程技術的年度彙編Apr 10, 2025 am 11:22 AM

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題

歐洲的AI大陸行動計劃:Gigafactories,Data Labs和Green AI歐洲的AI大陸行動計劃:Gigafactories,Data Labs和Green AIApr 10, 2025 am 11:21 AM

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。 一個關鍵要素是建立了AI Gigafactories網絡,每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟的直接代理商故事是否足以創造更多的粉絲?微軟的直接代理商故事是否足以創造更多的粉絲?Apr 10, 2025 am 11:20 AM

微軟對AI代理申請的統一方法:企業的明顯勝利 微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。 與許多技術公告陷入困境不同

向員工出售AI策略:Shopify首席執行官的宣言向員工出售AI策略:Shopify首席執行官的宣言Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

IBM啟動具有完整AI集成的Z17大型機IBM啟動具有完整AI集成的Z17大型機Apr 10, 2025 am 11:18 AM

IBM的Z17大型機:集成AI用於增強業務運營 上個月,在IBM的紐約總部,我收到了Z17功能的預覽。 以Z16的成功為基礎(於2022年推出並證明持續的收入增長

5 Chatgpt提示取決於別人並完全相信自己5 Chatgpt提示取決於別人並完全相信自己Apr 10, 2025 am 11:17 AM

解鎖不可動搖的信心,消除了對外部驗證的需求! 這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。 只需複制,粘貼和自定義包圍

AI與您的思想危險相似AI與您的思想危險相似Apr 10, 2025 am 11:16 AM

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相,展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。 窺探內部:Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展,該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼,而是理解它在人工神經元層面如何做到這一點。 想像一下,試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A

龍翼展示高通的邊緣動力龍翼展示高通的邊緣動力Apr 10, 2025 am 11:14 AM

高通的龍翼:企業和基礎設施的戰略飛躍 高通公司通過其新的Dragonwing品牌在全球範圍內積極擴展其範圍,以全球為目標。 這不僅僅是雷布蘭

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。