搜尋
首頁科技週邊人工智慧單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率

乘法和排序也有效。

自 2017 年被提出以來,Transformer 已成為 AI 大模型的主流架構,一直穩站 C 位元。

然而,雖然所有研究者都不得不承認的是,Transformer 在算數任務中表現異常糟糕,儘管是加法,這一缺陷在很大程度上源於Transformer 無法跟踪大範圍數字中每個數字的準確位置。

為了解決這個問題,來自馬裡蘭大學、CMU等機構的研究者們向這個問題發起了挑戰。他們透過在每個數字中添加一個嵌入來解決這個問題,該嵌入編碼數字相對於開頭的位置。研究發現,只花一天時間在單一GPU上訓練20位數,就可以達到最新的表現水平,100位數數字加法問題高達99%的準確率。

單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率

論文網址:https://arxiv.org/pdf/2405.17399

專案網址:https://github.com/mcleish7/arithmetic

標題:Transformers Can Do Arithmetic with the Right Embeddings

具體而言,研究者建議對資料表顯示進行一個簡單的修改,就能解決這個缺點。他們提出了 Abacus 嵌入用於編碼每個數字符號 token 範圍內的位置。將Abacus 嵌入與標準位置嵌入結合使用後,研究觀察到Transformer 在算數任務上的準確率有顯著提高,以至於最多只訓練了20 位數操作數的模型可擴展到120 位數操作數的問題。這個數字代表了 6 倍的 SOTA 擴展因子,而前的最先進的擴展因子也只有 2.5 倍。據了解,這是迄今為止被證明的最長的學習加法序列。

除了研究優化Transformer在算術和泛化方面的表現之外,本文還探討了幾種其他方法來改善Transformer的表現。他們發現,透過在輸入註入(input injection)層和每個解碼器層之間插入跳躍連接,可以在Abacus嵌入基線上減少50%的泛化誤差。本文也發現,與嵌入結合使用的looped Transformer架構可以在加法問題上實現幾乎完美的泛化。

本文的貢獻可以總結如下:

  • 本文提出了一個新的位置嵌入,稱為Abacus 嵌入,以更好地捕捉每個數字的重要性,從而實現近乎完美的分佈內泛化;

  • 研究表明,當將Abacus 嵌入與輸入註入和looped transformer 相結合時,性能會進一步提高,分佈外準確率從92.9% 提高到99.1%,與單獨使用標準架構的嵌入相比,誤差降低了87%;

  • 研究者將這些發現擴展到更複雜的問題,包括乘法和排序,在這些領域也展現了長度泛化。

實現加法的長度泛化

作者研究了一系列方法,旨在提高從頭開始訓練的語言模型在算術能力上的表現。他們主要關注兩個假設:1)數字內各位數的位置資訊正在遺失;2)循環可以提高 Transformer 架構在多步驟算術推理問題上的推理能力。在詳細描述每項改進之前,作者簡要討論了訓練和評估設定。

實驗設定

作者訓練了僅包含解碼器的因果語言模型來解決加法問題。

他們考慮了兩種標準 transformer 架構。首先,他們使用標準的自回歸 transformer 模型,多個解碼器層以前饋方式堆疊。其次,他們透過輸入註入(input injection)增強了這個標準 transformer 模型,也就是把嵌入的輸入加入到每個解碼器層的輸入中。作者在圖 20 中直觀地描述了這些架構。

單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率

Abacus 嵌入幫助對齊數字

透過先前的研究和初步實驗,作者發現,即使輸入的數字是先顯示最不重要的數字,訓練資料是分層的、豐富的(幾百萬個例子),標準transformer 也很難學習多位數加法。他們也觀察到,人類在進行長加法運算時,會先將數位相同的數字排列成列。因此,作者的第一個假設是,對於 transformer 來說,每個數字的數字並不容易表示,而且這個子問題比實際加法本身帶來的障礙更大。

為了解決 transformer 在表示位置資訊方面的局限性,作者設計了一種特殊的位置嵌入,它可以編碼每個數字相對於當前數位起始位置的位置。作者將其稱之為 Abacus 嵌入。他們將相同的位置嵌入應用於所有具有相同數字的數字,從而提供一個明確的訊號,供模型用於對齊數字,如圖 2 所示。

單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率

Abacus 嵌入解決加法問題

對於標準 transformer 架構,Abacus 嵌入可將泛化效能提高到 100 位元及以上。在圖 3(左)中,作者強調了 Abacus 嵌入與標準 transformer 架構和嵌入相比,在進行加法運算時所具有的比較優勢,取三種模型在所有情況下的平均準確度。

單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率

圖 1 也顯示了使用 FIRE 和 Abacus 訓練的標準 transformer 模型的準確度結果,這些模型經過了域內 (ID) 和域外 (OOD) 測試。 單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率

Transformer 中的循環提高了效能

在解決位置嵌入問題後,接下來作者探討了循環架構能否進一步提高transformer 執行多位數加法的能力。他們使用「循環區塊(recurrent block)」一詞來指一組具有不同權重的解碼器層,而「循環(recurrence)」則指循環塊的重複次數。作者使用有效深度(effective depth)一詞來指稱 transformer 中使用的層數,無論其權重是否唯一。除非另有說明,否則他們使用的是最大循環架構,即只循環一個唯一層來達到有效深度。他們也採用了輸入註入、 殘差連接的方式,將輸入的副本傳播到網路中的每一層。

循環的優勢

在圖3(右)中,作者比較了使用FIRE 和NoPE 嵌入對操作數多達40 位的加法進行訓練的所有架構變體。儘管參數數量僅相當於其他模型的 1/10,但可以看到,looped transformer(循環的、有輸入註入和漸進損失)在使用任何一種位置嵌入時都取得了最佳的分佈外性能。在圖 8 中,作者展示了這項結果在多種訓練資料規模下的穩健性。

單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率

對於循環模型,可以選擇在訓練時改變每次前向傳遞的循環次數。這往往會提高模型測試時對較難任務的泛化能力,這也被稱為漸進式損失計算(progressive loss computation)。這個損失函數是兩個前向傳遞的損失值的凸組合,一個使用字面上的循環數(1 × 16 模型為 16),另一個使用隨機的較小循環數。

接下來,作者探討了在保持有效深度固定的同時改變循環區塊大小的效果。他們將循環區塊中的層數減半,循環次數增加一倍,從區塊中有16 層、循環次數只有一次(16 × 1,即標準transformer)的模型,過渡到區塊中只有一層、循環次數有16 次(1 × 16)的模型。

透過圖 4 分析這些結果,作者發現在某些情況下,結合循環和 Abacus 嵌入可以進一步提高效能。具體來說,在OOD 問題上,有兩個循環的模型(8 × 2)產生的誤差是純非循環模型(16 × 1)的一半,而在100 + 的OOD 問題上,其準確率也有所提高。

最後,在附錄 A.7.3 中,作者改變了模型的有效深度,以分析參數數量對這項任務的影響,包括 Abacus、FIRE 和 NoPE 嵌入。雖然圖 4 中的實驗是對不同深度的公平比較,但純粹的標準 transformer 模型比相應的循環模型擁有更多的參數。在附錄的表 3 中,作者記錄了最接近百萬的參數量。

單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率

單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率

實驗

#研究者不僅對加法問題進行了探討,也對乘法和排序進行了研究。

整數乘法

圖5 展示了Abacus 嵌入模型在15 位數乘法的分佈內準確率超過了先前的工作,且不需要用零將每個操作數填入相同長度。特別地,研究強調,與僅使用 FIRE 的基線相比,將 Abacus 嵌入與 FIRE 結合也提高了分佈問題中最難的分佈準確率 (右下)。

單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率

陣列排序

表 1 展示了使用不同嵌入 ——FIRE、Abacus 及其組合 —— 訓練的標準 transformer(八層)的表現。結果顯示,組合嵌入法增強了模型的泛化能力。

單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率

如表2 所示,研究者觀察到在將Abacus+FIRE 嵌入組合與不同的模型架構(有效深度為8)配對時,結果表現出混合性。

單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率

Abacus 和相關嵌入

#圖6 展示了將Abacus 嵌入整合到更通用系統中的真正潛力,顯示出Abacus 嵌入與FIRE 結合可以解鎖遠超FIRE 嵌入解決問題的能力。 

單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率

更多研究細節,請參考原文。

以上是單GPU訓練一天,Transformer在100位數字加法上就達能到99%準確率的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
AI遊戲開發通過Upheaval的Dreamer Portal進入其代理時代AI遊戲開發通過Upheaval的Dreamer Portal進入其代理時代May 02, 2025 am 11:17 AM

動盪遊戲:與AI代理商的遊戲開發徹底改變 Roupheaval是一家遊戲開發工作室,由暴風雪和黑曜石等行業巨頭的退伍軍人組成,有望用其創新的AI驅動的Platfor革新遊戲創作

Uber想成為您的Robotaxi商店,提供商會讓他們嗎?Uber想成為您的Robotaxi商店,提供商會讓他們嗎?May 02, 2025 am 11:16 AM

Uber的Robotaxi策略:自動駕駛汽車的騎車生態系統 在最近的Curbivore會議上,Uber的Richard Willder推出了他們成為Robotaxi提供商的乘車平台的策略。 利用他們在

AI代理玩電子遊戲將改變未來的機器人AI代理玩電子遊戲將改變未來的機器人May 02, 2025 am 11:15 AM

事實證明,視頻遊戲是最先進的AI研究的寶貴測試理由,尤其是在自主代理商和現實世界機器人的開發中,甚至有可能促進人工通用情報(AGI)的追求。 一個

創業公司工業綜合體VC 3.0和James Currier的宣言創業公司工業綜合體VC 3.0和James Currier的宣言May 02, 2025 am 11:14 AM

不斷發展的風險投資格局的影響在媒體,財務報告和日常對話中顯而易見。 但是,對投資者,初創企業和資金的具體後果經常被忽略。 風險資本3.0:範式

Adobe在Adobe Max London 2025更新創意云和螢火蟲Adobe在Adobe Max London 2025更新創意云和螢火蟲May 02, 2025 am 11:13 AM

Adobe Max London 2025對Creative Cloud和Firefly進行了重大更新,反映了向可訪問性和生成AI的戰略轉變。 該分析結合了事件前簡報中的見解,並融合了Adobe Leadership。 (注意:Adob

Llamacon宣布的所有元數據Llamacon宣布的所有元數據May 02, 2025 am 11:12 AM

Meta的Llamacon公告展示了一項綜合的AI策略,旨在直接與OpenAI等封閉的AI系統競爭,同時為其開源模型創建了新的收入流。 這個多方面的方法目標bo

關於AI僅僅是普通技術的主張的釀造爭議關於AI僅僅是普通技術的主張的釀造爭議May 02, 2025 am 11:10 AM

人工智能領域對這一論斷存在嚴重分歧。一些人堅稱,是時候揭露“皇帝的新衣”了,而另一些人則強烈反對人工智能僅僅是普通技術的觀點。 讓我們來探討一下。 對這一創新性人工智能突破的分析,是我持續撰寫的福布斯專欄文章的一部分,該專欄涵蓋人工智能領域的最新進展,包括識別和解釋各種有影響力的人工智能複雜性(請點擊此處查看鏈接)。 人工智能作為普通技術 首先,需要一些基本知識來為這場重要的討論奠定基礎。 目前有大量的研究致力於進一步發展人工智能。總目標是實現人工通用智能(AGI)甚至可能實現人工超級智能(AS

模型公民,為什麼AI值是下一個業務碼模型公民,為什麼AI值是下一個業務碼May 02, 2025 am 11:09 AM

公司AI模型的有效性現在是一個關鍵的性能指標。自AI BOOM以來,從編寫生日邀請到編寫軟件代碼的所有事物都將生成AI使用。 這導致了語言mod的擴散

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器