搜尋
首頁網路3.0Tokenformer:透​​過將參數視為令牌來重新思考 Transformer

Tokenformer:透​​過將參數視為令牌來重新思考 Transformer

Nov 04, 2024 am 12:36 AM
ScalingTokenformer Transformer Architecture Tokenized Parameters AI Applications

Transformers 改變了人工智慧,在 NLP、電腦視覺和多模式資料整合方面提供了無與倫比的性能。這些模型擅長透過注意力機制識別資料中的模式,使其成為複雜任務的理想選擇。然而,由於傳統結構的計算成本較高,變壓器模型的快速擴展需要改進。

Tokenformer:透​​過將參數視為令牌來重新思考 Transformer

Transformers 徹底改變了人工智慧,在自然語言處理 (NLP)、電腦視覺和多模式資料整合方面提供了無與倫比的效能。這些模型擅長透過注意力機制識別資料中的模式,使其成為複雜任務的理想選擇。然而,由於傳統結構的計算成本較高,變壓器模型的快速擴展需要改進。隨著這些模型的增長,它們需要大量的硬體資源和訓練時間,並且隨著模型大小的增加而呈指數級增長。

縮放變壓器的主要障礙在於其線性投影層內的固定參數。這種靜態結構限制了模型在不完全重新訓練的情況下擴展的能力,隨著模型大小的增加,這種能力會呈指數級增長。當架構發生修改時,例如增加通道尺寸,這些傳統模型通常需要全面的重新訓練。

因此,這些擴充的計算成本變得非常高,而且該方法缺乏靈活性。無法動態添加新參數會抑製成長,使這些模型不太適應不斷發展的人工智慧應用程序,並且在時間和資源方面成本更高。

從歷史上看,管理模型可擴展性的方法包括使用 Net2Net 等方法複製權重或重構模型,其中複製神經元擴展層。然而,這些方法通常會破壞預訓練模型的平衡,導致收斂速度變慢並增加訓練複雜性。

雖然這些方法取得了漸進的進展,但它們在擴展過程中保持模型完整性方面仍然面臨限制。 Transformer 嚴重依賴靜態線性投影,導致參數擴展成本高且不靈活。 GPT 和其他大型 Transformer 等傳統模型經常從頭開始重新訓練,每個新的擴展階段都會產生高昂的計算成本。

現在,馬克斯普朗克研究所、谷歌和北京大學的研究人員開發了一種名為Tokenformer 的新架構,透過將模型參數視為令牌,從根本上重新構想了Transformer,從而允許令牌和參數之間進行動態互動。

在這個框架中,Tokenformer 引入了一個稱為令牌參數注意(Pattention)層的新穎元件,它有助於增量擴展。該模型可以添加新的參數標記而無需重新訓練,大大降低了訓練成本。

透過在同一框架內表示輸入令牌和參數,Tokenformer 可以靈活擴展,為研究人員提供更有效率、資源意識更強的模型架構,同時保持可擴展性和高效能。

Tokenformer 的 Pattention 層使用輸入 token 作為查詢,而模型參數作為鍵和值,這與標準 Transformer 方法不同,僅依賴線性投影。

模型的擴展是透過添加新的鍵值參數對、保持輸入和輸出維度不變並避免完全重新訓練來實現的。 Tokenformer 的架構設計為模組化,使研究人員能夠透過合併額外的代幣來無縫擴展模型。

這種增量擴展功能支援預訓練權重的有效重複使用,同時能夠快速適應新資料集或更大的模型大小,而不會破壞學習的資訊。

Tokenformer 的效能優勢非常顯著,因為模型在保持準確性的同時顯著降低了計算成本。例如,Tokenformer 將參數從 1.24 億擴展到 14 億,而訓練成本僅為傳統 Transformer 所需的一半。

在一項實驗中,該模型針對 14 億個參數配置實現了 11.77 的測試困惑度,幾乎與從頭開始訓練的類似大小的 Transformer 的 11.63 困惑度相匹配。

這種效率意味著 Tokenformer 可以在多個領域實現高效能,包括語言和視覺建模任務,而資源支出只是傳統模型的一小部分。

Tokenformer 提出了許多關於推進人工智慧研究和改進基於 Transformer 的模型的關鍵要點。其中包括:

將參數視為令牌可以實現增量模型擴展,而無需重新訓練。

令牌參數注意層有助於高效率的參數擴展。

模組化架構透過合併額外的代幣來支援無縫模型成長。

該模型以最少的資源消耗在不同領域實現了高效能。

總之,Tokenformer 提供了一種變革性方法來擴展基於 Transformer 的模型。此模型架構透過將參數視為令牌、降低成本並保持跨任務的模型效能來實現可擴展性和資源效率。

這種靈活性代表了變壓器設計的突破,提供了一種無需重新訓練即可適應先進人工智慧應用需求的模型。 Tokenformer 的架構為未來的人工智慧研究帶來了希望,提供了可持續、高效地開發大規模模型的途徑。

查看 HuggingFace 上的論文、GitHub 頁面和模型。

這項研究的所有功勞都歸功於該計畫的研究人員。另外,不要忘記在 Twitter 上關注我們並加入我們的 Telegram 頻道和 LinkedIn 群組。如果您喜歡我們的工作,您一定會喜歡我們的時事通訊。不要忘記加入我們的 55k ML SubReddit。

[我們的贊助機會]與 100 萬每月讀者和 50 萬社區成員推廣您的研究/產品/網絡研討會

以上是Tokenformer:透​​過將參數視為令牌來重新思考 Transformer的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
Gitcoin Labs,以太坊公共物品資金協議Gitcoin的主要軟件開發單位Gitcoin關閉Gitcoin Labs,以太坊公共物品資金協議Gitcoin的主要軟件開發單位Gitcoin關閉Apr 26, 2025 am 11:22 AM

Gitcoin聯合創始人Kevin Owocki在一份聲明中說,這一決定部分是因為“盈利能力”是不現實的。

RCO Finance(RCOF)是下一個頂級加密貨幣選秀的競爭者RCO Finance(RCOF)是下一個頂級加密貨幣選秀的競爭者Apr 26, 2025 am 11:20 AM

XRP價格穩定在2.13美元,交易量為23.3億美元。但是,它的勢頭減慢了,使投資者尋求下一個頂級加密貨幣選秀權。

到2030年,比特幣(BTC)可能達到每枚硬幣150萬美元,方舟投資項目到2030年,比特幣(BTC)可能達到每枚硬幣150萬美元,方舟投資項目Apr 26, 2025 am 11:18 AM

投資者兼首席執行官凱西·伍德(Cathie Wood)的方舟投資公司項目,比特幣到2030

瑞士國家銀行拒絕了持有比特幣儲備,理由是對加密貨幣市場流動性和波動性的擔憂。瑞士國家銀行拒絕了持有比特幣儲備,理由是對加密貨幣市場流動性和波動性的擔憂。Apr 26, 2025 am 11:16 AM

“對於加密貨幣而言,市場流動性有時似乎還可以,尤其是在自然受到質疑的危機期間”

當特朗普宣布對加密貨幣進口的關稅延遲為期90天,投機者和投資者開始概述潛在風險當特朗普宣布對加密貨幣進口的關稅延遲為期90天,投機者和投資者開始概述潛在風險Apr 26, 2025 am 11:14 AM

當美國總統唐納德·特朗普(Donald Trump)宣布對加密貨幣進口的關稅延遲為期90天,投機者和投資者開始概述更廣泛的加密貨幣市場的潛在風險。

從2011年開始,在50p硬幣上發現'一個小細節”可能會賺取2,000英鎊從2011年開始,在50p硬幣上發現'一個小細節”可能會賺取2,000英鎊Apr 26, 2025 am 11:12 AM

如果奧運會主題的硬幣具有特定的設計,則受到收藏家的高度追捧。

敦促英國人正在尋找一枚備受追捧的50p硬幣,該硬幣有可能值得一筆驚人的2,000英鎊敦促英國人正在尋找一枚備受追捧的50p硬幣,該硬幣有可能值得一筆驚人的2,000英鎊Apr 26, 2025 am 11:10 AM

如果收藏家採用特定的設計,則該硬幣高度評價。

從2011年開始,在50p硬幣上發現'一個小細節”可能會賺取2000英鎊從2011年開始,在50p硬幣上發現'一個小細節”可能會賺取2000英鎊Apr 26, 2025 am 11:08 AM

如果奧運會主題的硬幣具有特定的設計,則受到收藏家的高度追捧。

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!