Transformers 改變了人工智慧,在 NLP、電腦視覺和多模式資料整合方面提供了無與倫比的性能。這些模型擅長透過注意力機制識別資料中的模式,使其成為複雜任務的理想選擇。然而,由於傳統結構的計算成本較高,變壓器模型的快速擴展需要改進。
Transformers 徹底改變了人工智慧,在自然語言處理 (NLP)、電腦視覺和多模式資料整合方面提供了無與倫比的效能。這些模型擅長透過注意力機制識別資料中的模式,使其成為複雜任務的理想選擇。然而,由於傳統結構的計算成本較高,變壓器模型的快速擴展需要改進。隨著這些模型的增長,它們需要大量的硬體資源和訓練時間,並且隨著模型大小的增加而呈指數級增長。
縮放變壓器的主要障礙在於其線性投影層內的固定參數。這種靜態結構限制了模型在不完全重新訓練的情況下擴展的能力,隨著模型大小的增加,這種能力會呈指數級增長。當架構發生修改時,例如增加通道尺寸,這些傳統模型通常需要全面的重新訓練。
因此,這些擴充的計算成本變得非常高,而且該方法缺乏靈活性。無法動態添加新參數會抑製成長,使這些模型不太適應不斷發展的人工智慧應用程序,並且在時間和資源方面成本更高。
從歷史上看,管理模型可擴展性的方法包括使用 Net2Net 等方法複製權重或重構模型,其中複製神經元擴展層。然而,這些方法通常會破壞預訓練模型的平衡,導致收斂速度變慢並增加訓練複雜性。
雖然這些方法取得了漸進的進展,但它們在擴展過程中保持模型完整性方面仍然面臨限制。 Transformer 嚴重依賴靜態線性投影,導致參數擴展成本高且不靈活。 GPT 和其他大型 Transformer 等傳統模型經常從頭開始重新訓練,每個新的擴展階段都會產生高昂的計算成本。
現在,馬克斯普朗克研究所、谷歌和北京大學的研究人員開發了一種名為Tokenformer 的新架構,透過將模型參數視為令牌,從根本上重新構想了Transformer,從而允許令牌和參數之間進行動態互動。
在這個框架中,Tokenformer 引入了一個稱為令牌參數注意(Pattention)層的新穎元件,它有助於增量擴展。該模型可以添加新的參數標記而無需重新訓練,大大降低了訓練成本。
透過在同一框架內表示輸入令牌和參數,Tokenformer 可以靈活擴展,為研究人員提供更有效率、資源意識更強的模型架構,同時保持可擴展性和高效能。
Tokenformer 的 Pattention 層使用輸入 token 作為查詢,而模型參數作為鍵和值,這與標準 Transformer 方法不同,僅依賴線性投影。
模型的擴展是透過添加新的鍵值參數對、保持輸入和輸出維度不變並避免完全重新訓練來實現的。 Tokenformer 的架構設計為模組化,使研究人員能夠透過合併額外的代幣來無縫擴展模型。
這種增量擴展功能支援預訓練權重的有效重複使用,同時能夠快速適應新資料集或更大的模型大小,而不會破壞學習的資訊。
Tokenformer 的效能優勢非常顯著,因為模型在保持準確性的同時顯著降低了計算成本。例如,Tokenformer 將參數從 1.24 億擴展到 14 億,而訓練成本僅為傳統 Transformer 所需的一半。
在一項實驗中,該模型針對 14 億個參數配置實現了 11.77 的測試困惑度,幾乎與從頭開始訓練的類似大小的 Transformer 的 11.63 困惑度相匹配。
這種效率意味著 Tokenformer 可以在多個領域實現高效能,包括語言和視覺建模任務,而資源支出只是傳統模型的一小部分。
Tokenformer 提出了許多關於推進人工智慧研究和改進基於 Transformer 的模型的關鍵要點。其中包括:
將參數視為令牌可以實現增量模型擴展,而無需重新訓練。
令牌參數注意層有助於高效率的參數擴展。
模組化架構透過合併額外的代幣來支援無縫模型成長。
該模型以最少的資源消耗在不同領域實現了高效能。
總之,Tokenformer 提供了一種變革性方法來擴展基於 Transformer 的模型。此模型架構透過將參數視為令牌、降低成本並保持跨任務的模型效能來實現可擴展性和資源效率。
這種靈活性代表了變壓器設計的突破,提供了一種無需重新訓練即可適應先進人工智慧應用需求的模型。 Tokenformer 的架構為未來的人工智慧研究帶來了希望,提供了可持續、高效地開發大規模模型的途徑。
查看 HuggingFace 上的論文、GitHub 頁面和模型。
這項研究的所有功勞都歸功於該計畫的研究人員。另外,不要忘記在 Twitter 上關注我們並加入我們的 Telegram 頻道和 LinkedIn 群組。如果您喜歡我們的工作,您一定會喜歡我們的時事通訊。不要忘記加入我們的 55k ML SubReddit。
[我們的贊助機會]與 100 萬每月讀者和 50 萬社區成員推廣您的研究/產品/網絡研討會
以上是Tokenformer:透過將參數視為令牌來重新思考 Transformer的詳細內容。更多資訊請關注PHP中文網其他相關文章!

加密貨幣一直是技術的最前沿符合大膽的野心的領域,並且將來只會變得更加令人興奮。隨著人工智能的影響力不斷增長,有少數數字資產
![比特幣[BTC]在2月的最後一周失去了92,000美元的支持水平後處於下降趨勢](https://img.php.cn/upload/article/001/246/273/174209101774967.jpg?x-oss-process=image/resize,p_40)
諸如OVER之類的技術指標表明,銷售壓力已占主導地位,這意味著可能會有更多的損失。

本文詳細回顧了2015年至2025年比特幣的十年價格走勢,數據顯示比特幣價格波動劇烈,經歷了從200美元到超過10萬美元的巨大變化。期間,比特幣價格受多種因素影響,包括區塊獎勵減半、市場情緒、監管政策以及全球宏觀經濟形勢等。文章逐年分析了比特幣價格的漲跌,並對關鍵年份的價格變化進行了重點解讀,為投資者了解比特幣價格歷史,預測未來走勢提供參考。 關鍵詞:比特幣價格,比特幣走勢,比特幣十年,數字貨幣,加密貨幣

十大免費虛擬幣交易所排名依次為:1. OKX;2. Binance;3. Gate.io;4. Huobi Global;5. Kraken;6. Coinbase;7. KuCoin;8. Crypto.com;9. MEXC Global;10. Bitfinex。這些平台各有優勢。

2025年全球數字虛擬幣交易平台競爭激烈,本文根據交易量、安全性、用戶體驗等指標,權威發布2025年全球十大數字虛擬幣交易平台排行榜。 OKX憑藉強大的技術實力和全球化運營策略居首,Binance以高流動性和低費用緊隨其後。 Gate.io、Coinbase、Kraken等平台憑藉各自優勢穩居前列。榜單涵蓋Huobi、KuCoin、Bitfinex、Crypto.com和Gemini等交易平台,各有特色,但投資需謹慎。選擇平台需考慮安全性、流動性、費用、用戶體驗、幣種選擇及監管合規性等因素,理性投資

十大數字貨幣app平台排行榜:1. OKX,2. Binance,3. Gate.io,4. Kraken,5. Coinbase,6. Huobi,7. KuCoin,8. Crypto.com,9. Bitfinex,10. Gemini;這些平台根據交易量、安全性和用戶體驗等因素進行排名,選擇時需考慮平台的安全性、流動性、交易費用、幣種選擇、用戶界面和客戶支持。

本文详细回顾了以太坊自2015年上市以来的价格走势,从最初的0.31美元一路波动,经历了2017年的暴涨至近1400美元,以及2018年、2022年的市场暴跌,再到2021年创下4891.70美元的历史新高,以及2023年的回升和稳定。文章数据涵盖了以太坊价格在各个年份的显著变化,并对2024-2025年的价格走势进行了预测,为投资者提供以太坊价格的全面历史参考和未来展望。 了解以太坊价格波动历史,把握投资机遇!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

SublimeText3 Linux新版
SublimeText3 Linux最新版