搜尋
首頁科技週邊人工智慧五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

自2017 年提出至今,Transformer 模型已經在自然語言處理、電腦視覺等其他領域展現了前所未有的實力,並引發了ChatGPT 這樣的技術突破,人們也提出了各種基於原始模型的變體。

由於學界和業界不斷提出基於 Transformer 注意力機制的新模型,我們有時很難對這個方向進行歸納總結。近日,領英 AI 產品策略負責人 Xavier Amatriain 的一篇綜述性文章或許可以幫助我們解決這個問題。

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

#在過去的幾年裡,陸續出現了數十個來自Transformer 家族模型,所有這些都有有趣且易於理解的名字。本文的目標是為最受歡迎的 Transformer 模型提供一個比較全面但簡單的目錄和分類,此外本文也介紹了 Transformer 模型中最重要的面向和創新。

論文《Transformer models: an introduction and catalog》:

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

論文連結:

https://arxiv.org/abs/2302.07730

GitHub:https://github.com/xamat/TransformerCatalog

簡介:什麼是Transformer

Transformer 是一類由一些架構特徵定義的深度學習模型。首次出現在Google研究人員於 2017 年發表的著名論文《Attention is All you Need》(這篇論文在短短 5 年就被引用了 3.8 萬餘次)以及相關的部落格文章中。 Transformer 架構是編碼器 - 解碼器模型 [2] 的一個特定實例,該模型在 2 - 3 年前開始流行起來。然而,在此之前,注意力只是這些模型使用的機制之一,這些模型主要基於 LSTM(長短期記憶)[3] 和其他 RNN(循環神經網路)[4] 變體。 Transformers 論文的關鍵見解是,正如標題所暗示的那樣,注意力可以被用作推導輸入和輸出之間依賴關係的唯一機制。討論 Transformer 體系結構的所有細節超出了本部落格的範圍。為此,本文建議參考上面的原論文或 Transformers 的帖子,內容都十分精彩。話雖如此,本文將簡要敘述最重要的方面,下面的目錄中也會提到它們。本文將先從原始論文中的基本架構圖開始,進而展開敘述相關內容。

編碼器/ 解碼器架構

#通用編碼器/ 解碼器體系架構(參見圖1) 由兩個模型組成。編碼器接受輸入並將其編碼為固定長度的向量。解碼器取得該向量並將其解碼為輸出序列。編碼器和解碼器聯合訓練以最小化條件對數似然。一旦訓練,編碼器 / 解碼器可以產生給定輸入序列的輸出,或者可以對輸入 / 輸出序列進行評分。在最初的 Transformer 架構中,編碼器和解碼器都有 6 個相同的層。在這 6 層中的每一層編碼器都有兩個子層:一個多頭注意層和一個簡單的前饋網路。每個子層都有一個殘差連接和一個層歸一化。編碼器的輸出大小是 512。解碼器增加了第三個子層,這是編碼器輸出上的另一個多頭注意層。此外,解碼器中的另一個多頭層被遮罩。

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

#圖1:Transformer 系統架構

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

#

圖2:注意力機制

「注意

#從上面的描述可以清楚地看出,模型體系架構唯一的特別元素是多頭注意力,但是,正如上面所描述的,這正是模型的全部力量所在。那麼,注意力到底是什麼呢?注意力函數是查詢和一組鍵值對到輸出之間的映射。輸出是按值的加權和計算的,其中分配給每個值的權重是透過查詢與對應鍵的相容性函數計算的。 Transformers 使用多頭注意力,這是一個被稱為縮放點積注意力的特定注意力函數的平行計算。關於注意力機制如何運作的更多細節,本文將再次參考《The Illustrated Transformer》的帖文,將在圖 2 中再現原始論文中的圖表,以便了解主要思想。與循環網絡和卷積網絡相比,注意力層有幾個優勢,最重要的兩個是它們較低的計算複雜性和較高的連通性,特別是對於學習序列中的長期依賴關係非常有用。

Transformer 的用途是什麼,為什麼它們如此受歡迎

最初的Transformer 是為語言翻譯而設計的,特別是從英語到德語。但是,透過原先的研究論文就可以看出,該架構可以很好地推廣到其他語言任務。這一特別的趨勢很快就引起了研究界的注意。在接下來的幾個月裡,大多數與語言相關的ML 任務排行榜完全被某個版本的Transformer 架構所主導(比方說,著名的SQUAD 排行榜,其中所有位於頂部的模型都是Transformer 的集合)。 Transformer 能夠如此迅速地佔據大多數 NLP 排行榜的關鍵原因之一是它們能夠快速適應其他任務,也就是遷移學習。預先訓練的 Transformer 模型可以非常容易且快速地適應它們沒有經過訓練的任務,這具有巨大的優勢。身為 ML 從業者,你不再需要在龐大的資料集上訓練大型模型。你所需要做的就是在你的任務中重新使用預先訓練的模型,也許只是用一個小得多的資料集稍微調整它。一種用於使預訓練的模型適應不同任務的特定技術稱為微調。

事實證明,Transformer 適應其他任務的能力是如此之強,以至於儘管它們最初是為與語言相關的任務而開發的,但它們很快就被用於其他任務,從視覺或音頻和音樂應用程序,一直到下棋或做數學。

當然,如果不是因為有無數的工具,任何人都可以輕鬆地編寫幾行程式碼,那麼所有這些應用程式都不可能實現。 Transformer 不僅能迅速整合到主要的人工智慧框架(即 Pytorch8 和 TF9)中,甚至基於此創建起整個公司。 Huggingface 是一家迄今為止已經籌集了 6000 多萬美元的新創公司,幾乎完全是圍繞著將開源 Transformer 庫商業化的想法建立的。

最後,有必要談談 Transformer 普及初期 GPT-3 對其的影響。 GPT-3 是 OpenAI 在 2020 年 5 月推出的 Transformer 模型,是他們早期 GPT 和 GPT-2 的後續產品。該公司通過在預印本中介紹該模型而引起了很大的轟動,他們聲稱該模型非常強大,以至於他們無法向世界發布它。從那以後,該模式不僅發布了,而且還透過 OpenAI 和微軟之間的大規模合作實現了商業化。 GPT-3 支援 300 多個不同的應用程序,是 OpenAI 商業策略的基礎 (對於一家已經獲得超過 10 億美元融資的公司來說,這是很有意義的)。

RLHF

#最近,從人類回饋(或偏好)強化學習(RLHF(也稱為RLHP )已成為人工智慧工具包的一個巨大補充。這個概念已經在2017 年的論文《Deep reinforcement learning from human preferences》中提出。最近,它被應用於ChatGPT 和類似的對話智能體,如BlenderBot 或Sparrow。這個想法很簡單:一旦語言模型被預先訓練,使用者就可以對對話產生不同的反應,並讓人類對結果進行排序。人們可以在強化學習環境中使用這些排名(也就是偏好或回饋)來訓練獎勵(見圖3)。###############擴散##########

擴散模型已經成為影像生成中的新 SOTA,顯然將先前的方法如 GANs(生成對抗網路)推到了一邊。什麼是擴散模型?它們是一類經過變分推理訓練的潛在變數模型。以這種方式訓練的網路實際上是在學習這些圖像所代表的潛在空間(參見圖 4)。

擴散模型與其他生成模型有關係,如著名的[生成對抗網路(GAN)] 16,它們在許多應用中已經被取代,特別是與(去雜訊)自動編碼器。有些作者甚至說擴散模型只是自編碼器的一個具體實例。然而,他們也承認,微小的差異確實改變了他們的應用,從 autoconder 的潛在表示到擴散模型的純粹生成性質。

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

#圖 3:具有人類回饋的強化學習。

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

#圖4:機率擴散模型架構摘自《Diffusion Models : A Comprehensive Survey of Methods and Applications》

#本文介紹的模型包括:

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

################################# ############################ #####################

以上是五年時間被引用3.8萬次,Transformer宇宙發展成了這樣的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
2 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具