首頁  >  文章  >  科技週邊  >  30頁論文!俞士綸團隊新作:AIGC全面調查,從GAN到ChatGPT發展史

30頁論文!俞士綸團隊新作:AIGC全面調查,從GAN到ChatGPT發展史

WBOY
WBOY轉載
2023-04-04 11:50:021691瀏覽

2022年,可以說是生成式AI的元年。近日,俞士綸團隊發表了一篇關於AIGC全面調查,介紹了從GAN到ChatGPT的發展史。

剛過去的2022年,無疑是生成式AI爆發的奇點。

自2021年起,生成式AI連續2年入選Gartner的「人工智慧技術成熟度曲線」,被認為是未來重要的AI技術趨勢。

近日,俞士綸團隊發表了一篇關於AIGC全面調查,介紹了從GAN到ChatGPT的發展史。

30頁論文!俞士綸團隊新作:AIGC全面調查,從GAN到ChatGPT發展史

論文網址:https://arxiv.org/pdf/2303.04226.pdf

本文節錄了論文部分內容來介紹。

奇點已來?

近年來,人工智慧生成內容(AIGC,也稱生成式AI)引發了電腦科學界以外的廣泛關注。

整個社會開始對大型科技公司開發的各種內容所產生的產品,如ChatGPT和DALL-E-2,產生了極大興趣。

AIGC,是指使用生成式人工智慧(GAI)技術產生內容,並且可以在短時間內自動創建大量內容。

ChatGPT是OpenAI開發的一個用來建構會話的AI系統。該系統能夠以有意義的方式有效地理解人類語言並作出回應。

此外,DALL-E-2也是OpenAI開發的另一種最先進的GAI模型,能夠在幾分鐘內從文字描述中創建獨特的高品質圖像。

30頁論文!俞士綸團隊新作:AIGC全面調查,從GAN到ChatGPT發展史

AIGC 在影像生成中的範例

從技術上講,AIGC是指給定指令,可以引導模型完成任務,利用GAI生成滿足指令的內容。這個生成過程通常包括兩個步驟:從指令中提取意圖訊息,並根據提取的意圖產生內容。

然而,正如先前的研究所證明的那樣,包含上述兩個步驟的GAI模型的範式並非是完全新穎的。

與先前工作相比,最近AIGC進步的核心點是在更大的資料集上訓練更複雜的生成模型,使用更大的基礎模型框架,並且可以存取廣泛的計算資源。

例如,GPT-3和GPT-2的主框架一樣,但是預訓練資料大小從 WebText (38GB) 增加到 CommonCrawl (過濾後為570GB) ,基礎模型大小從1.5B增加到175B。

30頁論文!俞士綸團隊新作:AIGC全面調查,從GAN到ChatGPT發展史

因此,GPT-3在各種任務上比GPT-2有更好的泛化能力。

除了資料量和運算能力增加所帶來的好處之外,研究人員還在探索將新技術與GAI演算法結合的方法。

例如,ChatGPT利用人類回饋的強化學習 (RLHF) 來確定給定指令的最適當反應,從而隨著時間的推移提高模型的可靠性和準確性。這種方法使ChatGPT能夠更好地理解長時間對話中的人類偏好。

同時,在CV中,Stability AI在2022年提出的Stable Diffusion在影像生成方面也取得了巨大的成功。

與以往的方法不同,生成擴散模型可以透過控制探索和開發之間的平衡來幫助生成高解析度影像,從而在生成的影像中實現多樣性,與訓練資料相似性的和諧組合。

透過將這些進步結合起來,模型在AIGC的任務中取得了重大進展,並已被藝術、廣告和教育等各行各業採用。

在不久的將來,AIGC將繼續成為機器學習研究的重要領域。

一般來說,GAI模型可以分為兩種類型: 單模態模型和多模態模型

因此,對過去的研究進行一次全面的回顧,並找出這個領域存在的問題是至關重要的。這是首份關注AIGC領域的核心技術和應用的調查。

這是AIGC第一次在技術和應用方面總結GAI的全面調查。

先前的調查主要從GAI不同角度介紹,包括自然語言生成 ,圖像生成,多模態機器學習生成。然而,這些先前的工作只關注AIGC的特定部分。

在這次調查中,最先回顧了AIGC常用的基礎技術。然後,進一步提供了先進GAI演算法的全面總結,包括單峰生成和多峰生成。此外,論文也研究了 AIGC 的應用和潛在挑戰。

最後強調了這個領域未來方向。總之,本文的主要貢獻如下:

-據我們所知,我們是第一個為AIGC和AI增強的生成過程提供正式定義和全面調查。

-我們回顧了AIGC的歷史、基礎技術,並從單峰生成和多峰生成的角度對GAI任務和模型的最新進展進行了綜合分析。

-本文討論了AIGC面臨的主要挑戰和未來的研究趨勢。

生成式AI历史

生成模型在人工智能中有着悠久的历史,最早可以追溯到20世纪50年代隐马尔可夫模型 (HMMs) 和高斯混合模型(GMMs)的发展。

这些模型生成了连续的数据,如语音和时间序列。然而,直到深度学习的出现,生成模型的性能才有了显著的提高。

在早期的深度生成模型中,不同的领域通常没有太多的重叠。

30頁論文!俞士綸團隊新作:AIGC全面調查,從GAN到ChatGPT發展史

生成AI在 CV、NLP和VL中的发展史

在NLP中,生成句子的传统方法是使用N-gram语言模型学习词的分布,然后搜索最佳序列。然而,这种方法不能有效适应长句子。

为了解决这个问题,递归神经网络(RNNs)后来被引入到语言建模任务中,允许相对较长的依赖关系进行建模。

其次是长期短期记忆(LSTM)和门控递归单元(GRU)的发展,它们利用门控机制来在训练中控制记忆。这些方法能够在一个样本中处理大约200个标记(token),这与N-gram语言模型相比标志着显著的改善。

同时,在CV中,在基于深度学习方法出现之前,传统的图像生成算法使用了纹理合成(PTS)和纹理映射等技术。

这些算法基于手工设计的特征,并且在生成复杂多样图像的方面能力有限。

2014年,生成对抗网络(GANs)首次被提出,因其在各种应用中取得了令人印象深刻的结果,成为人工智能领域的里程碑。

变异自动编码器(VAEs)和其他方法,如生成扩散模型,也被开发出来,以便对图像生成过程进行更细粒度的控制,并能够生成高质量的图像。

生成模型在不同领域的发展遵循着不同的路径,但最终出现了交集: Transformer架构。

2017年,由 Vaswani 等人在NLP任务中引入Transformer,后来应用于CV,然后成为各领域中许多生成模型的主导架构。

在NLP领域,许多著名的大型语言模型,如BERT和GPT,都采用Transformer架构作为其主要构建模块。与之前的构建模块,即LSTM和GRU相比,具有优势。

在CV中,Vision Transformer (ViT) 和 Swin Transformer后来进一步发展了这一概念,将Transformer体系结构与视觉组件相结合,使其能够应用于基于图像的下行系统。

除了Transformer给单个模态带来的改进外,这种交叉也使来自不同领域的模型能够融合在一起,执行多模态任务。

多模态模型的一个例子是CLIP。CLIP是一个联合的视觉语言模型。它将Transformer架构与视觉组件相结合,允许在大量文本和图像数据上进行训练。

由于在预训练中结合了视觉和语言知识,CLIP也可以在多模态提示生成中作为图像编码器使用。总之,基于Transformer模型的出现彻底改变了人工智能的生成,并导致了大规模训练的可能性。

近年来,研究人员也开始引入基于这些模型的新技术。

例如,在NLP中,为了帮助模型更好地理解任务需求,人们有时更倾向于少样本(few-shot)提示。它指的是在提示中包含从数据集中选择的一些示例。

在视觉语言中,研究人员将特定模式的模型与自监督对比学习目标的模式相结合,以提供更强大的表示。

未来,随着AIGC变得愈发重要,越来越多的技术将被引入,将赋予这一领域极大的生命力。

AIGC基础

本节中,介绍了AIGC常用的基础模型。

基础模型

Transformer

Transformer是许多最先进模型的骨干架构,如GPT-3、DALL-E-2、Codex和Gopher。

它最早是为了解决传统模型,如RNNs,在处理变长序列和上下文感知方面的局限性而提出的。

Transformer的架构主要是基于一种自注意力机制,使模型能够注意到输入序列中的不同部分。

Transformer由一个编码器和一个解码器组成。编码器接收输入序列并生成隐藏表示,而解码器接收隐藏表示并生成输出序列。

编码器和解码器的每一层都由一个多头注意力和一个前馈神经网络组成。多头注意力是Transformer的核心组件,学习根据标记的相关性分配不同的权重。

这种信息路由方法使该模型能够更好地处理长期的依赖关系,因此,在广泛的NLP任务中提高了性能。

Transformer的另一个优点是它的架构使其具有高度并行性,并允许数据战胜归纳偏置。这一特性使得Transformer非常适合大规模的预训练,使基于Transformer的模型能够适应不同的下游任务。

预训练语言模型

自从引入Transformer架构以来,由于其并行性和学习能力,让其成为自然语言处理的主流选择。

一般来说,这些基于Transformer的预训练语言模型可以根据其训练任务通常分为两类: 自回归语言模型,以及掩码语言模型。

给定一个由多个标记组成的句子,掩蔽语言建模的目标,例如BERT和RoBERTa,即预测给定上下文信息的掩蔽标记的概率。

掩码语言模型最显著的例子是BERT,它包括掩蔽语言建模和下句预测任务。RoBERTa使用与BERT相同的架构,通过增加预训练数据量,以及纳入更具挑战性的预训练目标来提高其性能。

XL-Net也是基于BERT的,它结合了排列操作来改变每次训练迭代的预测顺序,使模型能够学习更多跨标记的信息。

而自回归语言模型,如GPT-3和OPT,是对给定前一个标记的概率进行建模,因此是从左到右的语言模型。与掩码语言模型不同,自回归语言模型更适合生成式任务。

从人类反馈中强化学习

尽管经过大规模数据的训练,AIGC可能并不总是输出与用户意图一致的内容。

为了使 AIGC 输出更好地符合人类的偏好,从人类反馈中强化学习(RLHF)已应用于各种应用中的模型微调,如Sparrow、InstructGPT和ChatGPT。

通常情况下,RLHF的整个流程包括以下三个步骤: 预训练、奖励学习和强化学习的微调。

计算

硬件

近年来,硬件技术有了显著的进步,促进了大模型的训练。

在过去,使用 CPU训练一个大型神经网络可能需要几天甚至几周的时间。然而,随着算力的增强,这一过程已经被加速了几个数量级。

例如,英伟达的NVIDIA A100 GPU在BERT大型推理过程中比V100快7倍,比T4快11倍。

此外,谷歌的张量处理单元(TPU)专为深度学习设计的,与A100 GPU相比,提供了更高的计算性能。

计算能力的加速进步显著提高了人工智能模型训练的效率,为开发大型复杂模型提供了新的可能性。

分布式训练

另一个重大的改进是分布式训练。

在传统机器学习中,训练通常是在一台机器上使用单个处理器进行的。这种方法可以很好地应用于小型数据集和模型,但是在处理大数据集和复杂模型时就变得不切实际。

在分布式训练中,训练的任务被分散到多个处理器或机器上,使模型的训练速度大大提升。

一些公司也发布了框架,简化了深度学习堆栈的分布式训练过程。这些框架提供了工具和API,使开发者能够轻松地将训练任务分布在多个处理器或机器上,而不必管理底层基础设施。

云端运算

云计算在训练大模型方面也发挥了至关重要的作用。以前,模型经常在本地进行训练。现在,随着AWS和Azure等云计算服务提供了对强大计算资源的访问,深度学习研究人员和从业人员可以根据需要创建大模型训练所需的大型GPU或TPU集群。

总的来说,这些进步使得开发更复杂、更精确的模型成为可能,在人工智能研究和应用的各个领域开启了新的可能性。

作者介绍

俞士纶(Philip S. Yu)是计算机领域学者,是ACM/IEEE Fellow,在伊利诺大学芝加哥分校(UIC)计算机科学系任特聘教授。

他在大数据挖掘与管理的理论、技术方面取得了举世瞩目的成就。他针对大数据在规模、速度和多样性上的挑战,在数据挖掘、管理的方法和技术上提出了有效的前沿的解决方案,尤其在融合多样化数据、挖掘数据流、频繁模式、子空间和图方面做出了突破性的贡献。

30頁論文!俞士綸團隊新作:AIGC全面調查,從GAN到ChatGPT發展史

他还在并行和分布式数据库处理技术领域做出了开创性贡献,并应用于IBM S/390 Parallel Sysplex系统,成功将传统IBM大型机转型为并行微处理器架构。

以上是30頁論文!俞士綸團隊新作:AIGC全面調查,從GAN到ChatGPT發展史的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除