首頁  >  文章  >  科技週邊  >  GPT-5前瞻!艾倫人工智慧研究所發布最強多模態模型,預測GPT-5新能力

GPT-5前瞻!艾倫人工智慧研究所發布最強多模態模型,預測GPT-5新能力

PHPz
PHPz轉載
2024-01-11 18:21:41397瀏覽

GPT-5何時到來,會有什麼能力?

來自艾倫人工智慧研究所(Allen Institute for AI)的新模型告訴你答案。

艾倫人工智慧研究所推出的Unified-IO 2是第一個可以處理和產生文字、圖像、音訊、視訊和動作序列的模型。

這個高階AI模型使用數十億個資料點進行訓練,模型大小僅7B,卻展現出迄今最廣泛的多模態能力。

GPT-5前瞻!艾倫人工智慧研究所發布最強多模態模型,預測GPT-5新能力

論文網址:https://arxiv.org/pdf/2312.17172.pdf

那麼,Unified-IO 2和GPT-5有什麼關係呢?

2022年6月,艾倫人工智慧研究所推出了首代Unified-IO,成為一種能夠同時處理影像和語言的多模態模型之一。

大約在同一時間,OpenAI正在內部測試GPT-4,並在2023年3月正式發布。

所以,Unified-IO可以看作是未來大規模AI模型的前瞻。

也就是說,OpenAI可能正在內部測試GPT-5,並將在幾個月後發布。

而本次Unified-IO 2向我們展現的能力,也將是我們在新的一年可以期待的內容:

GPT-5等新的AI模型可以處理更多模態,透過廣泛的學習以本地方式執行許多任務,並且對與物體和機器人的交互有基本的了解。

GPT-5前瞻!艾倫人工智慧研究所發布最強多模態模型,預測GPT-5新能力

Unified-IO 2的訓練資料包括:10億個圖像-文字對、1 兆個文字標記、1.8億個影片剪輯、1.3億張有文字的圖像、300萬個3D資產和100萬個機器人代理運動序列。

研究團隊將總共120多個資料集組合成一個600 TB的包,涵蓋220個視覺、語言、聽覺和動作任務。

Unified-IO 2採用編碼器-解碼器架構,並進行了一些更改,以穩定訓練並有效利用多模態訊號。

模型可以回答問題、根據指令撰寫文字、以及分析文字內容。

GPT-5前瞻!艾倫人工智慧研究所發布最強多模態模型,預測GPT-5新能力

模型還可以識別圖像內容,提供圖像描述,執行圖像處理任務,並根據文字描述建立新圖像。

GPT-5前瞻!艾倫人工智慧研究所發布最強多模態模型,預測GPT-5新能力

它還可以根據描述或說明產生音樂或聲音,以及分析影片並回答有關影片的問題。

GPT-5前瞻!艾倫人工智慧研究所發布最強多模態模型,預測GPT-5新能力

透過使用機器人資料進行訓練,Unified-IO 2還可以為機器人系統產生動作,例如將指令轉換為機器人的動作序列。

由於多模態訓練,它也可以處理不同的模態,例如,在影像上標記某個音軌使用的樂器。

GPT-5前瞻!艾倫人工智慧研究所發布最強多模態模型,預測GPT-5新能力

Unified-IO 2在超過35個基準測試中表現良好,包括圖像生成和理解、自然語言理解、視訊和音訊理解以及機器人操作。

在大多數任務中,它能夠比肩專用模型,甚至更勝一籌。

在影像任務的GRIT基準測試中,Unified-IO 2獲得了目前的最高分(GRIT用於測試模型如何處理影像雜訊和其他問題)。

研究人員現在計劃進一步擴展Unified-IO 2,提高資料質量,並將編碼器-解碼器模型,轉換為行業標準的解碼器模型架構。

Unified-IO 2

Unified-IO 2是第一個能夠理解並產生影像、文字、音訊和動作的自迴歸多模態模型。

為了統一不同的模態,研究人員將輸入和輸出(圖像、文字、音訊、動作、邊界框等)標記到一個共享的語義空間中,然後使用單個編碼器-解碼器轉換器模型對其進行處理。

GPT-5前瞻!艾倫人工智慧研究所發布最強多模態模型,預測GPT-5新能力

由於訓練模型所採用的資料量龐大,而且來自各種不同的模態,研究人員採取了一系列技術來改進整個訓練過程。

為了有效地促進跨多種模態的自監督學習訊號,研究人員開發了一種新型的去雜訊目標的多模態混合,結合了跨模態的去雜訊和生成。

也開發了動態打包,可將訓練吞吐量提高4倍,以處理高度可變的序列。

為了克服訓練中的穩定性和可擴展性問題,研究人員在感知器重採樣器上做了架構更改,包括2D旋轉嵌入、QK歸一化和縮放餘弦注意力機制。

對於指令調整,確保每個任務都有一個明確的提示,無論是使用現有任務還是製作新任務。另外還包括開放式任務,並為不太常見的模式創建合成任務,以增強任​​務和教學的多樣性。

統一任務表示

#將多模態資料編碼到共享表示空間中的標記序列,包括以下幾個面向:

文字、稀疏結構和操作

#文字輸入和輸出使用LLaMA中的位元組對編碼進行標記化,邊界框、關鍵點和相機姿勢等稀疏結構被離散化,然後使用添加到詞彙表中的1000個特殊標記進行編碼。

點使用兩個標記(x,y)進行編碼,盒子以四個標記(左上角和右下角)的序列進行編碼,3D長方體以12個標記表示(編碼投影中心、虛擬深度、對數歸一化框尺寸、和連續同心旋轉)。

對於具身任務,離散的機器人動作會產生為文字指令(例如,「向前移動」)。特殊標記用於對機器人的狀態進行編碼(例如位置和旋轉)。

圖像和密集結構

圖像使用預先訓練的視覺轉換器(ViT)進行編碼。將ViT的第二層和倒數第二層的補丁特徵連接起來,以捕捉低級和高級視覺資訊。

產生影像時,使用VQ-GAN將影像轉換為離散標記,這裡採用patch大小為8 × 8的密集預訓練VQ-GAN模型,將256 × 256的影像編碼為1024個token,碼本大小為16512。

然後將每個像素的標籤(包括深度、表面法線和二進位分割遮罩)表示為RGB影像。

音訊

U-IO 2將長達4.08秒的音訊編碼為頻譜圖,然後使用預先訓練的音訊頻譜圖轉換器(AST)對頻譜圖進行編碼,並透過連接AST的第二層和倒數第二層特徵並應用線性層來建立輸入嵌入,就像圖像ViT一樣。

產生音訊時,使用ViT-VQGAN將音訊轉換為離散的標記,模型的patch大小為8 × 8,將256 × 128的頻譜圖編碼為512個token,碼本大小為8196。

影像和音訊歷史記錄

模型最多允許提供四個額外的影像和音訊片段作為輸入,這些元素也使用ViT或AST進行編碼,隨後使用感知器重採樣器,進一步將特徵壓縮為較少數量(影像為32個,音訊為16個)。

這大大縮短了序列長度,並允許模型在使用歷史記錄中的元素作為上下文時,以高細節檢查影像或音訊片段。

稳定训练的模型架构和技术

研究人员观察到,随着我们集成其他模式,使用 U-IO 之后的标准实现会导致训练越来越不稳定。

如下图(a)和(b)所示,仅对图像生成(绿色曲线)进行训练会导致稳定的损失和梯度范数收敛。

与单一模态相比,引入图像和文本任务的组合(橙色曲线)略微增加了梯度范数,但保持稳定。然而,包含视频模态(蓝色曲线)会导致梯度范数的无限制升级。

GPT-5前瞻!艾倫人工智慧研究所發布最強多模態模型,預測GPT-5新能力

如图中(c)和(d)所示,当模型的XXL版本在所有模态上训练时,损失在350k步后爆炸,下一个标记预测精度在400k步时显著下降。

为了解决这个问题,研究人员进行了各种架构更改:

在每个Transformer层应用旋转位置嵌入(RoPE)。对于非文本模态,将RoPE扩展到二维位置;当包括图像和音频模态时,将LayerNorm应用于点积注意力计算之前的Q和K。

另外,使用感知器重采样器,将每个图像帧和音频片段压缩成固定数量的标记,并使用缩放余弦注意力在感知者中应用更严格的归一化,这显著稳定了训练。

为了避免数值不稳定,还启用了float32注意力对数,并在预训练期间冻结ViT和 AST,并在指令调整结束时对其进行微调。

GPT-5前瞻!艾倫人工智慧研究所發布最強多模態模型,預測GPT-5新能力

上图显示,尽管输入和输出模态存在异质性,但模型的预训练损失是稳定的。

多模态训练目标

本文遵循UL2范式。对于图像和音频目标,这里定义了两种类似的范式:

[R]:掩码去噪,随机屏蔽x%的输入图像或音频补丁特征,并让模型重新构建它;

[S]:要求模型在其他输入模态条件下生成目标模态。

在训练期间,用模态标记([Text]、[Image] 或 [Audio])和范式标记([R]、[S] 或 [X])作为输入文本的前缀,以指示任务,并使用动态遮罩进行自回归。

GPT-5前瞻!艾倫人工智慧研究所發布最強多模態模型,預測GPT-5新能力

如上图所示,图像和音频屏蔽去噪的一个问题是解码器侧的信息泄漏。

这里的解决方案是在解码器中屏蔽token(除非在预测这个token),这不会干扰因果预测,同时又消除了数据泄漏。

效率优化

对大量多模态数据进行训练,会导致转换器输入和输出的序列长度高度可变。

这里使用打包来解决这个问题:多个示例的标记被打包到一个序列中,并屏蔽注意力以防止转换器在示例之间交叉参与。

在训练过程中,使用启发式算法来重新排列流式传输到模型的数据,以便将长样本与可以打包的短样本相匹配。本文的动态打包使训练吞吐量增加了近4倍。

指令调优

多模态指令调优是使模型具备各种模态的不同技能和能力,甚至适应新的和独特的指令的关键过程。

研究人员通过结合广泛的监督数据集和任务来构建多模态指令调优数据集。

GPT-5前瞻!艾倫人工智慧研究所發布最強多模態模型,預測GPT-5新能力

指令調諧資料的分佈如上圖所示。整體而言,指令調優組合包括60%的提示資料、30%從預訓練繼承下來的資料(為了避免災難性的遺忘)、6%使用現有資料來源建構的任務增強資料、以及4%自由格式文字(以實現類似聊天的回應)。

以上是GPT-5前瞻!艾倫人工智慧研究所發布最強多模態模型,預測GPT-5新能力的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除