首頁  >  文章  >  科技週邊  >  多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!

多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!

王林
王林轉載
2023-04-14 16:10:031065瀏覽

近几年人工智能领域的突破大多由自监督学习推动,比如BERT中提出的MLM (Masked Language Model) ,通过将文本中的部分单词遮盖后重新预测,使得海量无标记文本数据也能用来训练模型,自此开启了大规模预训练模型的新时代。但自监督学习算法也有明显的局限性,通常只适用于单一模态(如图像、文本、语音等)的数据,并且需要大量的算力从海量数据中进行学习。相比之下,人类的学习效率要显著高于当前的AI模型,并且可以从不同类型的数据中进行学习。

2022年1月,Meta AI发布了自监督学习框架data2vec,将三个模态的数据(语音、视觉和文本)通过一个框架整合起来,大有一统多模态的趋势。最近Meta AI发布了data2cec 2.0版本,主要在性能方面对上一代进行了改进:在精度相同的情况下,训练速度相比其他算法最高提升了16倍!

多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!

论文链接:​https://ai.facebook.com/research/publications/efficient-self-supervised-learning-with-contextualized-target-representations-for-vision-speech-and-language

代码链接:​https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec

data2vec 1.0

目前来说,大部分机器学习模型仍然是基于有监督学习的模式,需要有专门的标注人员对目标数据打标签,但对于某些任务来说(比如地球上的几千种人类语言),收集标注数据是不可行的。

相比之下,自监督学习不需要告诉模型正确和错误,而是让机器通过观察世界来学习图像、语音和文本的结构。相关的研究成果促进了语音(如,wave2vec 2.0)、计算机视觉(例如,掩码自编码器)和自然语言处理(例如,BERT)等领域的发展。

data2vec的主要思路就是先建立一个教师网络,首先计算来自图像、文本或语音的目标表征。然后对数据进行掩码遮盖掉部分输入,并用一个学生网络重复该过程预测教师模型得到的表征。

多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!

也就是說,學生模型只能在接受「不完整輸入資訊」的同時預測「完整輸入資料」的表示。為了確保兩個模型的一致性,二者的參數時共享的,但在訓練初期會讓Teacher模型的參數更新更快。 在實驗結果上,data2vec在語音、視覺、文字等任務上比較baseline模型表現提昇明顯。

data2vec 2.0

data2vec提出了一個通用的自監督學習框架統一了語音、視覺和語言三個模態資料的學習,而data2vec2.0主要解決的痛點就是建構自監督模型需要大量的GPU做算力支撐才能完成訓練。與最初的 data2vec 演算法類似,data2vec 2.0預測資料的上下文化的表徵(contextualized representations),或是神經網路的層次,而非預測圖像的像素、文本段中的單字或語音。

多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!

與常見的其他演算法不同,這些所謂的目標表徵是上下文化的,這意味著演算法需要將整個訓練範例考慮在內。

比如說,模型學習單字bank 的表徵是基於包含bank的整個句子,從而更容易推導出單字的正確意義,例如區分具體指涉「金融機構」還是「河邊的土地」。研究人員認為上下文化的目標會促進更豐富的學習任務,並使 data2vec 2.0比其他演算法學習得更快。

data2vec 2.0透過以下三種方式提高了原始data2vec 演算法的效率:

1、為特定訓練範例建立目標表徵,並將此表徵重複使用在遮罩版本上。在遮罩版本中,訓練範例中的不同部分會被隨機隱藏。隨後兩個版本學到的表徵都會輸入到學生模型中,為不同的掩碼版本預測相同的上下文化的目標表徵,從而有效地分攤了創建目標表徵所需的計算量。

2、類似掩碼自編碼器(masked autoencoder, MAE),學生模型中的編碼器網路並不起作用訓練範例中的空白部分(blanked out)。在影像實驗中,大約80%的部分都是空白,從而顯著節省了計算週期。

3、使用了一個更有效的解碼器模型,不再依賴Transformer網絡,而是依賴一個多層卷積網。

實驗部分

為了更直觀地理解data2vec 2.0 比data2vec 和其他同類演算法的效率要高多少,研究人員在電腦視覺、語音和文字任務相關的基準測試中進行了廣泛的實驗。實驗中主要考慮最終的精確度以及預訓練模型所需的時間,實驗環境都是在相同的硬體上(GPU 的型號、數量等)來測量演算法的運行速度。

多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!

在電腦視覺任務上,研究人員在標準ImageNet-1K 影像分類基準上評估了data2vec 2.0,模型透過該資料集可以學習圖像表徵。實驗結果顯示,data2vec 2.0可以等同於遮罩自編碼器(MAE)的準確性,但是速度要快16倍。

如果繼續給data2vec 2.0演算法更多的運行時間,它可以達到更高的精度,並且仍然會比MAE的速度快。

多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!

#

在語音任務上,研究人員在 LibriLanguage 語音辨識基準上進行了測試,它的準確性是 wave2vec 2.0的11倍以上。

多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!

對於自然語言處理任務,研究人員在通用語言理解評估(GLUE)基準上評估了data2vec 2.0,僅需一半的訓練時間即可達到與BERT 的重新實現RoBERTa 相同的精度。

多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!


#

以上是多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除