多模態再次統一！ Meta發布自監督演算法data2vec 2.0：訓練效率最高提升16倍！-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

多模態再次統一！ Meta發布自監督演算法data2vec 2.0：訓練效率最高提升16倍！

王林

Apr 14, 2023 pm 04:10 PM

框架ai

近几年人工智能领域的突破大多由自监督学习推动，比如BERT中提出的MLM (Masked Language Model) ，通过将文本中的部分单词遮盖后重新预测，使得海量无标记文本数据也能用来训练模型，自此开启了大规模预训练模型的新时代。但自监督学习算法也有明显的局限性，通常只适用于单一模态（如图像、文本、语音等）的数据，并且需要大量的算力从海量数据中进行学习。相比之下，人类的学习效率要显著高于当前的AI模型，并且可以从不同类型的数据中进行学习。

2022年1月，Meta AI发布了自监督学习框架data2vec，将三个模态的数据（语音、视觉和文本）通过一个框架整合起来，大有一统多模态的趋势。最近Meta AI发布了data2cec 2.0版本，主要在性能方面对上一代进行了改进：在精度相同的情况下，训练速度相比其他算法最高提升了16倍！

多模態再次統一！ Meta發布自監督演算法data2vec 2.0：訓練效率最高提升16倍！

论文链接：https://ai.facebook.com/research/publications/efficient-self-supervised-learning-with-contextualized-target-representations-for-vision-speech-and-language

代码链接：https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec

data2vec 1.0

目前来说，大部分机器学习模型仍然是基于有监督学习的模式，需要有专门的标注人员对目标数据打标签，但对于某些任务来说（比如地球上的几千种人类语言），收集标注数据是不可行的。

相比之下，自监督学习不需要告诉模型正确和错误，而是让机器通过观察世界来学习图像、语音和文本的结构。相关的研究成果促进了语音(如，wave2vec 2.0)、计算机视觉(例如，掩码自编码器)和自然语言处理(例如，BERT)等领域的发展。

data2vec的主要思路就是先建立一个教师网络，首先计算来自图像、文本或语音的目标表征。然后对数据进行掩码遮盖掉部分输入，并用一个学生网络重复该过程预测教师模型得到的表征。

多模態再次統一！ Meta發布自監督演算法data2vec 2.0：訓練效率最高提升16倍！

也就是說，學生模型只能在接受「不完整輸入資訊」的同時預測「完整輸入資料」的表示。為了確保兩個模型的一致性，二者的參數時共享的，但在訓練初期會讓Teacher模型的參數更新更快。在實驗結果上，data2vec在語音、視覺、文字等任務上比較baseline模型表現提昇明顯。

data2vec 2.0

data2vec提出了一個通用的自監督學習框架統一了語音、視覺和語言三個模態資料的學習，而data2vec2.0主要解決的痛點就是建構自監督模型需要大量的GPU做算力支撐才能完成訓練。與最初的 data2vec 演算法類似，data2vec 2.0預測資料的上下文化的表徵（contextualized representations），或是神經網路的層次，而非預測圖像的像素、文本段中的單字或語音。

多模態再次統一！ Meta發布自監督演算法data2vec 2.0：訓練效率最高提升16倍！

與常見的其他演算法不同，這些所謂的目標表徵是上下文化的，這意味著演算法需要將整個訓練範例考慮在內。

比如說，模型學習單字bank 的表徵是基於包含bank的整個句子，從而更容易推導出單字的正確意義，例如區分具體指涉「金融機構」還是「河邊的土地」。研究人員認為上下文化的目標會促進更豐富的學習任務，並使 data2vec 2.0比其他演算法學習得更快。

data2vec 2.0透過以下三種方式提高了原始data2vec 演算法的效率:

1、為特定訓練範例建立目標表徵，並將此表徵重複使用在遮罩版本上。在遮罩版本中，訓練範例中的不同部分會被隨機隱藏。隨後兩個版本學到的表徵都會輸入到學生模型中，為不同的掩碼版本預測相同的上下文化的目標表徵，從而有效地分攤了創建目標表徵所需的計算量。

2、類似掩碼自編碼器（masked autoencoder， MAE），學生模型中的編碼器網路並不起作用訓練範例中的空白部分（blanked out）。在影像實驗中，大約80%的部分都是空白，從而顯著節省了計算週期。

3、使用了一個更有效的解碼器模型，不再依賴Transformer網絡，而是依賴一個多層卷積網。

實驗部分

為了更直觀地理解data2vec 2.0 比data2vec 和其他同類演算法的效率要高多少，研究人員在電腦視覺、語音和文字任務相關的基準測試中進行了廣泛的實驗。實驗中主要考慮最終的精確度以及預訓練模型所需的時間，實驗環境都是在相同的硬體上(GPU 的型號、數量等)來測量演算法的運行速度。

多模態再次統一！ Meta發布自監督演算法data2vec 2.0：訓練效率最高提升16倍！

在電腦視覺任務上，研究人員在標準ImageNet-1K 影像分類基準上評估了data2vec 2.0，模型透過該資料集可以學習圖像表徵。實驗結果顯示，data2vec 2.0可以等同於遮罩自編碼器(MAE)的準確性，但是速度要快16倍。

如果繼續給data2vec 2.0演算法更多的運行時間，它可以達到更高的精度，並且仍然會比MAE的速度快。

多模態再次統一！ Meta發布自監督演算法data2vec 2.0：訓練效率最高提升16倍！

在語音任務上，研究人員在 LibriLanguage 語音辨識基準上進行了測試，它的準確性是 wave2vec 2.0的11倍以上。

多模態再次統一！ Meta發布自監督演算法data2vec 2.0：訓練效率最高提升16倍！

對於自然語言處理任務，研究人員在通用語言理解評估(GLUE)基準上評估了data2vec 2.0，僅需一半的訓練時間即可達到與BERT 的重新實現RoBERTa 相同的精度。

多模態再次統一！ Meta發布自監督演算法data2vec 2.0：訓練效率最高提升16倍！

以上是多模態再次統一！ Meta發布自監督演算法data2vec 2.0：訓練效率最高提升16倍！的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

如何使用LM Studio在本地運行LLM？ - 分析VidhyaApr 19, 2025 am 11:38 AM

輕鬆在家運行大型語言模型：LM Studio 使用指南近年來，軟件和硬件的進步使得在個人電腦上運行大型語言模型 (LLM) 成為可能。 LM Studio 就是一個讓這一過程變得輕鬆便捷的優秀工具。本文將深入探討如何使用 LM Studio 在本地運行 LLM，涵蓋關鍵步驟、潛在挑戰以及在本地擁有 LLM 的優勢。無論您是技術愛好者還是對最新 AI 技術感到好奇，本指南都將提供寶貴的見解和實用技巧。讓我們開始吧！概述了解在本地運行 LLM 的基本要求。在您的電腦上設置 LM Studi