搜尋
首頁科技週邊人工智慧多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!

近几年人工智能领域的突破大多由自监督学习推动,比如BERT中提出的MLM (Masked Language Model) ,通过将文本中的部分单词遮盖后重新预测,使得海量无标记文本数据也能用来训练模型,自此开启了大规模预训练模型的新时代。但自监督学习算法也有明显的局限性,通常只适用于单一模态(如图像、文本、语音等)的数据,并且需要大量的算力从海量数据中进行学习。相比之下,人类的学习效率要显著高于当前的AI模型,并且可以从不同类型的数据中进行学习。

2022年1月,Meta AI发布了自监督学习框架data2vec,将三个模态的数据(语音、视觉和文本)通过一个框架整合起来,大有一统多模态的趋势。最近Meta AI发布了data2cec 2.0版本,主要在性能方面对上一代进行了改进:在精度相同的情况下,训练速度相比其他算法最高提升了16倍!

多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!

论文链接:​https://ai.facebook.com/research/publications/efficient-self-supervised-learning-with-contextualized-target-representations-for-vision-speech-and-language

代码链接:​https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec

data2vec 1.0

目前来说,大部分机器学习模型仍然是基于有监督学习的模式,需要有专门的标注人员对目标数据打标签,但对于某些任务来说(比如地球上的几千种人类语言),收集标注数据是不可行的。

相比之下,自监督学习不需要告诉模型正确和错误,而是让机器通过观察世界来学习图像、语音和文本的结构。相关的研究成果促进了语音(如,wave2vec 2.0)、计算机视觉(例如,掩码自编码器)和自然语言处理(例如,BERT)等领域的发展。

data2vec的主要思路就是先建立一个教师网络,首先计算来自图像、文本或语音的目标表征。然后对数据进行掩码遮盖掉部分输入,并用一个学生网络重复该过程预测教师模型得到的表征。

多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!

也就是說,學生模型只能在接受「不完整輸入資訊」的同時預測「完整輸入資料」的表示。為了確保兩個模型的一致性,二者的參數時共享的,但在訓練初期會讓Teacher模型的參數更新更快。 在實驗結果上,data2vec在語音、視覺、文字等任務上比較baseline模型表現提昇明顯。

data2vec 2.0

data2vec提出了一個通用的自監督學習框架統一了語音、視覺和語言三個模態資料的學習,而data2vec2.0主要解決的痛點就是建構自監督模型需要大量的GPU做算力支撐才能完成訓練。與最初的 data2vec 演算法類似,data2vec 2.0預測資料的上下文化的表徵(contextualized representations),或是神經網路的層次,而非預測圖像的像素、文本段中的單字或語音。

多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!

與常見的其他演算法不同,這些所謂的目標表徵是上下文化的,這意味著演算法需要將整個訓練範例考慮在內。

比如說,模型學習單字bank 的表徵是基於包含bank的整個句子,從而更容易推導出單字的正確意義,例如區分具體指涉「金融機構」還是「河邊的土地」。研究人員認為上下文化的目標會促進更豐富的學習任務,並使 data2vec 2.0比其他演算法學習得更快。

data2vec 2.0透過以下三種方式提高了原始data2vec 演算法的效率:

1、為特定訓練範例建立目標表徵,並將此表徵重複使用在遮罩版本上。在遮罩版本中,訓練範例中的不同部分會被隨機隱藏。隨後兩個版本學到的表徵都會輸入到學生模型中,為不同的掩碼版本預測相同的上下文化的目標表徵,從而有效地分攤了創建目標表徵所需的計算量。

2、類似掩碼自編碼器(masked autoencoder, MAE),學生模型中的編碼器網路並不起作用訓練範例中的空白部分(blanked out)。在影像實驗中,大約80%的部分都是空白,從而顯著節省了計算週期。

3、使用了一個更有效的解碼器模型,不再依賴Transformer網絡,而是依賴一個多層卷積網。

實驗部分

為了更直觀地理解data2vec 2.0 比data2vec 和其他同類演算法的效率要高多少,研究人員在電腦視覺、語音和文字任務相關的基準測試中進行了廣泛的實驗。實驗中主要考慮最終的精確度以及預訓練模型所需的時間,實驗環境都是在相同的硬體上(GPU 的型號、數量等)來測量演算法的運行速度。

多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!

在電腦視覺任務上,研究人員在標準ImageNet-1K 影像分類基準上評估了data2vec 2.0,模型透過該資料集可以學習圖像表徵。實驗結果顯示,data2vec 2.0可以等同於遮罩自編碼器(MAE)的準確性,但是速度要快16倍。

如果繼續給data2vec 2.0演算法更多的運行時間,它可以達到更高的精度,並且仍然會比MAE的速度快。

多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!

#

在語音任務上,研究人員在 LibriLanguage 語音辨識基準上進行了測試,它的準確性是 wave2vec 2.0的11倍以上。

多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!

對於自然語言處理任務,研究人員在通用語言理解評估(GLUE)基準上評估了data2vec 2.0,僅需一半的訓練時間即可達到與BERT 的重新實現RoBERTa 相同的精度。

多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!


#

以上是多模態再次統一! Meta發布自監督演算法data2vec 2.0:訓練效率最高提升16倍!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
如何使用LM Studio在本地運行LLM? - 分析Vidhya如何使用LM Studio在本地運行LLM? - 分析VidhyaApr 19, 2025 am 11:38 AM

輕鬆在家運行大型語言模型:LM Studio 使用指南 近年來,軟件和硬件的進步使得在個人電腦上運行大型語言模型 (LLM) 成為可能。 LM Studio 就是一個讓這一過程變得輕鬆便捷的優秀工具。本文將深入探討如何使用 LM Studio 在本地運行 LLM,涵蓋關鍵步驟、潛在挑戰以及在本地擁有 LLM 的優勢。無論您是技術愛好者還是對最新 AI 技術感到好奇,本指南都將提供寶貴的見解和實用技巧。讓我們開始吧! 概述 了解在本地運行 LLM 的基本要求。 在您的電腦上設置 LM Studi

蓋伊·佩里(Guy Peri)通過數據轉換幫助麥考密克的未來蓋伊·佩里(Guy Peri)通過數據轉換幫助麥考密克的未來Apr 19, 2025 am 11:35 AM

蓋伊·佩里(Guy Peri)是麥考密克(McCormick)的首席信息和數字官。儘管他的角色僅七個月,但Peri正在迅速促進公司數字能力的全面轉變。他的職業生涯專注於數據和分析信息

迅速工程中的情感鍊是什麼? - 分析Vidhya迅速工程中的情感鍊是什麼? - 分析VidhyaApr 19, 2025 am 11:33 AM

介紹 人工智能(AI)不僅要理解單詞,而且要理解情感,從而以人的觸感做出反應。 這種複雜的互動對於AI和自然語言處理的快速前進的領域至關重要。 Th

12個最佳數據科學工作流程的AI工具-Analytics Vidhya12個最佳數據科學工作流程的AI工具-Analytics VidhyaApr 19, 2025 am 11:31 AM

介紹 在當今以數據為中心的世界中,利用先進的AI技術對於尋求競爭優勢和提高效率的企業至關重要。 一系列強大的工具使數據科學家,分析師和開發人員都能構建,Depl

AV字節:OpenAI的GPT-4O Mini和其他AI創新AV字節:OpenAI的GPT-4O Mini和其他AI創新Apr 19, 2025 am 11:30 AM

本週的AI景觀爆炸了,來自Openai,Mistral AI,Nvidia,Deepseek和Hugging Face等行業巨頭的開創性發行。 這些新型號有望提高功率,負擔能力和可訪問性,這在TR的進步中推動了

報告發現,困惑的Android應用程序有安全缺陷。報告發現,困惑的Android應用程序有安全缺陷。Apr 19, 2025 am 11:24 AM

但是,該公司的Android應用不僅提供搜索功能,而且還充當AI助手,並充滿了許多安全問題,可以將其用戶暴露於數據盜用,帳戶收購和惡意攻擊中

每個人都擅長使用AI:關於氛圍編碼的想法每個人都擅長使用AI:關於氛圍編碼的想法Apr 19, 2025 am 11:17 AM

您可以查看會議和貿易展覽中正在發生的事情。您可以詢問工程師在做什麼,或諮詢首席執行官。 您看的任何地方,事情都以驚人的速度發生變化。 工程師和非工程師 有什麼區別

火箭發射模擬和分析使用Rocketpy -Analytics Vidhya火箭發射模擬和分析使用Rocketpy -Analytics VidhyaApr 19, 2025 am 11:12 AM

模擬火箭發射的火箭發射:綜合指南 本文指導您使用強大的Python庫Rocketpy模擬高功率火箭發射。 我們將介紹從定義火箭組件到分析模擬的所有內容

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。