多模態對比表示(MCR)旨在將來自不同模態的輸入編碼到一個語義對齊的共享空間中
隨著視覺-語言領域中CLIP模型的巨大成功,越來越多的模態對比表徵開始出現,並在許多下游任務上取得明顯的改善,但這些方法嚴重依賴於大規模高品質的配對資料
為了解決這個問題,來自浙江大學等機構的研究人員提出了連接多模態對比表示(C-MCR),一種無需配對資料且訓練極為高效的多模態對比表徵學習方法。
請點擊以下連結查看論文:https://arxiv.org/abs/2305.14381
C-MCR專案首頁連結:https://c-mcr.github.io/C-MCR/
模型與程式碼位址:https://github.com/MCR -PEFT/C-MCR
該方法在不使用任何配對資料的情況下,透過樞紐模態連接不同的預訓練對比表徵,我們學習到了強大的音訊-視覺和3D點雲-文字表徵,並在音訊-視覺檢索、聲音來源定位、3D物件分類等多個任務上取得了SOTA效果。
介紹
多模態對比表示(MCR)旨在將不同模態的資料對應到統一的語意空間。隨著CLIP在視覺-語言領域的巨大成功,學習更多模態組合之間的對比表示已成為一個熱門研究主題,吸引了越來越多的關注。
然而,現有多模態對比表示的泛化能力主要受益於大量高品質資料對。這嚴重限制了對比表徵在缺乏大規模高品質數據的模態上的發展。例如,音訊和視覺資料對之間的語義相關性往往是模糊的,3D點雲和文字之間的配對資料稀缺且難以取得。
不過,我們觀察到,這些缺乏配對資料的模態組合,往往和同一個中間模態具有大量高品質配對資料。例如,在音訊-視覺領域,儘管視聽資料品質不可靠,但音訊-文字和文字-視覺之間存在大量高品質的配對資料。
同樣,雖然3D點雲-文字配對資料的可用性有限,但3D點雲-圖像和圖像-文字資料卻非常豐富。這些樞紐模態可以為模式之間建立進一步關聯的紐帶。
考慮到具有大量配對資料的模態間往往已經擁有預訓練的對比表示,本文直接嘗試透過樞紐模態來將不同模態間的對比表徵連接起來,從而為缺乏配對資料的模態組合建構新的對比表徵空間。
使用連接多模態對比表示(C-MCR)可以透過重疊模態來建構已有大量多模態對比表示的連接,從而學習更廣泛的模態之間的對齊關係。這個學習過程不需要任何配對數據,並且具有極高的效率
C-MCR具有兩個關鍵優勢:
重點在於靈活性:
C-MCR的能力在於為模態學習提供缺乏直接配對的對比表徵。從另一個角度來看,C-MCR將每個現有的多模態對比表示空間視為一個節點,並將重疊的模態視為關鍵的樞紐模態
透過連結各個孤立的多模態對比表徵,我們能夠靈活地擴展所獲得的多模態對齊知識,並挖掘出更廣泛的模態間對比表示
###### ###2、高效性:###############由於C-MCR只需為現有的表徵空間建立連接,因此只用學習兩個簡單的映射器,其訓練參數和訓練成本都是極低的。 ############在這項實驗中,我們使用文字作為樞紐,將視覺-文字(CLIP)和文字-音訊(CLAP)進行對比表示空間的連接,最終得到了高品質的視覺-音訊表示############類似地,透過使用圖像連接文字-視覺(CLIP)和視覺-3D點雲(ULIP)進行比較來表示空間,也可以得到一組3D點雲-文字對比表示#########方法#########圖1 (a) 介紹了C-MCR的演算法流程(以使用文字連接CLIP和CLAP為例) 。 ######文字(重疊模態)的資料分別被CLIP和CLAP的文字編碼器編碼為文字特徵:、。
同時,還有大量的非配對單模態資料被分別編碼到CLIP和CLAP空間中,形成了影像記憶和音訊記憶
#特徵語意增強是指透過對特徵進行改進和最佳化,以提升其語意表達能力的過程。透過對特徵進行適當的調整,可以使其更準確地反映所要表達的含義,從而提高語言表達的效果。特徵語意增強技術在自然語言處理領域具有重要的應用價值,可以幫助機器理解和處理文字訊息,提高機器在語意理解和語意生成方面的能力
##我們可以從提升表徵的語意訊息出發,以增強空間連結的穩健性和全面性。在此方面,我們首先從語意一致性與語意完整性兩個角度進行探討
#模態間語意一致性
CLIP和CLAP分別已經學到了可靠的對齊的圖像-文字和文字-音訊表徵。
我們利用CLIP和CLAP中這種內在的模態對齊性來產生與第i個文字語義一致的圖像和音訊特徵,從而更好地量化對比表徵空間中的modality gap以及更直接的挖掘非重疊模態間的關聯性:
模態內語意完整性
不同表徵空間對於資料的語意表達會有不同的傾向性,因此不同空間下的同一個文本也會不可避免的存在語意偏差和遺失。在連結表示空間時,這種語意偏差會被累積並且放大。
為了增強每個表徵的語意完整性,我們提出將零均值高斯雜訊加入表徵中,並將它們重新歸一化為單位超球面上:
如圖1 (c) 所示,在對比表徵空間中,每個表徵可以看代表是在單位超球面上的點。添加高斯噪聲並重新歸一化則使表徵能夠代表了單位球面上的一個圓。
當兩個特徵的空間距離越接近時,它們的語意相似度也越高。因此,圓內的特徵都具有相似的語義,圓能夠更完整地表示語意
2. Inter-MCR的對齊
在表徵語意增強之後,我們使用兩個映射器 和 來將CLIP和CLAP表徵重新對應到一個新的共享空間
新空間需要確保來自不同空間的語意相似的表徵彼此接近。
來自同一文本的(,
) 是天然語意一致的,可以被看做真實標籤對,而源自於(
,
) 的(
,
) 可以被視為偽標籤對。
(,
#) 之間的語義高度一致,但從它們學習到的連接對於音頻-視覺來說是間接的。 而(
,
)對的語意一致性雖然較不可靠,但其較直接地有利於音頻-視覺表徵。
為了更全面地連接兩個對比表徵空間,我們同時對齊(,
) 和(
#,
):
#3. Intra-MCR的對準
除了空間之間的連接,對比表徵空間內部還存在著modality gap的現象。即在對比表徵空間中,不同模態的表徵雖然語意對齊,但它們分佈在完全不同的子空間中。這意味著從 (,
) 學習到的更穩定的連結可能無法很好的被音訊-視覺繼承。
為了解決這個問題,我們提出重新對齊各個對比表徵空間的不同模態表徵。具體來說,我們去除對比損失函數中的負例排斥結構,來推導出用於減少modality gap的損失函數。典型的對比損失函數可以表述為:
#我們消除其中的負對排斥項後,最終的公式可以簡化為:
實驗
在實驗上,我們透過使用文字連接音訊-文字空間(CLAP)和文字-視覺空間(CLIP)來獲得音訊-視覺表徵,使用影像連接3D點雲-影像空間(ULIP)和影像-文字空間(CLIP)來獲得3D點雲-文字表徵。
在AVE和Flickr-SoundNet上進行零樣本音訊影像擷取的結果如下:
MUSIC-Solo與VGGSS上的零樣本聲音來源定位結果如下:
在Ex-VGGSS和Ex-FlickrNet上的零樣本反事實音訊影像辨識結果如下所示:
在ModelNet40上的zero- shot 3D點雲分類結果如下:
以上是「無需配對數據」就能學習!浙大等提出連結多模態對比表徵C-MCR的詳細內容。更多資訊請關注PHP中文網其他相關文章!

介紹 在超市隊列中設想自己,耐心地等待輪到您為自己喜歡的藝術家購買音樂會門票。 這個有序的過程,個人加入一條線並首先以(FIFO)的方式進行前進,是PREC

本週在AI中:重大收購,模型進步和道德考慮因素 該AV字節版涵蓋了過去一周的重大AI突破。 從Google對角色的戰略收購到BITNET B1.58的發布

介紹 讓我們通過“ Movinets unleashed”深入研究移動視頻識別的迷人世界!該博客將為您探索Movinets如何在移動設備上轉換視頻分析

介紹 想像一下,您在數據項目中深處膝蓋,與大量數據集搏鬥,並儘快尋找模式。您可以觸及自己的數據操縱工具,但是如果存在更好的選擇,該怎麼辦? 輸入方面,一個相對較開的

介紹 在啟動創新軟件的邊緣設想了一個動態的IT公司。 儘管興奮很高,但仍出現了一個關鍵的挑戰:彌合技術開發商與業務利益相關者之間的差距。這是IT業務分析師

介紹 Apache氣流是數據編排中的關鍵組成部分,並以其處理複雜的工作流程和自動化數據管道的能力而聞名。許多組織因其靈活性而選擇了它

NVIDIA AI峰會2024:深入研究印度的AI革命 在2024年Datahack Summit之後,印度為10月23日25日在孟買的Jio世界會議中心舉行的NVIDIA AI Summit 2024做好準備。 這個關鍵事件舞會


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Dreamweaver Mac版
視覺化網頁開發工具

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),