多模態對比表示(MCR)旨在將來自不同模態的輸入編碼到一個語義對齊的共享空間中
隨著視覺-語言領域中CLIP模型的巨大成功,越來越多的模態對比表徵開始出現,並在許多下游任務上取得明顯的改善,但這些方法嚴重依賴於大規模高品質的配對資料
為了解決這個問題,來自浙江大學等機構的研究人員提出了連接多模態對比表示(C-MCR),一種無需配對資料且訓練極為高效的多模態對比表徵學習方法。
請點擊以下連結查看論文:https://arxiv.org/abs/2305.14381
C-MCR專案首頁連結:https://c-mcr.github.io/C-MCR/
模型與程式碼位址:https://github.com/MCR -PEFT/C-MCR
該方法在不使用任何配對資料的情況下,透過樞紐模態連接不同的預訓練對比表徵,我們學習到了強大的音訊-視覺和3D點雲-文字表徵,並在音訊-視覺檢索、聲音來源定位、3D物件分類等多個任務上取得了SOTA效果。
介紹
多模態對比表示(MCR)旨在將不同模態的資料對應到統一的語意空間。隨著CLIP在視覺-語言領域的巨大成功,學習更多模態組合之間的對比表示已成為一個熱門研究主題,吸引了越來越多的關注。
然而,現有多模態對比表示的泛化能力主要受益於大量高品質資料對。這嚴重限制了對比表徵在缺乏大規模高品質數據的模態上的發展。例如,音訊和視覺資料對之間的語義相關性往往是模糊的,3D點雲和文字之間的配對資料稀缺且難以取得。
不過,我們觀察到,這些缺乏配對資料的模態組合,往往和同一個中間模態具有大量高品質配對資料。例如,在音訊-視覺領域,儘管視聽資料品質不可靠,但音訊-文字和文字-視覺之間存在大量高品質的配對資料。
同樣,雖然3D點雲-文字配對資料的可用性有限,但3D點雲-圖像和圖像-文字資料卻非常豐富。這些樞紐模態可以為模式之間建立進一步關聯的紐帶。
考慮到具有大量配對資料的模態間往往已經擁有預訓練的對比表示,本文直接嘗試透過樞紐模態來將不同模態間的對比表徵連接起來,從而為缺乏配對資料的模態組合建構新的對比表徵空間。
使用連接多模態對比表示(C-MCR)可以透過重疊模態來建構已有大量多模態對比表示的連接,從而學習更廣泛的模態之間的對齊關係。這個學習過程不需要任何配對數據,並且具有極高的效率
C-MCR具有兩個關鍵優勢:
重點在於靈活性:
C-MCR的能力在於為模態學習提供缺乏直接配對的對比表徵。從另一個角度來看,C-MCR將每個現有的多模態對比表示空間視為一個節點,並將重疊的模態視為關鍵的樞紐模態
透過連結各個孤立的多模態對比表徵,我們能夠靈活地擴展所獲得的多模態對齊知識,並挖掘出更廣泛的模態間對比表示
###### ###2、高效性:###############由於C-MCR只需為現有的表徵空間建立連接,因此只用學習兩個簡單的映射器,其訓練參數和訓練成本都是極低的。 ############在這項實驗中,我們使用文字作為樞紐,將視覺-文字(CLIP)和文字-音訊(CLAP)進行對比表示空間的連接,最終得到了高品質的視覺-音訊表示############類似地,透過使用圖像連接文字-視覺(CLIP)和視覺-3D點雲(ULIP)進行比較來表示空間,也可以得到一組3D點雲-文字對比表示#########方法#########圖1 (a) 介紹了C-MCR的演算法流程(以使用文字連接CLIP和CLAP為例) 。 ######文字(重疊模態)的資料分別被CLIP和CLAP的文字編碼器編碼為文字特徵:、。
同時,還有大量的非配對單模態資料被分別編碼到CLIP和CLAP空間中,形成了影像記憶和音訊記憶
#特徵語意增強是指透過對特徵進行改進和最佳化,以提升其語意表達能力的過程。透過對特徵進行適當的調整,可以使其更準確地反映所要表達的含義,從而提高語言表達的效果。特徵語意增強技術在自然語言處理領域具有重要的應用價值,可以幫助機器理解和處理文字訊息,提高機器在語意理解和語意生成方面的能力
##我們可以從提升表徵的語意訊息出發,以增強空間連結的穩健性和全面性。在此方面,我們首先從語意一致性與語意完整性兩個角度進行探討
#模態間語意一致性
CLIP和CLAP分別已經學到了可靠的對齊的圖像-文字和文字-音訊表徵。
我們利用CLIP和CLAP中這種內在的模態對齊性來產生與第i個文字語義一致的圖像和音訊特徵,從而更好地量化對比表徵空間中的modality gap以及更直接的挖掘非重疊模態間的關聯性:
模態內語意完整性
不同表徵空間對於資料的語意表達會有不同的傾向性,因此不同空間下的同一個文本也會不可避免的存在語意偏差和遺失。在連結表示空間時,這種語意偏差會被累積並且放大。
為了增強每個表徵的語意完整性,我們提出將零均值高斯雜訊加入表徵中,並將它們重新歸一化為單位超球面上:
如圖1 (c) 所示,在對比表徵空間中,每個表徵可以看代表是在單位超球面上的點。添加高斯噪聲並重新歸一化則使表徵能夠代表了單位球面上的一個圓。
當兩個特徵的空間距離越接近時,它們的語意相似度也越高。因此,圓內的特徵都具有相似的語義,圓能夠更完整地表示語意
2. Inter-MCR的對齊
在表徵語意增強之後,我們使用兩個映射器 和 來將CLIP和CLAP表徵重新對應到一個新的共享空間
新空間需要確保來自不同空間的語意相似的表徵彼此接近。
來自同一文本的(,
) 是天然語意一致的,可以被看做真實標籤對,而源自於(
,
) 的(
,
) 可以被視為偽標籤對。
(,
#) 之間的語義高度一致,但從它們學習到的連接對於音頻-視覺來說是間接的。 而(
,
)對的語意一致性雖然較不可靠,但其較直接地有利於音頻-視覺表徵。
為了更全面地連接兩個對比表徵空間,我們同時對齊(,
) 和(
#,
):
#3. Intra-MCR的對準
除了空間之間的連接,對比表徵空間內部還存在著modality gap的現象。即在對比表徵空間中,不同模態的表徵雖然語意對齊,但它們分佈在完全不同的子空間中。這意味著從 (,
) 學習到的更穩定的連結可能無法很好的被音訊-視覺繼承。
為了解決這個問題,我們提出重新對齊各個對比表徵空間的不同模態表徵。具體來說,我們去除對比損失函數中的負例排斥結構,來推導出用於減少modality gap的損失函數。典型的對比損失函數可以表述為:
#我們消除其中的負對排斥項後,最終的公式可以簡化為:
實驗
在實驗上,我們透過使用文字連接音訊-文字空間(CLAP)和文字-視覺空間(CLIP)來獲得音訊-視覺表徵,使用影像連接3D點雲-影像空間(ULIP)和影像-文字空間(CLIP)來獲得3D點雲-文字表徵。
在AVE和Flickr-SoundNet上進行零樣本音訊影像擷取的結果如下:
MUSIC-Solo與VGGSS上的零樣本聲音來源定位結果如下:
在Ex-VGGSS和Ex-FlickrNet上的零樣本反事實音訊影像辨識結果如下所示:
在ModelNet40上的zero- shot 3D點雲分類結果如下:
以上是「無需配對數據」就能學習!浙大等提出連結多模態對比表徵C-MCR的詳細內容。更多資訊請關注PHP中文網其他相關文章!

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

禪工作室 13.0.1
強大的PHP整合開發環境

WebStorm Mac版
好用的JavaScript開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)