首頁  >  文章  >  科技週邊  >  規模小、效率高:DeepMind推出多模態解決方案Mirasol 3B

規模小、效率高:DeepMind推出多模態解決方案Mirasol 3B

PHPz
PHPz轉載
2023-11-28 14:19:29918瀏覽

多模態學習面臨的主要挑戰之一是需要融合文字、音訊、視訊等異質的模態,多模態模型需要組合不同來源的訊號。然而,這些模態具有不同的特徵,很難透過單一模型來組合。例如,視訊和文字具有不同的取樣率

最近,來自Google DeepMind 的研究團隊將多模態模型解耦成多個獨立的、專門的自回歸模型,根據各種模態的特徵來處理輸入。

具體來說,研究提出了一個名為Mirasol3B的多模態模型。 Mirasol3B由時間同步的音訊和視訊自回歸組件以及用於上下文模態的自回歸組件組成。這些模態不一定在時間上對齊,但依照順序排列

规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

論文網址:https://arxiv.org/abs/2311.05698

Mirasol3B 在多模態基準測試中達到了SOTA 水平,優於規模更大的模型。透過學習更緊湊的表徵,控制音訊 - 視訊特徵表徵的序列長度,並根據時間對應關係進行建模,Mirasol3B 能夠有效滿足多模態輸入的高計算要求。

方法簡介

Mirasol3B 是音訊- 視訊- 文字多模態模型,其中將自迴歸建模解耦成時間對齊模態(例如音訊、視訊)的自回歸組件,以及針對非時間對齊的上下文模態(例如文字)的自回歸組件。 Mirasol3B 使用交叉注意力權重來協調這些組件的學習進程。這種解耦使得模型內部的參數分佈更合理,也為模態(視訊和音訊)分配了足夠的容量,並使得整體模型更加輕量。

根據圖1所示,Mirasol3B由兩個主要的學習組件組成:自回歸組件和輸入組合組件。其中,自回歸組件旨在處理幾乎同步的多模態輸入,例如視頻和音頻,以便及時地進行輸入組合

规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

##在重寫內容時,需要將原始意思保持不變,並將語言改寫為中文。 研究提出將時間對齊的模態分割成時間段,並在時間段中學習音頻-視訊聯合表徵。具體而言,該研究提出了一種名為「Combiner」的模態聯合特徵學習機制。 「Combiner」將同一時間段內的模態特徵進行融合,產生更緊湊的表徵

#「Combiner」從原始的模態輸入中提取初級的時空表示,捕捉視頻的動態特性,並結合與其共時的音訊特徵,模型可以在不同的速率接收多模態輸入,在處理較長的視訊時表現良好。

「Combiner」有效地滿足了模態表徵既要高效又要資訊豐富的需求。它可以充分涵蓋影片與其他同時發生的模態中的事件和活動,並能夠用於後續的自回歸模型,學習長期依賴關係。

#########為了處理視訊和音訊訊號,並適應更長的視訊/ 音訊輸入,它們被分割成(在時間上大致同步)的小塊,再透過「Combiner」學習聯合視聽表示。第二個元件處理上下文,或時間上未對齊的訊號,如全域文字訊息,這些訊息通常仍然是連續的。它也是自回歸的,並使用組合的潛在空間作為交叉注意力輸入。 ############學習組件包含視訊和音頻,其參數為3B;而沒有音頻的組件則為2.9B。其中,大多數參數用於音視頻自回歸模型。 Mirasol3B通常處理128幀的視頻,也可以處理更長的視頻,例如512幀############由於設計了分區和“Combiner”的模型架構,增加更多幀,或增加區塊的大小、數目等,只會使參數略有增加,解決了更長視訊需要更多參數、更大的記憶體的問題。 ######

實驗及結果

該研究在標準 VideoQA 基準、長視訊 VideoQA 基準和音訊 視訊基準上對 Mirasol3B 進行了測試評估。

在 VideoQA 資料集 MSRVTTQA 上的測試結果如下表 1 所示,Mirasol3B 超越了目前的 SOTA 模型,以及規模較大的模型,如 PaLI-X、Flamingo。

规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

在長視訊問答方面,研究在ActivityNet-QA、NExTQA 資料集上對Mirasol3B 進行了測試評估,結果如下表2 所示:

规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

在最後,研究選擇了KineticsSound、VGG-Sound和Epic-Sound進行音訊視訊基準測試,並採用開放式生成評估。實驗結果如下表3所示:

规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

有興趣的讀者可以閱讀論文原文,了解更多研究內容。

以上是規模小、效率高:DeepMind推出多模態解決方案Mirasol 3B的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除