搜尋
首頁科技週邊人工智慧細數NLP與CV的融合創新:盤點多模態深度學習這幾年

近年來,NLP 和 CV 領域在方法上突破不斷。不只是單模態模型有所進展,而大規模多模態方法也成為非常熱門的研究領域。

細數NLP與CV的融合創新:盤點多模態深度學習這幾年

  • #論文網址:https://arxiv.org/pdf/2301.04856v1.pdf
  • 專案位址:https://github.com/slds-lmu/seminar_multimodal_dl

在最近的一篇論文中,研究者Matthias Aßenmacher回顧梳理了深度學習這兩個子領域當前最先進的研究方法,並嘗試進行全面的概述。此外,還討論了將一種模態轉換為另一種模態的建模框架(第3.1 章和第3.2 章),以及利用一種模態增強另一種模態的表徵學習模型(第3.3章和第3.4 章)。研究者引入了專注於同時處理兩種模態的架構(第 3.5 章)作為第二部分的尾聲。最後,論文還涵蓋了其他模態(第 4.1 章和第 4.2 章)以及通用多模態模型(第 4.3 章),這些模型能夠在一個統一架構中處理不同模態上的不同任務。一個有趣的應用(「生成藝術」,第 4.4 章)最終成為這篇綜述的錦上添花之筆。

論文章節目錄如下:

細數NLP與CV的融合創新:盤點多模態深度學習這幾年

多模態深度學習簡介

人類有五種基本感官:聽覺、觸覺、嗅覺、味覺和視覺。藉由這五種模式,我們得以感知和理解周遭的世界。 「多模態」則是指同時利用多種資訊管道的結合來理解周遭環境。例如,當蹣跚學步的孩子學習“貓”這個詞時,他們會用不同的方式大聲說出這個詞,指著貓,發出類似“喵喵”的聲音。 AI 研究人員以人類學習過程為範式,結合不同模態來訓練深度學習模型。

從表面上看,深度學習演算法透過訓練神經網路以優化損失函數來優化定義的目標函數。最佳化,即將損失最小化,透過稱為梯度下降的數值最佳化程序完成。因此,深度學習模型只能處理數位輸入,也只能產生數位輸出。然而,在多模態任務中,我們經常遇到圖片或文字等非結構化資料。所以,關於多模態任務的首要問題是如何用數字來表徵輸入;其次則是如何適當地組合不同模態。

例如,訓練深度學習模型來產生一張貓的圖片可能就是一個典型的任務。首先,電腦需要理解文字輸入“貓”,然後以某種方式將這些資訊轉換成特定圖像。因此,確定輸入文字中單字間的上下文關係和輸出影像中像素點間的空間關係很有必要。對幼兒來說可能很容易這件事,對電腦卻可能是巨大挑戰。二者都必須對「貓」這個字有一定理解,包括這個動物的內涵和外觀。

目前深度學習領域常見方法是產生嵌入,用數字形式將貓表徵為某個潛在空間中的向量。為了實現這一點,近年來已經開發出各種方法和演算法架構。本文概述了最先進(SOTA)多模態深度學習中使用的各類方法,以克服非結構化資料和不同模態輸入組合所帶來的挑戰。

章節介紹

因為多模態模型通常以文字和圖像作為輸入或輸出,所以第2章著重介紹了自然語言處理(NLP)和計算機視覺(CV)方法。 NLP 領域的方法主要在於文字資料處理,而 CV 多進行影像處理。

關於 NLP(第 2.1 小節)的一個非常重要的概念叫做詞嵌入,幾乎是現在所有多模態深度學習架構的重要組成部分。這個概念也為基於Transformer的模型奠定了基礎,例如 BERT ,該模型在幾個 NLP 任務中都取得了重大進展。特別是Transformer的自註意力機制徹底改變了 NLP 模型,這也是為什麼大多數 NLP 模型將Transformer作為核心。

在電腦視覺(第 2.2 小節)中,作者介紹裡不同的網路架構,即 ResNet、EfficientNet、SimCLR和BYOL。在這兩個領域,比較不同方法及其在富有挑戰性的基準上表現如何是非常有意義的。因此,第 2 章末 2.3 小節對 CV 和 NLP 的不同資料集、預訓練任務和基準進行了全面概括。

第3章著重於不同的多模態架構,涵蓋文字和圖像的多種組合方式,提出的模型相組合並推進了 NLP 和 CV 不同方法的研究。首先介紹了 Img2Text 任務(第 3.1 小節)、用於目標識別的 Microsoft COCO 資料集和用於影像擷取的Meshed-Memory Transformer。

另外,研究人員開發了基於短文字 prompt 產生圖片的方法(第 3.2 小節)。完成這項任務的第一個模型是生成對抗網路(GAN)和變分自編碼器(VAE)。近年來,這些方法不斷改進,今天的 SOTA Transformer架構和文字引導的擴散模型如 DALL-E和 GLIDE都取得了顯著成果。另一個有趣的問題是,如何利用圖像來支援語言模型(第 3.3 小節)。可透過順序嵌入、更進階的實際嵌入或直接在Transformer內部實現。

也可以看一下支持文本的 CV 模型,如 CLIP、ALIGN和 Florence(第 3.4 小節)。基礎模型的使用意味著模型重用(例如 DALL-E 2 中的 CLIP),以及文字與圖像連接的對比損失。此外,zero-shot 使得透過微調就可毫不費力地對新的和不可見的資料進行分類。特別是用於影像分類和生成的開源架構 CLIP去年頗受關注。第3章末介紹了同時處理文字和圖像的一些其他架構(第 3.5 小節)。

例如,Data2Sec 用相同的學習方法處理語音、視覺和語言,並嘗試以此找到通用方法,能在一個架構中處理不同模態。此外,VilBert擴展了流行的 BERT 架構,透過實現共同註意力來處理圖像和文字輸入。這種方法也用於谷歌的 Deepmind Flamingo。此外,Flamingo 的目標是透過少樣本學習和凍結預訓練的視覺和語言模型,以單一視覺語言模型處理多個任務。

最後一章(第 4 章)介紹了能夠處理文字和圖像以外模態的方法,例如視訊、語音或表格資料。總體目標是探索通用的多模態架構,並非為模態而模態,而是為從容應對挑戰。因此還需處理多模態融合和對齊的問題,決定要使用聯合表徵還是協調表徵(第 4.1 小節)。此外,也將更詳細地介紹如何精準組合結構化資料和非結構化資料(第 4.2 小節)。

作者也提出了近年來形成的不同融合策略,本文透過存活分析和經濟學中的兩個用例加以說明。除此之外,另一個有趣的研究問題是,如何在一個所謂的多用途模型(第 4.3 小節)中處理不同任務,就像Google研究人員在其「Pathway」模型中創建的那樣。最後,文章會展示多模態深度學習在藝術場景中的一個典型應用,使用 DALL-E等圖像生成模型來創建生成藝術領域的藝術作品(第 4.4 小節)。

了解更多內容,請參考原文。

以上是細數NLP與CV的融合創新:盤點多模態深度學習這幾年的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
10個生成AI編碼擴展,在VS代碼中,您必須探索10個生成AI編碼擴展,在VS代碼中,您必須探索Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境