首頁  >  文章  >  科技週邊  >  DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本

DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本

WBOY
WBOY轉載
2023-04-12 16:49:101206瀏覽

多模態研究的一個重要目標是提高機器對於圖像和文字的理解能力。特別是針對如何在兩種模型之間實現有意義的交流,研究者們付出了巨大努力。舉例來說,圖像描述(image captioning)產生應當能將圖像的語意內容轉換輸出為可被人們理解的連貫文字。相反,文字 - 圖像生成模型也可利用文字描述的語意來創建逼真的圖像。

這就會帶來一些同語意相關的有趣問題:對於給定的圖像,哪種文字描述最準確地描述了圖像?同樣地,對於給定的文本,最有意義的圖像實現方式又是哪一種?針對第一個問題,一些研究宣稱最佳的圖像描述應該是既自然且還能還原視覺內容的資訊。而對於第二個問題,有意義的圖像應該是高品質的、多樣性的且忠於文字內容的。

不論怎樣,在人類交流的推動下,包含文本 - 圖像生成模型及圖像 - 文本生成模型的交互任務可以幫助我們選擇最準確的圖像文本對。 

如圖 1 所示,在第一個任務中,圖像 - 文字模型是訊息發送者,文字 - 圖像模型是訊息接收者。發送者的目標是使用自然語言將圖像的內容傳達給接收者,以便其理解該語言並重建真實的視覺表徵。一旦接收者可以高保真地重建原始影像訊息,則表示訊息已傳遞成功。研究者認為這樣生成的文本描述即為最優的,透過其產生的圖像也最近似於原始圖像。

DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本

這項規律受到人們使用語言進行溝通的啟發。試想如下情形:在一個緊急求救的場景中,警察透過電話獲知車禍的狀況和受傷人員的狀況。這本質上涉及現場目擊者的圖像描述過程。警方需要根據語言描述在腦海中重建環境場景,以組織適當的救援行動。顯然,最好的文字描述應該是該場景重建的最佳指南。

第二個任務涉及文字重建:文字 - 圖像模型成為訊息發送者,圖像 - 文字模型則成為訊息接收者。一旦兩個模型就文字層面上訊息內容達成一致,那麼用於傳達訊息的圖像媒介即為重現來源文字的最優圖像。

本文中,來自慕尼黑大學、西門子公司等機構的研究者提出的方法,與智慧體間通訊緊密相關。語言是智能體之間交換資訊的主要方法。但我們如何確定第一個智能體與第二個智能體對什麼是貓或什麼是狗這樣的問題有相同的理解呢?

DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本

#論文網址:https://arxiv.org/pdf/2212.12249.pdf

#本文所想要探求的想法是讓第一個智能體分析圖像並產生描述該圖像的文本,而後第二個智能體獲取該文本並據此來模擬圖像。其中,後一個過程可以被認為是具象化體現的過程。研究認為,如果第二個智能體模擬的影像與第一個智能體接收的輸入影像相似(見圖 1),則通訊成功。

在實驗中,該研究使用現成的模型,特別是近期開發的大規模預訓練模型。例如,Flamingo 和 BLIP 是圖像描述模型,可以基於圖像自動生成文字描述。同樣地,基於圖像 - 文字對所訓練的圖像生成模型可以理解文本的深層語義並合成高品質的圖像,例如 DALL-E 模型和潛在擴散模型 (SD) 即為這種模型。 

#

此外,研究也利用 CLIP 模型來比較圖像或文字。 CLIP 是一種視覺語言模型,可將圖像和文字對應起來表現在共享的嵌入空間(embedding space)中。該研究使用手動建立的影像文字資料集,例如 COCO 和 NoCaps 來評估生成的文字的品質。圖像和文字生成模型具有允許從分佈中採樣的隨機分量,從而可以從一系列候選的文字和圖像中選擇最佳的。不同的採樣方法,包括核採樣,均可用於影像描述模型,而本文採用核採樣作為基礎模型,以此顯示本文所使用方法的優越性。

方法概覽

本文框架由三個預訓練的 SOTA 神經網路組成。第一,圖像- 文字生成模型;第二,文字- 圖像生成模型;第三,由圖像編碼器和文字編碼器組成的多模態表示模型,它可以將圖像或文字分別映射到其語義嵌入中。

DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本

透過文字描述的圖像重建

如圖2 左半部分所示,圖像重建任務是使用語言作為指令重建來源圖像,此過程的效果實現將促使描述來源場景的最佳文字生成。首先,來源影像 x 被輸送到 BLIP 模型以產生多個候選文字 y_k。例如,一隻小熊貓在樹林中吃樹葉。產生的文字候選集合以 C 表示,然後文字 y_k 被傳送到 SD 模型以產生圖像 x’_k。這裡 x’_k 是指基於小熊貓生成的圖像。隨後,使用 CLIP 影像編碼器從來源影像和生成的影像中提取語義特徵:DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本

接著計算這兩個嵌入向量之間的餘弦相似度,目的是找出候選的文字描述y_s, 即

DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本

##其中s 為最接近來源影像的影像索引。

本研究使用 CIDEr(圖像描述度量指標)並參考人類註解來評估最佳文字。由於對生成的文本品質感興趣,該研究將 BLIP 模型設定為輸出長度大致相同的文字。這樣就能保證進行相對公平的比較,因為文字的長度與可傳遞影像中資訊量的多寡呈正相關。在這項工作中,所有模型都會被凍結,不會進行任何微調。

透過圖像實現文字重建

圖 2 中右側部分顯示了與上一節描述過程的相反過程。 BLIP 模型需要在 SD 的引導下猜測來源文本,SD 可以存取文字但只能以圖像的格式呈現其內容。這個過程始於使用 SD 為文字 y 產生候選圖像 x_k ,生成的候選圖像集以 K 來表示。使用 SD 產生影像會涉及隨機取樣過程,其中每一次生成過程都可能會以在巨大的像素空間中得到不同的有效影像樣本為終點。這種採樣多樣性會提供一個候選池來篩選出最佳影像。隨後,BLIP 模型為每個取樣影像 x_k 產生一個文字描述 y’_k。這裡 y’_k 指的是初始文字一隻小熊貓在森林裡爬行。然後研究使用 CLIP 文字編碼器來提取來源文字和生成文字的特徵,分別以DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本表示。此任務的目的是尋找匹配文字 y 語義的最佳候選圖像 x_s。為此,研究需要比較生成文字和輸入文字之間的距離,然後選擇配對文字距離最小的圖像,即

DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本

##該研究認為圖像x_s 可以最好地描繪出文字描述y,因為它可以以最小的訊息損失將內容傳遞給接收者。此外,該研究將與文本 y 相對應的圖像DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本視為 y 的參考表示(reference presentation),並將最佳圖像量化為它與參考圖像的接近程度。

實驗結果

圖 3 中的左側圖表顯示了兩個資料集上影像重建品質和描述文字品質之間的相關性。對於每個給定影像,重建影像品質(在 x 軸中顯示)越好,文字描述品質(在 y 軸中顯示的)也越好。

圖3 的右側圖表揭示了恢復的文本品質和生成的圖像品質之間的關係:對於每個給定的文本,重建的文本描述(顯示在x軸上)越好,影像品質(顯示在y 軸上)就越好。

DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本

圖4(a)和(b)顯示了影像重建品質和基於來源影像的平均文字品質之間的關係。圖 4(c)和(d)顯示了文字距離(text distance)與重建影像品質之間的相關性。

DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本

表1 顯示出該研究的取樣方法在每個度量標準下都優於核採樣,模型的相對增益可以高達7.7%。

DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本

圖 5 顯示了兩個重建任務的定性範例。

DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本#

以上是DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除