DALL-E和Flamingo能互相理解嗎？三個預訓練SOTA神經網路統一圖像和文本-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

DALL-E和Flamingo能互相理解嗎？三個預訓練SOTA神經網路統一圖像和文本

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 04:49 PM

影像模型

多模態研究的一個重要目標是提高機器對於圖像和文字的理解能力。特別是針對如何在兩種模型之間實現有意義的交流，研究者們付出了巨大努力。舉例來說，圖像描述（image captioning）產生應當能將圖像的語意內容轉換輸出為可被人們理解的連貫文字。相反，文字 - 圖像生成模型也可利用文字描述的語意來創建逼真的圖像。

這就會帶來一些同語意相關的有趣問題：對於給定的圖像，哪種文字描述最準確地描述了圖像？同樣地，對於給定的文本，最有意義的圖像實現方式又是哪一種？針對第一個問題，一些研究宣稱最佳的圖像描述應該是既自然且還能還原視覺內容的資訊。而對於第二個問題，有意義的圖像應該是高品質的、多樣性的且忠於文字內容的。

不論怎樣，在人類交流的推動下，包含文本 - 圖像生成模型及圖像 - 文本生成模型的交互任務可以幫助我們選擇最準確的圖像文本對。

如圖 1 所示，在第一個任務中，圖像 - 文字模型是訊息發送者，文字 - 圖像模型是訊息接收者。發送者的目標是使用自然語言將圖像的內容傳達給接收者，以便其理解該語言並重建真實的視覺表徵。一旦接收者可以高保真地重建原始影像訊息，則表示訊息已傳遞成功。研究者認為這樣生成的文本描述即為最優的，透過其產生的圖像也最近似於原始圖像。

DALL-E和Flamingo能互相理解嗎？三個預訓練SOTA神經網路統一圖像和文本

這項規律受到人們使用語言進行溝通的啟發。試想如下情形：在一個緊急求救的場景中，警察透過電話獲知車禍的狀況和受傷人員的狀況。這本質上涉及現場目擊者的圖像描述過程。警方需要根據語言描述在腦海中重建環境場景，以組織適當的救援行動。顯然，最好的文字描述應該是該場景重建的最佳指南。

第二個任務涉及文字重建：文字 - 圖像模型成為訊息發送者，圖像 - 文字模型則成為訊息接收者。一旦兩個模型就文字層面上訊息內容達成一致，那麼用於傳達訊息的圖像媒介即為重現來源文字的最優圖像。

本文中，來自慕尼黑大學、西門子公司等機構的研究者提出的方法，與智慧體間通訊緊密相關。語言是智能體之間交換資訊的主要方法。但我們如何確定第一個智能體與第二個智能體對什麼是貓或什麼是狗這樣的問題有相同的理解呢？

DALL-E和Flamingo能互相理解嗎？三個預訓練SOTA神經網路統一圖像和文本

#論文網址：https://arxiv.org/pdf/2212.12249.pdf

#本文所想要探求的想法是讓第一個智能體分析圖像並產生描述該圖像的文本，而後第二個智能體獲取該文本並據此來模擬圖像。其中，後一個過程可以被認為是具象化體現的過程。研究認為，如果第二個智能體模擬的影像與第一個智能體接收的輸入影像相似（見圖 1），則通訊成功。

在實驗中，該研究使用現成的模型，特別是近期開發的大規模預訓練模型。例如，Flamingo 和 BLIP 是圖像描述模型，可以基於圖像自動生成文字描述。同樣地，基於圖像 - 文字對所訓練的圖像生成模型可以理解文本的深層語義並合成高品質的圖像，例如 DALL-E 模型和潛在擴散模型 (SD) 即為這種模型。

此外，研究也利用 CLIP 模型來比較圖像或文字。 CLIP 是一種視覺語言模型，可將圖像和文字對應起來表現在共享的嵌入空間（embedding space）中。該研究使用手動建立的影像文字資料集，例如 COCO 和 NoCaps 來評估生成的文字的品質。圖像和文字生成模型具有允許從分佈中採樣的隨機分量，從而可以從一系列候選的文字和圖像中選擇最佳的。不同的採樣方法，包括核採樣，均可用於影像描述模型，而本文採用核採樣作為基礎模型，以此顯示本文所使用方法的優越性。

方法概覽

本文框架由三個預訓練的 SOTA 神經網路組成。第一，圖像- 文字生成模型；第二，文字- 圖像生成模型；第三，由圖像編碼器和文字編碼器組成的多模態表示模型，它可以將圖像或文字分別映射到其語義嵌入中。

DALL-E和Flamingo能互相理解嗎？三個預訓練SOTA神經網路統一圖像和文本

透過文字描述的圖像重建

如圖2 左半部分所示，圖像重建任務是使用語言作為指令重建來源圖像，此過程的效果實現將促使描述來源場景的最佳文字生成。首先，來源影像 x 被輸送到 BLIP 模型以產生多個候選文字 y_k。例如，一隻小熊貓在樹林中吃樹葉。產生的文字候選集合以 C 表示，然後文字 y_k 被傳送到 SD 模型以產生圖像 x’_k。這裡 x’_k 是指基於小熊貓生成的圖像。隨後，使用 CLIP 影像編碼器從來源影像和生成的影像中提取語義特徵: DALL-E和Flamingo能互相理解嗎？三個預訓練SOTA神經網路統一圖像和文本和。

接著計算這兩個嵌入向量之間的餘弦相似度，目的是找出候選的文字描述y_s, 即

DALL-E和Flamingo能互相理解嗎？三個預訓練SOTA神經網路統一圖像和文本

##其中s 為最接近來源影像的影像索引。

本研究使用 CIDEr（圖像描述度量指標）並參考人類註解來評估最佳文字。由於對生成的文本品質感興趣，該研究將 BLIP 模型設定為輸出長度大致相同的文字。這樣就能保證進行相對公平的比較，因為文字的長度與可傳遞影像中資訊量的多寡呈正相關。在這項工作中，所有模型都會被凍結，不會進行任何微調。

透過圖像實現文字重建

圖 2 中右側部分顯示了與上一節描述過程的相反過程。 BLIP 模型需要在 SD 的引導下猜測來源文本，SD 可以存取文字但只能以圖像的格式呈現其內容。這個過程始於使用 SD 為文字 y 產生候選圖像 x_k ，生成的候選圖像集以 K 來表示。使用 SD 產生影像會涉及隨機取樣過程，其中每一次生成過程都可能會以在巨大的像素空間中得到不同的有效影像樣本為終點。這種採樣多樣性會提供一個候選池來篩選出最佳影像。隨後，BLIP 模型為每個取樣影像 x_k 產生一個文字描述 y’_k。這裡 y’_k 指的是初始文字一隻小熊貓在森林裡爬行。然後研究使用 CLIP 文字編碼器來提取來源文字和生成文字的特徵，分別以 DALL-E和Flamingo能互相理解嗎？三個預訓練SOTA神經網路統一圖像和文本和表示。此任務的目的是尋找匹配文字 y 語義的最佳候選圖像 x_s。為此，研究需要比較生成文字和輸入文字之間的距離，然後選擇配對文字距離最小的圖像，即

DALL-E和Flamingo能互相理解嗎？三個預訓練SOTA神經網路統一圖像和文本

##該研究認為圖像x_s 可以最好地描繪出文字描述y，因為它可以以最小的訊息損失將內容傳遞給接收者。此外，該研究將與文本 y 相對應的圖像 DALL-E和Flamingo能互相理解嗎？三個預訓練SOTA神經網路統一圖像和文本視為 y 的參考表示（reference presentation），並將最佳圖像量化為它與參考圖像的接近程度。

實驗結果

圖 3 中的左側圖表顯示了兩個資料集上影像重建品質和描述文字品質之間的相關性。對於每個給定影像，重建影像品質（在 x 軸中顯示）越好，文字描述品質（在 y 軸中顯示的）也越好。

圖3 的右側圖表揭示了恢復的文本品質和生成的圖像品質之間的關係：對於每個給定的文本，重建的文本描述（顯示在x軸上）越好，影像品質（顯示在y 軸上）就越好。

DALL-E和Flamingo能互相理解嗎？三個預訓練SOTA神經網路統一圖像和文本

圖4（a）和（b）顯示了影像重建品質和基於來源影像的平均文字品質之間的關係。圖 4（c）和（d）顯示了文字距離（text distance）與重建影像品質之間的相關性。

DALL-E和Flamingo能互相理解嗎？三個預訓練SOTA神經網路統一圖像和文本

表1 顯示出該研究的取樣方法在每個度量標準下都優於核採樣，模型的相對增益可以高達7.7%。

DALL-E和Flamingo能互相理解嗎？三個預訓練SOTA神經網路統一圖像和文本

圖 5 顯示了兩個重建任務的定性範例。

DALL-E和Flamingo能互相理解嗎？三個預訓練SOTA神經網路統一圖像和文本 #

以上是DALL-E和Flamingo能互相理解嗎？三個預訓練SOTA神經網路統一圖像和文本的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

AI內部部署的隱藏危險：治理差距和災難性風險Apr 28, 2025 am 11:12 AM

Apollo Research的一份新報告顯示，先進的AI系統的不受檢查的內部部署構成了重大風險。在大型人工智能公司中缺乏監督，普遍存在，允許潛在的災難性結果

構建AI測謊儀Apr 28, 2025 am 11:11 AM

傳統測謊儀已經過時了。依靠腕帶連接的指針，打印出受試者生命體徵和身體反應的測謊儀，在識破謊言方面並不精確。這就是為什麼測謊結果通常不被法庭採納的原因，儘管它曾導致許多無辜者入獄。相比之下，人工智能是一個強大的數據引擎，其工作原理是全方位觀察。這意味著科學家可以通過多種途徑將人工智能應用於尋求真相的應用中。一種方法是像測謊儀一樣分析被審問者的生命體徵反應，但採用更詳細、更精確的比較分析。另一種方法是利用語言標記來分析人們實際所說的話，並運用邏輯和推理。俗話說，一個謊言會滋生另一個謊言，最終

AI是否已清除航空航天行業的起飛？Apr 28, 2025 am 11:10 AM

航空航天業是創新的先驅，它利用AI應對其最複雜的挑戰。現代航空的越來越複雜性需要AI的自動化和實時智能功能，以提高安全性，降低操作

觀看北京的春季機器人比賽Apr 28, 2025 am 11:09 AM

機器人技術的飛速發展為我們帶來了一個引人入勝的案例研究。來自Noetix的N2機器人重達40多磅，身高3英尺，據說可以後空翻。 Unitree公司推出的G1機器人重量約為N2的兩倍，身高約4英尺。比賽中還有許多體型更小的類人機器人參賽，甚至還有一款由風扇驅動前進的機器人。數據解讀這場半程馬拉松吸引了超過12,000名觀眾，但只有21台類人機器人參賽。儘管政府指出參賽機器人賽前進行了“強化訓練”，但並非所有機器人均完成了全程比賽。冠軍——由北京類人機器人創新中心研發的Tiangong Ult

鏡子陷阱：人工智能倫理和人類想像力的崩潰Apr 28, 2025 am 11:08 AM

人工智能以目前的形式並不是真正智能的。它擅長模仿和完善現有數據。我們不是在創造人工智能，而是人工推斷 - 處理信息的機器，而人類則

新的Google洩漏揭示了方便的Google照片功能更新Apr 28, 2025 am 11:07 AM

一份報告發現，在谷歌相冊Android版7.26版本的代碼中隱藏了一個更新的界面，每次查看照片時，都會在屏幕底部顯示一行新檢測到的面孔縮略圖。新的面部縮略圖缺少姓名標籤，所以我懷疑您需要單獨點擊它們才能查看有關每個檢測到的人員的更多信息。就目前而言，此功能除了谷歌相冊已在您的圖像中找到這些人之外，不提供任何其他信息。此功能尚未上線，因此我們不知道谷歌將如何準確地使用它。谷歌可以使用縮略圖來加快查找所選人員的更多照片的速度，或者可能用於其他目的，例如選擇要編輯的個人。我們拭目以待。就目前而言