哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 15, 2023 pm 05:40 PM

ai影像研究

DALL-E 2剛發布的時候，生成的畫作幾乎能完美復現輸入的文本，高清的分辨率、強大的繪圖腦洞也是讓各路網友直呼“太酷”。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

但最近哈佛大學的一份新研究論文表明，儘管DALL-E 2生成的圖像很精緻，但它可能只是把文本中的幾個實體粘合在一起，甚至沒有理解文本中表達的空間關係！

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

論文連結：https://arxiv.org/pdf/2208.00005.pdf

資料連結：https://osf.io/sm68h/

比如說給出一句文字提示為「A cup on a spoon”，可以看到DALL-E 2產生的圖像中，可以看到有部分圖像就沒有滿足「on」關係。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

但在訓練集中，DALL-E 2可能見到的茶杯和湯匙的組合都是「in」，而「on」則比較少見，所以在兩種關係的生成上，準確率也不相同。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

所以為了探究DALL-E 2是否真的能理解文本中的語意關係，研究者選擇了15類關係，其中8個為空間關係（physical relation ），包括in, on, under, covering, near, occluded by, hanging over和tied to；7個動作關係（agentic relation），包括pushing, pulling, touching, hitting, kicking, helping和hindering.

文本中的實體集合限制為12個，選取的都是簡單的、各個資料集中常見的物品，分別為：box, cylinder, blanket, bowl, teacup, knife; man, woman, child, robot, monkey和iguana（鬣蜥）.

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

對於每類關係，創建5個prompts，每次隨機選擇2個實體進行替換，最終產生75個文字提示。提交至DALL-E 2渲染引擎後，選擇前18張生成影像，最終獲得1350張影像。

接著研究者從180位標註人員中經由常識推理測驗選拔169名參與到標註的過程。

實驗結果發現，DALL-E 2產生的圖像和用於生成圖像的文字提示之間一致性的平均值在75個prompt中僅為22.2%

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

不過很難說DALL-E 2到底是否真正「理解」了文本中的關係，透過觀察標註人員的一致性評分，按照0％、25％和50％的一致同意閾值來看，對每個關係進行的Holm-corrected的單樣本顯著性檢定表明，所有15個關係的參與者同意率在α = 0.95（pHolm

所以即使不對多重比較進行校正，事實就是DALL-E 2產生的圖像並不能理解文本中兩個物體的關係。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

結果也表明，DALL-E在把兩個不相關物體連結在一起的能力可能沒有想像中那麼強，比如說「A child touching a bowl」的一致性達到了87%，因為在現實世界中的圖像，孩子和碗出現在一起的頻率很高。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

而「A monkey touching an iguana」產生的影像，最終一致率只有11%，在渲染出來的影像中甚至會出現物種錯誤。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

所以DALL-E 2中的圖像部分類別是發展較完善的，例如孩子與食物，但在某些類別的資料中仍需要繼續訓練。

不過當前DALL-E 2在官網上還是主要展示其高清晰度和寫實風格，還沒有搞清楚其內在到底是把兩個物體“粘在一起”，還是真正理解文本信息後再進行影像生成。

研究人員表示，關係理解是人類智力的基本組成部分，DALL-E 2在基本的空間關係方面表現不佳（例如on，of）表明，它還無法像人類一樣如此靈活、穩健地建構和理解這個世界。

不過網友表示，能開發出「膠水」把東西黏在一起已經是相當偉大的成就了！ DALL-E 2並非AGI，未來仍有很大的進步空間，至少我們已經開啟了自動化生成影像的大門！

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

DALL-E 2還有啥問題？

實際上，DALL-E 2一發布，就有大量的從業人員對其優點與缺陷進行了深入剖析。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

#部落格連結：https://www.lesswrong.com/posts/uKp6tBFStnsvrot5t/what-dall-e-2-can-and-cannot-do

用GPT-3寫小說略顯單調，DALL-E 2可以為文本產生一些插圖，甚至對長文本產生連環畫。

比如說DALL-E 2可以為圖片增加特徵，如「A woman at a coffeeshop working on her laptop and wearing headphones, painting by Alphonse Mucha”，可以精確生成繪畫風格、咖啡店、戴耳機、筆記型電腦，等等。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

但如果文本中的特徵描述涉及兩個人，DALL-E 2可能就會忘記哪些特徵屬於哪個人物，例如輸入文字為：

a young dark-haired boy resting in bed, and a grey-haired older woman sitting in a chair beside the bed underneath a window with sun streaming through, Pixar style digital art.

一個年輕的黑髮男孩躺在床上，一個灰頭髮的老婦坐在窗戶下面的床旁邊的椅子上，陽光穿過，皮克斯風格的數字藝術。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%