搜尋
首頁科技週邊人工智慧哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

DALL-E 2剛發布的時候,生成的畫作幾乎能完美復現輸入的文本,高清的分辨率、強大的繪圖腦洞也是讓各路網友直呼“太酷”。

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

但最近哈佛大學的一份新研究論文表明,儘管DALL-E 2生成的圖像很精緻,但它可能只是把文本中的幾個實體粘合在一起,甚至沒有理解文本中表達的空間關係!

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

論文連結:https://arxiv.org/pdf/2208.00005.pdf

資料連結:https://osf.io/sm68h/

比如說給出一句文字提示為「A cup on a spoon”,可以看到DALL-E 2產生的圖像中,可以看到有部分圖像就沒有滿足「on」關係。

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

 但在訓練集中,DALL-E 2可能見到的茶杯和湯匙的組合都是「in」,而「on」則比較少見,所以在兩種關係的生成上,準確率也不相同。

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

所以為了探究DALL-E 2是否真的能理解文本中的語意關係,研究者選擇了15類關係,其中8個為空間關係(physical relation ),包括in, on, under, covering, near, occluded by, hanging over和tied to;7個動作關係(agentic relation),包括pushing, pulling, touching, hitting, kicking, helping和hindering.

文本中的實體集合限制為12個,選取的都是簡單的、各個資料集中常見的物品,分別為:box, cylinder, blanket, bowl, teacup, knife; man, woman, child, robot, monkey和iguana(鬣蜥).

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

對於每類關係,創建5個prompts,每次隨機選擇2個實體進行替換,最終產生75個文字提示。提交至DALL-E 2渲染引擎後,選擇前18張生成影像,最終獲得1350張影像。

接著研究者從180位標註人員中經由常識推理測驗選拔169名參與到標註的過程。

實驗結果發現,DALL-E 2產生的圖像和用於生成圖像的文字提示之間一致性的平均值在75個prompt中僅為22.2%

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

 不過很難說DALL-E 2到底是否真正「理解」了文本中的關係,透過觀察標註人員的一致性評分,按照0%、25%和50%的一致同意閾值來看,對每個關係進行的Holm-corrected的單樣本顯著性檢定表明,所有15個關係的參與者同意率在α = 0.95(pHolm

所以即使不對多重比較進行校正,事實就是DALL-E 2產生的圖像並不能理解文本中兩個物體的關係。

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

 結果也表明,DALL-E在把兩個不相關物體連結在一起的能力可能沒有想像中那麼強,比如說「A child touching a bowl」的一致性達到了87%,因為在現實世界中的圖像,孩子和碗出現在一起的頻率很高。

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

 而「A monkey touching an iguana」產生的影像,最終一致率只有11%,在渲染出來的影像中甚至會出現物種錯誤。

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

 所以DALL-E 2中的圖像部分類別是發展較完善的,例如孩子與食物,但在某些類別的資料中仍需要繼續訓練。

不過當前DALL-E 2在官網上還是主要展示其高清晰度和寫實風格,還沒有搞清楚其內在到底是把兩個物體“粘在一起”,還是真正理解文本信息後再進行影像生成。

研究人員表示,關係理解是人類智力的基本組成部分,DALL-E 2在基本的空間關係方面表現不佳(例如on,of)表明,它還無法像人類一樣如此靈活、穩健地建構和理解這個世界。

不過網友表示,能開發出「膠水」把東西黏在一起已經是相當偉大的成就了! DALL-E 2並非AGI,未來仍有很大的進步空間,至少我們已經開啟了自動化生成影像的大門!

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

 DALL-E 2還有啥問題?

 實際上,DALL-E 2一發布,就有大量的從業人員對其優點與缺陷進行了深入剖析。

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

#部落格連結:https://www.lesswrong.com/posts/uKp6tBFStnsvrot5t/what-dall-e-2-can-and-cannot-do

用GPT-3寫小說略顯單調,DALL-E 2可以為文本產生一些插圖,甚至對長文本產生連環畫。

比如說DALL-E 2可以為圖片增加特徵,如「A woman at a coffeeshop working on her laptop and wearing headphones, painting by Alphonse Mucha”,可以精確生成繪畫風格、咖啡店、戴耳機、筆記型電腦,等等。

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

 但如果文本中的特徵描述涉及兩個人,DALL-E 2可能就會忘記哪些特徵屬於哪個人物,例如輸入文字為:

a young dark-haired boy resting in bed, and a grey-haired older woman sitting in a chair beside the bed underneath a window with sun streaming through, Pixar style digital art.

一個年輕的黑髮男孩躺在床上,一個灰頭髮的老婦坐在窗戶下面的床旁邊的椅子上,陽光穿過,皮克斯風格的數字藝術。

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

 可以看到,DALL-E 2可以正確地產生窗戶、椅子和床,但在年齡、性別和髮色的特徵組合上,產生的圖像略顯迷茫。

另一個例子是讓「美國隊長和鋼鐵人並排站」,可以看到生成的結果很明顯具有美國隊長和鋼鐵人的特徵,但具體的元素卻安在了不同的人身上(例如鋼鐵人帶著美國隊長的盾牌)。

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

如果是特別細節的前景與背景,模型可能也無法產生。

例如輸入文字是:

Two dogs dressed like roman soldiers on a pirate ship looking at New York City through a spyglass.

兩兩碼狗在海盜船上像羅馬士兵一樣用小望遠鏡看紐約市。

這回DALL-E 2直接就罷工了,博文作者花了半個小時也沒搞定,最終需要在“紐約市和海盜船”或“帶著望遠鏡、穿著羅馬士兵制服的狗”之間進行選擇。

Dall-E 2可以使用通用的背景來產生圖像,例如城市、圖書館中的書架,但如果這不是圖像的主要重點,那麼想要獲得更細的細節往往會變得非常難。

儘管DALL-E 2能生成常見的物體,例如各種花里胡哨的椅子,但要是讓它生成一個“奧拓自行車”,結果生成的圖片和自行車有點像,又不完全是。

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

 而Google圖片下搜尋的Otto Bicycle則是下面這樣的。

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

 DALL-E 2也無法拼寫,但偶爾也會完全巧合地正確拼出一個單字,例如讓它在停車標誌上寫下STOP

雖然模型確實能產生一些「可辨識」的英文字母,但連起來的語意和預期的單字還有差別,這也是DALL-E 2不如第一代DALL-E的地方。

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

 在產生樂器相關的圖像時,DALL-E 2似乎是記住了人手在演奏時的位置,但沒有琴弦,演奏起來稍顯尷尬。

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

 DALL-E 2也提供了一個編輯功能,例如產生一個圖像後,可以使用遊標突出顯示其區域,並添加修改的完整說明即可。

但這項功能並非一直有效,例如想給原圖加個「短髮」,編輯功能總是能在奇怪的地方加點東西。

哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%

 技術還在不斷更新發展,期待DALL-E 3!

#

以上是哈佛大學砸場子:DALL-E 2只是「黏合怪」,生成正確率只有22%的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
10個生成AI編碼擴展,在VS代碼中,您必須探索10個生成AI編碼擴展,在VS代碼中,您必須探索Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用