首頁  >  文章  >  科技週邊  >  Gary Marcus:文字生成圖像系統理解不了世界,離 AGI 還差得遠

Gary Marcus:文字生成圖像系統理解不了世界,離 AGI 還差得遠

WBOY
WBOY轉載
2023-04-09 09:31:031308瀏覽

本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。

自從 DALL-E 2 問世以來,許多人都認為,能夠繪製逼真影像的 AI 是邁向通用人工智慧(AGI)的一大步。 OpenAI 的 CEO  Sam Altman 曾在 DALL-E 2 發布的時候宣稱“AGI is going to be wild”,媒體也都在渲染這些系統對於通用智能進展的重大意義。

但真的是如此嗎?知名 AI 學者(給 AI 潑冷水愛好者) Gary Marcus 表示「持保留態度」。

最近,他提出,在評估AGI 的進展時,關鍵要看像Dall-E、Imagen、Midjourney 和Stable Diffusion 這樣的系統是否真正理解世界,從而能夠根據這些知識進行推理並進行決策。

在判斷這些系統之於AI (包括狹義和廣義的AI)的意義時,我們可以提出以下三個問題:

影像合成系統能否生成高品質的圖像?

它們能否將語言輸入與它們產生的圖像關聯起來?

它們了解它們所呈現的圖像背後的世界嗎?

1 AI 不懂語言與圖像的關聯

在第一個問題上,答案是肯定的。差別只在於,在用 AI 生成圖像這件事兒上,經過訓練的人類藝術家能做得更好。

在第二個問題上,答案就不一定了。在某些語言輸入上,這些系統能表現良好,例如下圖是DALL-E 2 生成的「騎著馬的太空人」:

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

但在其他在一些語言輸入上,這些AI 就表現欠佳、很容易被愚弄了。例如前段時間Marcus 在推特上指出,這些系統在面對「騎著太空人的馬」時,難以產生對應的準確圖像:

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

儘管深度學習的擁護者對此進行了激烈的反擊,例如AI 研究員Joscha Bach 認為“Imagen 可能只是使用了錯誤的訓練集”,機器學習教授Luca Ambrogioni 反駁說,這正表明了“Imagen 已經具有一定程度的常識”,所以拒絕生成一些荒謬的東西。

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

還有一位谷歌的科學家Behnam Neyshabur 提出,如果“以正確的方式提問”,Imagen 就可以畫出“騎著宇航員的馬”:

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

但是,Marcus 認為,問題的關鍵不在於系統能否產生影像,聰明的人總是能找到辦法讓系統畫出特定的影像,但這些系統並沒有深刻理解語言與圖像之間的關聯,這才是關鍵。

2 不知道自行車輪是啥?怎麼能稱是AGI?

系統對語言的理解還只是一方面,Marcus 指出,最重要的是,判斷DALL-E 等系統對AGI 的貢獻最終要取決於第三個問題:如果系統所能做的只是以一種偶然但令人驚嘆的方式將許多句子轉換為圖像,它們可能會徹底改變人類藝術,但仍然不能真正與AGI 相提並論,也根本代表不了AGI。

讓Marcus 對這些系統理解世界的能力感到絕望的是最近的一些例子,例如平面設計師Irina Blok 用Imagen 生成的「帶有許多孔的咖啡杯」圖像:

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

正常人看了這張圖都會覺得它違反常識,咖啡不可能不從洞裡漏出來。類似的還有:

「帶有方形輪子的自行車」

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

Gary Marcus:文字生成圖像系統理解不了世界,離AGI 還差得遠

「佈滿仙人掌刺的衛生紙」

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

Gary Marcus:文字生成圖像系統理解不了世界,離AGI 還差得遠

說「有」容易說「無」難,誰能知道一個不存在的事物該是什麼樣子?這也是讓 AI 繪製不可能事物的難題所在。

但又或許,系統只是「想」繪製一個超現實主義的圖像呢,正如DeepMind 研究教授Michael Bronstein 所說的,他並不認為那是個糟糕的結果,換做是他,也會這樣畫。

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

那麼如何最終解決這個問題呢? Gary Marcus 在最近與哲學家 Dave Chalmers 的一次交談中獲得了新的靈感。

為了了解系統對於部分和整體、以及功能的認識, Gary Marcus 提出了一項對系統性能是否正確有更清晰概念的任務,給出文本提示“Sketch a bicycle and label the parts that roll on the ground」(畫出一輛自行車並標記出在地面上滾動的部分),以及「Sketch a ladder and label one of the parts you stand on」(畫出一個梯子並標記出你站立的部分)。

這個測試的​​特別之處在於,並沒有直接給出「畫出一輛自行車並標記出輪子」、「畫出一個梯子並標記出踏板」這樣的提示,而是讓AI 從「地面上滾動的部分」、「站立的部分」這樣的描述中推理出對應的事物,這正是對AI 理解世界能力的考驗。

但Marcus 的測試結果表明,Craiyon(以前稱為DALL-E mini)在這種事情上做得一塌糊塗,它並不能理解自行車的輪子和梯子的踏板是什麼:


Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

#那麼這是不是DALL-E Mini 特有的問題呢?

Gary Marcus 發現並不是,在目前最火的文本生成圖像系統 Stable Diffusion 中也出現了同樣的結果。

例如,讓Stable Diffusion 「畫一個人,並把拿東西的部分變成紫色」(Sketch a person and make the parts that hold things purple),結果是:

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

顯然,Stable Diffusion 並不理解人的雙手是什麼。

而在接下來的九次嘗試中,只有一次成功完成(在右上角),而且準確度還不高:

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

下一個測試是,“畫出一輛白色自行車,並將用腳推動的部分變成橙色”,得到圖像結果是:

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

所以它也不能理解什麼是自行車的腳踏板。

而在畫出「自行車的草圖,並標記在地面上滾動部分」的測試中,其表現得也沒有很好:

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

如果文字提示帶有否定語,例如“畫一輛沒有輪子的白色自行車",其結果如下:

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

##這表示系統並不理解否定的邏輯關係。


即使是「畫一輛綠色輪子的白色自行車」這樣簡單的只專注於部分與整體關係提示,而且也沒有出現複雜的語法或功能等,其得到的結果仍存在問題:


Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

因此,Marcus 質問道,一個並不了解輪子是什麼、或它們的用途的系統,能稱得上是人工智慧的重大進步麼?


今天,Gary Marcus 也針對這個問題發出了一個投票調查,他提出的問題是,「Dall-E 和Stable Diffusion 等系統,對它們所描繪的世界到底了解有多少? 」


其中,86.1% 的人認為系統對世界的理解並不多,只有13.9% 的人認為這些系統理解世界的程度很高。


Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

對此,Stability.AI 的執行長Emad Mostique 也回應稱,我投的是“並不多”,並承認“它們只是拼圖上的一小塊。」


Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

來自科學機構New Science 的Alexey Guzey 也有與Marcus 類似的發現,他讓DALL-E 畫出一輛自行車,但結果只是將一堆自行車的元素堆在一起。


Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

所以他認為,並沒有任何能真正理解自行車是什麼以及自行車如何運作的模型,生成當前的ML 模型幾乎可以與人類媲美或取代人類是很荒謬的。


大家怎麼看?

以上是Gary Marcus:文字生成圖像系統理解不了世界,離 AGI 還差得遠的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除