GPT-4解決網路名梗“吉娃娃or藍莓鬆餅”,一度驚艷無數人。
然而,如今它被指控為「作弊」!
圖片
全用原題中出現的圖,只是打亂順序和排列方式。
最新版本的GPT-4以其全模式合一的特色而聞名。然而,令人驚訝的是,它在識別圖片數量方面出現了錯誤,而且連原本能夠正確識別的吉娃娃也出現了識別錯誤
##圖片
#GPT-4在原圖上表現出色的原因是什麼呢? 根據UCSC助理教授Xin Eric Wang的猜測,搞這項測試的原因是因為網路上的原圖太受歡迎了。他認為GPT-4在訓練過程中多次遇到原始答案,並成功地記住了它們圖靈獎三巨頭中的LeCun也關注此事,並表示:警惕在訓練集上測試。
圖片
泰迪和炸雞也無法區分原圖究竟有多流行呢,不但是網絡名梗,甚至在電腦視覺領域也成了經典問題,並多次出現在相關論文研究中。圖片
針對GPT-4的能力限制在哪個環節,許多網友提出了各自的測試方案,不考慮原圖的影響為了排除排列方式太複雜是否有影響,有人修改成簡單3x3排列也認錯很多。圖片
圖片
有人把其中一些圖拆出來單獨發給GPT- 4,得到了5/5的正確率。圖片
Xin Eric Wang認為,將這些容易混淆的圖像放在一起正是這個挑戰的核心#圖片
最終,有人成功地同時運用了讓人工智慧「深呼吸」和「一步一步地思考」的兩個關鍵技巧,並獲得了正確的結果
圖片
GPT-4在答案中的用詞“這是視覺雙關或著名梗圖的一個例子”,也暴露了原圖確實可能存在於訓練資料裡。重新表述如下:然而,GPT-4在其回答中使用了:“這是一個視覺雙關或著名梗圖的例子”,這也揭示了原始圖片可能確實存在於訓練數據中圖片
最後也有人測試了經常一起出現的「泰迪or炸雞」測試,發現GPT-4也不能很好分辨。圖片
這個「藍莓或巧克力豆」實在有點過分…圖片
大模型「胡說八道」在學術界被稱為幻覺問題,多模態大模型的視覺幻覺問題,已經成了最近研究的熱門方向。
在EMNLP 2023的一項研究中,我們創建了GVIL資料集,其中包含了1600個資料點,並對視覺幻覺問題進行了系統評估
#圖片
研究表明,較大規模的模型更容易受到錯覺的影響,並且更接近人類的感知
圖片
#另一項最新研究的重點是評估兩種幻覺類型:偏差和乾擾
#圖片
圖片
研究中指出GPT-4V一起解釋多個影像時經常會困惑,單獨發送影像時表現較好,符合“吉娃娃or鬆餅”測試中的觀察結果。
圖片
流行的緩解措施,如自我糾正和思維鏈提示,並不能有效解決這些問題,並且測試顯示LLaVA和Bard等多模態模型也存在類似的問題
另外研究也發現,GPT-4V更擅長解釋西方文化背景的圖像或帶有英文文字的圖像。
例如GPT-4V能正確數出七個小矮人 白雪公主,卻把七個葫蘆娃數成了10個。
圖片
參考連結:[1]https://twitter.com/xwang_lk/status/1723389615254774122[2]https://arxiv. org/abs/2311.00047[3]https://arxiv.org/abs/2311.03287
以上是GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤的詳細內容。更多資訊請關注PHP中文網其他相關文章!