首頁  >  文章  >  科技週邊  >  GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤

PHPz
PHPz轉載
2023-11-13 20:17:23639瀏覽

GPT-4解決網路名梗“吉娃娃or藍莓鬆餅”,一度驚艷無數人。

然而,如今它被指控為「作弊」!

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤圖片

全用原題中出現的圖,只是打亂順序和排列方式。

最新版本的GPT-4以其全模式合一的特色而聞名。然而,令人驚訝的是,它在識別圖片數量方面出現了錯誤,而且連原本能夠正確識別的吉娃娃也出現了識別錯誤

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤##圖片

#GPT-4在原圖上表現出色的原因是什麼呢?

根據UCSC助理教授Xin Eric Wang的猜測,搞這項測試的原因是因為網路上的原圖太受歡迎了。他認為GPT-4在訓練過程中多次遇到原始答案,並成功地記住了它們

圖靈獎三巨頭中的LeCun也關注此事,並表示:

警惕在訓練集上測試。

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤圖片

泰迪和炸雞也無法區分

原圖究竟有多流行呢,不但是網絡名梗,甚至在電腦視覺領域也成了經典問題,並多次出現在相關論文研究中。

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤圖片

針對GPT-4的能力限制在哪個環節,許多網友提出了各自的測試方案,不考慮原圖的影響

為了排除排列方式太複雜是否有影響,有人修改成簡單3x3排列也認錯很多。

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤圖片

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤圖片

有人把其中一些圖拆出來單獨發給GPT- 4,得到了5/5的正確率。

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤圖片

Xin Eric Wang認為,將這些容易混淆的圖像放在一起正是這個挑戰的核心

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤#圖片

最終,有人成功地同時運用了讓人工智慧「深呼吸」和「一步一步地思考」的兩個關鍵技巧,並獲得了正確的結果

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤圖片

GPT-4在答案中的用詞“這是視覺雙關或著名梗圖的一個例子”,也暴露了原圖確實可能存在於訓練資料裡。重新表述如下:然而,GPT-4在其回答中使用了:“這是一個視覺雙關或著名梗圖的例子”,這也揭示了原始圖片可能確實存在於訓練數據中

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤圖片

最後也有人測試了經常一起出現的「泰迪or炸雞」測試,發現GPT-4也不能很好分辨。

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤圖片

這個「藍莓或巧克力豆」實在有點過分…

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤圖片

視覺幻覺成熱門方向

大模型「胡說八道」在學術界被稱為幻覺問題,多模態大模型的視覺幻覺問題,已經成了最近研究的熱門方向。

在EMNLP 2023的一項研究中,我們創建了GVIL資料集,其中包含了1600個資料點,並對視覺幻覺問題進行了系統評估

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤 #圖片

研究表明,較大規模的模型更容易受到錯覺的影響,並且更接近人類的感知

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤圖片

#另一項最新研究的重點是評估兩種幻覺類型:偏差和乾擾

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤#圖片

  • 偏差指模型傾向於產生某些類型的反應,可能是由於訓練資料的不平衡所造成的。
  • 幹擾則是可能因文字提示的措詞方式或輸入圖像的呈現方式造成去別的場景。

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤圖片

研究中指出GPT-4V一起解釋多個影像時經常會困惑,單獨發送影像時表現較好,符合“吉娃娃or鬆餅”測試中的觀察結果。

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤圖片

流行的緩解措施,如自我糾正和思維鏈提示,並不能有效解決這些問題,並且測試顯示LLaVA和Bard等多模態模型也存在類似的問題

另外研究也發現,GPT-4V更擅長解釋西方文化背景的圖像或帶有英文文字的圖像。

例如GPT-4V能正確數出七個小矮人 白雪公主,卻把七個葫蘆娃數成了10個。

GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤圖片

參考連結:[1]https://twitter.com/xwang_lk/status/1723389615254774122[2]https://arxiv. org/abs/2311.00047[3]https://arxiv.org/abs/2311.03287

以上是GPT-4被爆作弊! LeCun呼籲謹慎在訓練集上測試,吉娃娃or鬆餅的順序混亂導致錯誤的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除