OpenAI的GPT-4V和Google的Gemini多模態大語言模型引起了業界和學界的廣泛關注。這些模型在多個領域展示了對影片的深入理解能力,從不同角度呈現了其潛力。人們普遍認為這些進展是通往通用人工智慧(AGI)的重要一步。
可如果告訴你,GPT-4V連漫畫中的人物行為都會看錯, 試問:元芳,你怎麼看?
我們來看看這幅迷你漫畫系列:
#圖片
##如果讓生物界最高智能體-人類,也就是讀者朋友來描述, 你大概率會說:
#圖片那我們來看看當機器界最高智能體-也就是GPT-4V來看這幅迷你漫畫系列的時候,它會這麼描述呢?
圖片#GPT-4V作為公認的站在鄙視鏈頂端的機器智能體,居然公然睜眼說瞎話。
還有更離譜的是,就算給GPT-4V實際的生活圖像片段,它也會把一個人上樓梯過程中與另一個人交談的行為也離譜的識別成兩個人手持“武器」互相打架嬉鬧(如下圖)。
圖片Gemini也不遑多讓,同樣的圖像片段,把這個過程看成了男子艱難上樓並與妻子爭吵被鎖在屋裡。
圖片這些例子都來自於馬裡蘭大學聯合北卡教堂山的研究團隊的最新成果,他們推出了一個專門為MLLM設計的圖像序列的推理基準測試—Mementos。
就像諾蘭的電影《Memento記憶片段》重新定義了敘事方式,Mementos正在重塑測試人工智慧的上限。
作為一個全新的基準測試,它挑戰的是人工智慧對如記憶碎片般的圖像序列的理解。
圖片論文連結:https://arxiv.org/abs/2401.10529
專案首頁:https://mementos -bench.github.io
Mementos是第一個專為MLLM設計的圖像序列推理的基準測試,主要關注大模型在連續圖像上的對象幻覺和行為幻覺。
其涉及的圖片類型多樣,涵蓋三大類別:真實世界圖像,機器人圖像,以及動漫圖像。
並且包含了4,761個不同長度的多樣化影像序列,每個序列都配有人類註釋的主要物件及其在序列中的行為描述。
圖片幻覺類型
作者在論文中闡述了MLLM在Mementos中會產生的兩種幻覺:物件幻覺(object hallucination)和行為幻覺(behavior hallucination) 。
評估方式
###對於如何準確的評估MLLM在Mementos上的行為幻覺和物件幻覺,研究團隊選擇了將MLLM產生的圖像描述和人標註的描述進行關鍵字配對。 ###為了自動化評測每一個MLLM的表現,作者採用了GPT-4輔助測試的方法來進行評估:
圖片
1.作者將圖像序列和提示詞作為輸入給MLLM,並產生與對應圖像序列對應的描述;
2. 請求GPT-4提取AI生成描述中的物件和行為關鍵字;
3. 取得兩個關鍵字清單:AI產生的物件關鍵字清單和AI產生的行為關鍵字清單;
4. 計算AI產生的物件關鍵字清單和行為關鍵字清單和人的標註的關鍵字表的召回率、準確率和F1指標。
作者在Mementos上評估了MLLMs在序列影像推理方面的表現,並對包括GPT4V和Gemini在內的九種最新的MLLMs進行了細緻的評估。
MLLM被要求來描述影像序列中正在發生的事件,從而來測評MLLM對於連續影像的推理能力。
結果發現,如下圖所示,GPT-4V和Gemini對於人物行為在漫畫資料集的正確率竟然不到20%。
圖片
而在真實世界影像和機器人影像中,GPT-4V和Gemini的表現也不盡如人意:
圖片
#1. 在評估多模態大型語言模型時,GPT-4V和LLaVA-1.5分別是在黑盒和開源MLLMs中表現最好的模型。 GPT-4V在理解影像序列方面的推理能力優於其他所有MLLMs,而LLaVA-1.5在物件理解方面幾乎與黑盒模型Gemini相當或甚至超越。
2. 雖然Video-LLaMA-2和Chat-UniVi是為視訊理解設計的,但它們並沒有顯示出比LLaVA-1.5更好的優勢。
3. 所有MLLMs在影像序列中物件推理的三個指標上表現顯著優於行為推理,表明當前MLLMs在從連續影像中自主推斷行為的能力不強。
4. 黑盒模型在機器人領域的表現最佳,而開源模型在日常生活領域表現相對較好。這可能與訓練資料的分佈偏移有關。
5. 訓練資料的限制導致開源MLLMs的推理能力較弱。這顯示了訓練資料的重要性以及它對模型表現的直接影響。
作者對目前多模態大型語言模型在處理影像序列推理時失敗的原因的分析,主要識別了三個錯誤原因:
1. 物件與行為幻覺之間的交互作用
#研究假設,錯誤的物件辨識會導致隨後的行為辨識不準確。量化分析和案例研究表明,對象幻覺會在一定程度上導致行為幻覺。例如,當MLLM錯誤地將場景識別為網球場後,可能會描述人物正在打網球,即使這種行為在影像序列中並不存在。
2. 共現對行為幻覺的影響
MLLM傾向於產生在影像序列推理中常見的行為組合,這加劇了行為幻覺的問題。例如,在處理機器人領域的圖像時,MLLM可能錯誤地描述一個機器人手臂在「抓取把手」之後拉開抽屜,即使實際行為是「抓取抽屜的側面」。
3. 行為幻覺的雪球效應
#隨著影像序列的進行,錯誤可能會逐漸累積或加劇,稱為雪球效應。在影像序列推理中,如果早期出現錯誤,這些錯誤可能會在序列中累積和放大,導致物件和行為識別的準確性下降。
#圖片
從上圖可知,MLLM失敗原因包括對象幻覺以及對象幻覺與行為幻覺之間的相關性,以及共現行為。
#例如,在出現「網球場」的對象幻覺後,MLLM隨後展現出「拿著網球拍」的行為幻覺(對象幻覺與行為幻覺之間的相關性)以及「似乎在打網球」的共現行為。
圖片
#觀察上圖中的樣本,可以發現MLLM錯誤地認為椅子再往後仰並且認為椅子碎掉了。
這現象揭示了MLLM對於影像序列中的靜止的對象,它也會產生這個物件發生了某些動作的幻覺。
圖片
#在上圖關於機械手臂的圖像序列展示中,機械手臂伸到了把手旁邊,MLLM就錯誤地認為機械手臂抓住了把手,證明了MLLM會產生在影像序列推理中常見的行為組合,從而產生幻覺。
圖片
#在上圖的案例中,老夫子並沒有牽著狗,MLLM錯誤地認為遛狗就要牽著狗,並且「狗的撐竿跳」被辨識成了「創造了噴泉」。
大量的錯誤反映了MLLM對於漫畫領域的不熟悉,在二次元動漫領域,MLLM可能需要大幅度的最佳化和預訓練.
在附錄中,作者透過詳細展示了各主要類別中的失敗案例,並進行了深入的分析。
近年來,多模態大型語言模型在處理各種視覺-語言任務上展現出了卓越的能力。
這些模型,如GPT-4V和Gemini,能夠理解和產生與圖像相關的文本,極大地推動了人工智慧技術的發展。
然而,現有的MLLM基準測試主要集中在基於單張靜態圖像的推理,而對於從圖像序列中推斷,這對於理解我們不斷變化的世界至關重要,的能力研究相對較少。
為了解決這個挑戰,研究人員提出了一種新的基準測試「Mementos」,目的是評估MLLMs在序列影像推理方面的能力。
Mementos包含了4761個不同長度的多樣化影像序列。此外,研究團隊也採用了GPT-4輔助方法來評估MLLM的推理表現。
透過對九個最新的MLLMs(包括GPT-4V和Gemini)在Mementos上的仔細評估,研究發現這些模型在準確描述給定圖像序列的動態資訊方面存在挑戰,常常導致物體及其行為的幻覺/誤表達。
量化分析和案例研究識別出三個關鍵因素影響MLLMs的序列圖像推理:
1. 物件和行為幻覺之間的相關性;
2. 共現行為的影響;
3. 行為幻覺的累積影響。
這項發現對於理解和提升MLLMs在處理動態視覺訊息方面的能力具有重要意義。 Mementos基準不僅揭示了當前MLLMs的局限性,也為未來的研究和改進提供了方向。
隨著人工智慧技術的快速發展,MLLMs在多模態理解領域的應用將變得更加廣泛和深入。 Mementos基準測試的引入,不僅推動了這一領域的研究,也為我們提供了新的視角,去理解和改進這些先進的AI系統如何處理和理解我們複雜多變的世界。
參考資料:
https://github.com/umd-huanglab/Mementos
#以上是準確率不足20%,GPT-4V/Gemini竟看不懂漫畫!首個影像序列基準測試開源的詳細內容。更多資訊請關注PHP中文網其他相關文章!