圖神經網路(GNNs)善於利用圖的結構資訊進行推斷,但通常需要進行特定領域的調優,以實現最佳性能,這使得它們在不同任務之間的泛化能力受到限制。
大型語言模型(LLM)在圖推理方面具有更強的跨任務和泛化能力,但通常在特定任務上表現不如專用的圖神經網路模型。
目前圖推理相關研究往往忽略了視覺訊息在圖推理中的重要性,無論是傳統的圖神經網路還是基於大型語言模型的圖推理方法。
然而,人類會透過視覺特徵有效且準確地完成圖任務,例如判斷圖中是否存在環。
因此,探究視覺形態的圖資訊在圖推理中的作用具有重要意義。
更具體地,將圖(Graph)繪製為圖片(Image),是否能賦予模型特殊的推理能力呢?這些圖片(稱為視覺圖 Visual Graph)是否能增強現有的基於其他模態的圖推理模型呢?
為了回答這些問題,來自香港科技大學和南方科技大學的研究團隊構建了首個包含視覺圖的推理問答資料集GITQA,並在GPT-4 turbo,GPT-4V等開源模型和Vicuna,LLaVA等閉源模型上進行了廣泛的實驗,證實了Visual Graph在圖推理中的作用,以及其可以和文本模態相互增強。
圖片
#論文網址:https://arxiv.org/abs/2402.02130
#計畫首頁:https://v-graph.github.io/
在GITQA測試基準中,以LLaVA-7B/13B為基礎微調出的多模態模型GITA-7B/13B,展示了超越GPT-4V的圖推理表現。
GITQA 多模態圖推理問答資料集
研究團隊透過將圖結構繪製為不同風格的視覺圖像,建立了GITQA資料集及其對應的測試基準,GITQA資料集包含超過423K個問答實例,每個實例包含相互對應的圖結構-文字-視覺資訊及其對應的問答對。
GITQA資料集包含兩個版本:GITQA-Base和GITQA-Aug,其中GITQA-Base只包含單一風格的視覺圖。
GITQA-Aug則更加豐富,它對視覺圖進行了多種資料增強處理,包括改變佈局、點的形狀、邊的寬度和點的風格等,從而提供了更多樣化的視覺圖表現。
圖片
如圖1,GITQA測試基準包含8個代表性的圖推理任務:Connectivity(判斷圖中兩點是否聯通)、Cycle(判斷圖中是否有環)、TS(尋找圖的拓樸序)、 SP(尋找圖中兩點間的最短路徑)、 MaxFlow(計算圖中兩點間的最大流)、 BGM(計算二分圖的最大匹配)、 HP(尋找圖中的哈密頓路徑)和GNN(模擬GNN的訊息傳遞)。
圖片
每個任務所對應的資料集都被依照圖結構的複雜程度被劃分為不同難度等級的子集(相關統計如表1)。
實驗及結果
實驗一: 基於不同模態圖資訊的模型的圖推理能力對比
研究團隊在GITQA-Base資料集上,根據不同的模態圖輸入類型(包括僅文字(T-Only)、僅視覺(V-Only)、以及文字加視覺(V T)),評估了流行的閉源和開源大型語言模型(如GPT-4 turbo和Vicuna-7B/13B)以及大型多模態語言模型(如GPT-4V和LLaVA-7B/13B)的表現。如圖2所示。
圖片
具體來說,閉源模型GPT-4和GPT-4V執行零樣本推理,而對於開源模型Vicuna和LLaVA,則透過保持主幹模型參數不變,僅訓練Projector和LoRA部分進行了微調(特別地,視覺文字雙模態微調後的LLaVA模型被研究者命名為GITA)。
表2總結了所有八項圖推理任務的測試結果。
圖片
視覺模式V.S.文字模態
從表2可以看到,在Cycle和BGM任務上,視覺模態的表現優於文字模態,而在其他五個任務上則不如文字模態。這揭示了視覺和文字在處理特定類型的圖推理任務上各具優勢。視覺和文字模態的相互增強
對於閉源模型,GPT-4V(V T)在八個任務的平均準確率上遠高於GPT-4 Turbo(T-only)和GPT-4V (V-only)。
對於開源模型(7B,13B),同樣地,使用雙模態資料訓練出的GITA模型平均表現最佳。這些觀察結果驗證了同時使用視覺和文字資訊能夠增強模型的圖推理能力,相比單模態模型可以實現更好的性能。
更具體地說,GITA-7B(V T)在幾乎所有任務中都表現優於LLaVA-7B(V-only)和Vicuna-7B(T-only)。而對於閉源模型,使用雙模態在八個任務中的五個達到了最高準確率。微調後的LLaVA模型可超越GPT-4V
如表2和圖3所示,GITA-7B和GITA-13B模型,即經過雙模態微調的LLaVA-7B/13B模型,顯示出相較於GPT-4V超過13%的顯著性能提升。這一巨大的進步幅度表明,微調後的GITA模型能夠有效地從GITQA資料集中學習到出色的圖推理能力。
圖片
實驗二:難度等級對圖表任務的影響
表3進一步給出了模型在不同難度等級上的測試精度,GNN任務由於對所有模型都太具挑戰被省略)。
在所有難度等級的Cycle和BGM任務中,單獨使用視覺模態的表現都優於文字模態,並且與使用兩種模態的表現相當。
然而,對於其他任務,當難度從簡單增加到中等或困難時,只使用視覺模態的模型的表現顯著下降。
圖片
同樣,當難度增加時,只使用文字模態和使用視覺文字模態的模型在這些任務上也會出現大幅度的效能下降。
對於Connectivity任務,GITA-7B(視覺 文字)和GITA-13B(視覺 文字)在所有三個挑戰等級上都表現出相當的表現。
然而,這種一致的模式在GPT-4V(視覺 文字)中並未觀察到,因為其表現隨著難度等級的增加而下降。
實驗三: 視覺圖的增強策略與風格偏好
研究團隊也探討了特別的資料增強策略在微調模型時的效果。
基於不同的增強策略,研究者將GITQA-Aug資料集劃分為四個增強子集: 佈局增強資料集,節點形狀增強資料集,邊的寬度增強數據集,節點風格增強資料集。
圖片
研究者在僅使用視覺圖資訊的LLaVA-7B模型上對全部四個增強子集進行了單獨的微調,其推理表現與資料增強前的比較如表4所示。
可以明顯看出,模型在佈局增強資料集上對於挑戰性任務的推理能力急劇提升(SP 上升64.8%,HP上升69.63%)。
而其他三種資料增強策略反而導致效能下降。
具體來說,模型在佈局增強集上取得了優異的結果,比GITQA-Base集高出11%以上。相較之下,其他增廣集中八個任務的平均結果比基本集低約5%
圖片
這些發現表明基於佈局的資料增強為圖推理提供了更有效的視覺視角。進一步,研究者也測試了各個增強策略下,在同組內基於每種風格的Visual Graph推理的性能,如表5所示,展示模型沒有明顯的風格偏好。
以上是7B模型超越GPT4-V!港科大等發布「圖推理問答」資料集GITQA:視覺圖可提升推理能力的詳細內容。更多資訊請關注PHP中文網其他相關文章!

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

Dreamweaver Mac版
視覺化網頁開發工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。