图神经网络(GNNs)善于利用图的结构信息进行推断,但通常需要进行特定领域的调优,以实现最佳性能,这使得它们在不同任务之间的泛化能力受到限制。
大型语言模型(LLM)在图推理方面具有更强的跨任务和泛化能力,但通常在特定任务上表现不如专用的图神经网络模型。
当前图推理相关研究往往忽略了视觉信息在图推理中的重要性,无论是传统的图神经网络还是基于大型语言模型的图推理方法。
然而,人类会通过视觉特征高效和准确地完成图任务,例如判断图中是否存在环。
因此,探究视觉形态的图信息在图推理中的作用具有重要意义。
更具体地,将图(Graph)绘制为图片(Image),是否能赋予模型特殊的推理能力呢?这些图片(称为视觉图 Visual Graph)是否能增强现有的基于其他模态的图推理模型呢?
为了回答这些问题,来自香港科技大学和南方科技大学的研究团队构建了首个包含视觉图的推理问答数据集GITQA,并在GPT-4 turbo,GPT-4V等开源模型和Vicuna,LLaVA等闭源模型上进行了广泛的实验,证实了Visual Graph在图推理中的作用,以及其可以和文本模态相互增强。
图片
论文地址:https://arxiv.org/abs/2402.02130
项目主页:https://v-graph.github.io/
在GITQA测试基准中,以LLaVA-7B/13B为基础微调出的多模态模型GITA-7B/13B,展示出了超越GPT-4V的图推理性能。
GITQA 多模态图推理问答数据集
研究团队通过将图结构绘制为不同风格的视觉图像,建立了GITQA数据集及其相应的测试基准,GITQA数据集包含超过423K个问答实例,每个实例包含相互对应的图结构-文本-视觉信息及其相应的问答对。
GITQA数据集包含两个版本:GITQA-Base和GITQA-Aug,其中GITQA-Base只包含单一风格的视觉图。
GITQA-Aug则更加丰富,它对视觉图进行了多种数据增强处理,包括改变布局、点的形状、边的宽度和点的风格等,从而提供了更多样化的视觉图表现。
图片
如图1,GITQA测试基准包含8个具有代表性的图推理任务:Connectivity(判断图中两点是否联通)、Cycle(判断图中是否有环)、TS(寻找图的拓扑序)、 SP(寻找图中两点间的最短路径)、 MaxFlow(计算图中两点间的最大流)、 BGM(计算二分图的最大匹配)、 HP(寻找图中的哈密顿路径)和GNN(模拟GNN的消息传递)。
图片
每个任务所对应的数据集都被按照图结构的复杂程度被划分为不同难度等级的子集(相关统计如表1)。
实验及结果
实验一: 基于不同模态图信息的模型的图推理能力对比
研究团队在GITQA-Base数据集上,根据不同的模态图输入类型(包括仅文本(T-Only)、仅视觉(V-Only)、以及文本加视觉(V+T)),评估了流行的闭源和开源大型语言模型(如GPT-4 turbo和Vicuna-7B/13B)以及大型多模态语言模型(如GPT-4V和LLaVA-7B/13B)的表现。如图2所示。
图片
具体来说,闭源模型GPT-4和GPT-4V执行零样本推理,而对于开源模型Vicuna和LLaVA,则通过保持主干模型参数不变,仅训练Projector和LoRA部分进行了微调(特别地,视觉+文本双模态微调后的LLaVA模型被研究者命名为GITA)。
表2总结了所有八项图推理任务的测试结果。
图片
视觉模态 V.S. 文本模态
从表2中可以看到,在Cycle和BGM任务上,视觉模态的表现优于文本模态,而在其他五个任务上则不如文本模态。这揭示了视觉和文本在处理特定类型的图推理任务上各具优势。视觉和文本模态的相互增强
对于闭源模型,GPT-4V(V+T)在八个任务的平均准确率上远高于GPT-4 Turbo(T-only)和GPT-4V(V-only)。
对于开源模型(7B,13B),同样地,使用双模态数据训练出的GITA模型平均表现最佳。这些观察结果验证了同时使用视觉和文本信息能够增强模型的图推理能力,相比单模态模型可以实现更好的性能。
更具体地说,GITA-7B(V+T)在几乎所有任务中表现优于LLaVA-7B(V-only)和Vicuna-7B(T-only)。而对于闭源模型,使用双模态在八个任务中的五个上达到了最高准确率。微调后的LLaVA模型可超越GPT-4V
如表2和图3所示,GITA-7B和GITA-13B模型,即经过双模态微调的LLaVA-7B/13B模型,显示出相较于GPT-4V超过13%的显著性能提升。这一巨大的进步幅度表明,微调后的GITA模型能够有效地从GITQA数据集中学习到出色的图推理能力。
图片
实验二:难度等级对图任务的影响
表3进一步给出了模型在不同难度级别上的测试精度,GNN任务由于对所有模型都太具挑战被省略)。
在所有难度级别的Cycle和BGM任务中,单独使用视觉模态的表现优于文本模态,并且与使用两种模态的表现相当。
然而,对于其他任务,当难度从简单增加到中等或困难时,只使用视觉模态的模型的性能显著下降。
图片
同样,当难度增加时,只使用文本模态和使用视觉+文本模态的模型在这些任务上也会出现大幅度的性能下降。
对于Connectivity任务,GITA-7B(视觉+文本)和GITA-13B(视觉+文本)在所有三个挑战级别上都表现出相当的性能。
然而,这种一致的模式在GPT-4V(视觉+文本)中并未观察到,因为其性能随着难度级别的增加而下降。
实验三: 视觉图的增强策略和风格偏好
研究团队还探究了特别的数据增强策略在微调模型时的效果。
基于不同的增强策略,研究者将GITQA-Aug数据集划分为四个增强子集: 布局增强数据集,节点形状增强数据集,边的宽度增强数据集,节点风格增强数据集。
图片
研究者在仅使用视觉图信息的LLaVA-7B模型上对全部四个增强子集进行了单独的微调,其推理性能与数据增强前的比较如表4所示。
可以明显看出,模型在布局增强数据集上对于挑战性任务的推理能力急剧提升(SP 上升64.8%,HP上升69.63%)。
而其他三种数据增强策略反而导致性能下降。
具体来说,模型在布局增强集上取得了优异的结果,比GITQA-Base集高出11%以上。相比之下,其他增广集中八个任务的平均结果比基本集低约5%
图片
这些发现表明基于布局的数据增强为图推理提供了更有效的视觉视角。进一步,研究者还测试了各个增强策略下,在同组内基于每种风格的Visual Graph推理的性能,如表5所示,展示出模型没有明显的风格偏好。
以上是7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力的详细内容。更多信息请关注PHP中文网其他相关文章!

生成AI:您的10个基本Reddit社区的指南 生成的AI正在迅速发展,新模型不断出现。 保持更新至关重要,Reddit提供专门针对该领域的充满活力的社区。本文凸显了T

介绍 人工智能(AI)已迅速整合到各种工作场所中,这是由于AI研发和开发的大量投资所推动。 AI的应用程序范围很广,从虚拟助手等简单任务到com

介绍 在数据库的领域中,零值通常会带来独特的挑战。 代表缺失,未定义或未知数据,它们可能使数据管理和分析复杂化。考虑一个缺少客户反馈或orde的销售数据库

利用Google Gemini在Tableau仪表板上的力量:AI驱动的增强 Tableau的强大可视化功能,跨越数据准备(Tableau Prep Builder),数据讲故事(Tableau Desktop)和协作共享(TABL)

解锁向量嵌入的力量:生成AI指南 想象一下,向不说您的语言的人解释抹布(检索增强一代) - 一项艰巨的任务,对吗? 现在考虑机器,这也很难“

介绍 想象一下,搜索一个庞大的图书馆,里面包含包含嵌套书籍的书籍。 要查找特定信息,您可能需要先咨询较小的书籍,然后使用该信息来找到较大的书籍。这说明了concep

SQL其中条款:综合指南 SQL中的子句是SQL语句的基本组成部分,用于过滤记录和从数据库中检索特定数据。 想象一个庞大的客户数据库 - Where子句允许您固定

对于那些可能是我专栏新手的人,我广泛探讨了AI的最新进展,包括体现AI,AI推理,AI中的高科技突破,及时的工程,AI培训,AI,AI RE RE等主题


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

禅工作室 13.0.1
功能强大的PHP集成开发环境

SublimeText3汉化版
中文版,非常好用

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),