新闻中心

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力

2024-03-04
浏览次数:
返回列表

图神经网络(gnns)善于利用图的结构信息进行推断,但通常需要进行特定领域的调优,以实现最佳性能,这使得它们在不同任务之间的泛化能力受到限制。

大型语言模型(LLM)在图推理方面具有更强的跨任务和泛化能力,但通常在特定任务上表现不如专用的图神经网络模型。

当前图推理相关研究往往忽略了视觉信息在图推理中的重要性,无论是传统的图神经网络还是基于大型语言模型的图推理方法。

然而,人类会通过视觉特征高效和准确地完成图任务,例如判断图中是否存在环。

因此,探究视觉形态的图信息在图推理中的作用具有重要意义。

更具体地,将图(Graph)绘制为图片(Image),是否能赋予模型特殊的推理能力呢?这些图片(称为视觉图 Visual Graph)是否能增强现有的基于其他模态的图推理模型呢?

为了回答这些问题,来自香港科技大学和南方科技大学的研究团队构建了首个包含视觉图的推理问答数据集GITQA,并在GPT-4 turbo,GPT-4V等开源模型和Vicuna,LLaVA等闭源模型上进行了广泛的实验,证实了Visual Graph在图推理中的作用,以及其可以和文本模态相互增强。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

论文地址:https://arxiv.org/abs/2402.02130

项目主页:https://v-graph.github.io/

在GITQA测试基准中,以LLaVA-7B/13B为基础微调出的多模态模型GITA-7B/13B,展示出了超越GPT-4V的图推理性能。

GITQA 多模态图推理问答数据集

研究团队通过将图结构绘制为不同风格的视觉图像,建立了GITQA数据集及其相应的测试基准,GITQA数据集包含超过423K个问答实例,每个实例包含相互对应的图结构-文本-视觉信息及其相应的问答对。

GITQA数据集包含两个版本:GITQA-Base和GITQA-Aug,其中GITQA-Base只包含单一风格的视觉图。

GITQA-Aug则更加丰富,它对视觉图进行了多种数据增强处理,包括改变布局、点的形状、边的宽度和点的风格等,从而提供了更多样化的视觉图表现。

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

如图1,GITQA测试基准包含8个具有代表性的图推理任务:Connectivity(判断图中两点是否联通)、Cycle(判断图中是否有环)、TS(寻找图的拓扑序)、 SP(寻找图中两点间的最短路径)、 MaxFlow(计算图中两点间的最大流)、 BGM(计算二分图的最大匹配)、 HP(寻找图中的哈密顿路径)和GNN(模拟GNN的消息传递)。

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

每个任务所对应的数据集都被按照图结构的复杂程度被划分为不同难度等级的子集(相关统计如表1)。

实验及结果

实验一: 基于不同模态图信息的模型的图推理能力对比

研究团队在GITQA-Base数据集上,根据不同的模态图输入类型(包括仅文本(T-Only)、仅视觉(V-Only)、以及文本加视觉(V+T)),评估了流行的闭源和开源大型语言模型(如GPT-4 turbo和Vicuna-7B/13B)以及大型多模态语言模型(如GPT-4V和LLaVA-7B/13B)的表现。如图2所示。

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

具体来说,闭源模型GPT-4和GPT-4V执行零样本推理,而对于开源模型Vicuna和LLaVA,则通过保持主干模型参数不变,仅训练Projector和LoRA部分进行了微调(特别地,视觉+文本双模态微调后的LLaVA模型被研究者命名为GITA)。

表2总结了所有八项图推理任务的测试结果。

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

视觉模态 V.S. 文本模态

从表2中可以看到,在Cycle和BGM任务上,视觉模态的表现优于文本模态,而在其他五个任务上则不如文本模态。这揭示了视觉和文本在处理特定类型的图推理任务上各具优势。视觉和文本模态的相互增强

对于闭源模型,GPT-4V(V+T)在八个任务的平均准确率上远高于GPT-4 Turbo(T-only)和GPT-4V(V-only)。

刺鸟创客 刺鸟创客

一款专业高效稳定的AI内容创作平台

刺鸟创客 110 查看详情 刺鸟创客

对于开源模型(7B,13B),同样地,使用双模态数据训练出的GITA模型平均表现最佳。这些观察结果验证了同时使用视觉和文本信息能够增强模型的图推理能力,相比单模态模型可以实现更好的性能。

更具体地说,GITA-7B(V+T)在几乎所有任务中表现优于LLaVA-7B(V-only)和Vicuna-7B(T-only)。而对于闭源模型,使用双模态在八个任务中的五个上达到了最高准确率。微调后的LLaVA模型可超越GPT-4V

如表2和图3所示,GITA-7B和GITA-13B模型,即经过双模态微调的LLaVA-7B/13B模型,显示出相较于GPT-4V超过13%的显著性能提升。这一巨大的进步幅度表明,微调后的GITA模型能够有效地从GITQA数据集中学习到出色的图推理能力。

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

实验二:难度等级对图任务的影响

表3进一步给出了模型在不同难度级别上的测试精度,GNN任务由于对所有模型都太具挑战被省略)。

在所有难度级别的Cycle和BGM任务中,单独使用视觉模态的表现优于文本模态,并且与使用两种模态的表现相当。

然而,对于其他任务,当难度从简单增加到中等或困难时,只使用视觉模态的模型的性能显著下降。

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

同样,当难度增加时,只使用文本模态和使用视觉+文本模态的模型在这些任务上也会出现大幅度的性能下降。

对于Connectivity任务,GITA-7B(视觉+文本)和GITA-13B(视觉+文本)在所有三个挑战级别上都表现出相当的性能。

然而,这种一致的模式在GPT-4V(视觉+文本)中并未观察到,因为其性能随着难度级别的增加而下降。

实验三: 视觉图的增强策略和风格偏好

研究团队还探究了特别的数据增强策略在微调模型时的效果。

基于不同的增强策略,研究者将GITQA-Aug数据集划分为四个增强子集: 布局增强数据集,节点形状增强数据集,边的宽度增强数据集,节点风格增强数据集。

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

研究者在仅使用视觉图信息的LLaVA-7B模型上对全部四个增强子集进行了单独的微调,其推理性能与数据增强前的比较如表4所示。

可以明显看出,模型在布局增强数据集上对于挑战性任务的推理能力急剧提升(SP 上升64.8%,HP上升69.63%)。

而其他三种数据增强策略反而导致性能下降。

具体来说,模型在布局增强集上取得了优异的结果,比GITQA-Base集高出11%以上。相比之下,其他增广集中八个任务的平均结果比基本集低约5%

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力图片

这些发现表明基于布局的数据增强为图推理提供了更有效的视觉视角。进一步,研究者还测试了各个增强策略下,在同组内基于每种风格的Visual Graph推理的性能,如表5所示,展示出模型没有明显的风格偏好。

以上就是7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力的详细内容,更多请关注其它相关文章!


# 训练  # 网站优化多长时间  # 视频网站建设讯息  # 江苏seo怎么做公司  # 媒体seo优化质量保障  # 稳定的产品营销推广  # 山西进口网站建设指导  # 鸡西网站seo优化网站  # 关键词seo排名贰金手指科杰四  # 多模  # 两点  # 出了  # 双模  # 进行了  # 所示  # 开源  # 图中  # 科大  # 模态  # 模型  # 苏州抖音seo作品公司  # 网站联盟推广案例分享 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 显示器上power键是什么意思  什么是域名解析地址  今天是农历多少号  苹果16系统网站有哪些  春运抢票技巧攻略  本科一批和本科二批是什么意思  系统如何装在固态硬盘  夸克为什么老是投屏失败  春运抢票在哪儿抢票  如何ping测试命令  焊机上power指示灯亮是什么意思  如何以管理员身份打开cmd命令行窗口  单片机怎么定义字符长度  linux如何调出命令行  如何发挥固态硬盘性能  为什么都用typescript  新网站如何填写域名解析  单片机蓝牙怎么开启设备  华为的nfc功能是什么意思  移动固态硬盘如何使用  typescript文件怎么打开  命令不执行如何处理  国标控制器单片机怎么接线  typescript多久能学会  为什么夸克无法注销账户  电焊机power灯亮是什么意思  固态硬盘质量如何  dos命令 如何将变量 作为路径的一部分  ai如何重复使用上一命令  为什么用typescript  typescript怎么写call方法  为什么学typescript  对应市盈率是30X是什么意思  debug中如何用n命令命名程序文件名  oracle中datediff函数怎么用 Oracle中DATEDIFF函数详解  春运车票啥时候可以抢票  命令指示符如何打开盘符  win7怎么装扫描仪  计数器上power是什么意思  如何安装笔记本固态硬盘  为什么程序员热爱typescript  j*a map数组怎么取值  8k是多少钱  为什么ai老是说链接面板中缺少某些文件  学typescript有什么用  折叠屏手机为什么凉凉  春运辅助抢票怎么抢  react怎么使用 typescript  如何4k对齐固态硬盘  单片机串口接收怎么实现 

搜索