新闻中心

GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%

2023-11-21
浏览次数:
返回列表

gpt-4的图形推理能力,竟然连人类的一半都不到?

美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有33%

GPT-4v是具备多模态能力的,但其表现相对较差,只能正确回答25%的题目

GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%

△虚线表示16项任务的平均表现

这项实验结果一经发布,立即在YC上引起了广泛的讨论

一些支持这一结果的网友表示,GPT确实在处理抽象图形方面表现不佳,对于“位置”、“旋转”等概念的理解更加困难

GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%

然而,一些网友对这个结论表示怀疑,他们的观点可以简单概括为:

这个观点虽然不能说是错的,但是也无法完全让人信服

GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%

至于具体的原因,我们继续往下看。

GPT-4准确率仅33%

为了评估人类和GPT-4在这些图形题上的表现,研究者利用了今年5月推出的ConceptARC数据集

ConceptARC中一共包括16个子类的图形推理题,每类30道,一共480道题目。

GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%

这16个子类包含了位置关系、形状、操作、比较等多个方面的内容

具体来说,这些题目都是由一个个像素块组成的。人类和GPT需要根据给定的示例来寻找规律,并分析出图像经过相同方式处理后的结果

作者在论文中具体展示了这16个子类的例题,每类各一道。

GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%
GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%
GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%

结果451名人类受试者平均正确率,在各子项中均不低于83%,16项任务再做平均,则达到了91%。

在“放水”到一道题可以试三次(有一次对就算对)的情况下,GPT-4(单样本)的准确率最高不超过60%,平均值只有33%

GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%

早些时候,这项实验涉及的ConceptARC Benchmark的作者也做过类似的实验,不过在GPT-4中进行的是零样本测试,结果16项任务的平均准确率只有19%。

GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%

GPT-4v是一种多模态的模型,但准确率却较低。在一个由48道题组成的小规模ConceptARC数据集上,零样本测试和单样本测试的准确率分别只有25%和23%

GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%

而研究者在进一步分析了错误答案后,发现人类的有些错误看上去很可能是“粗心导致”,而GPT则是完全没有理解题目中的规律

GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%

对于这些数据,大多数网友没有什么疑问,但引起这个实验备受质疑的是招募到的受试者群体以及提供给GPT的输入方式

受试者选择方式遭质疑

一开始,研究者在亚马逊的一个众包平台上招募受试者。

研究者从数据集中抽取了一些简单题目作为入门测试,受试者需要答对随机3道题目中的至少两道才能进入正式测试

研究人员发现的结果显示,有些人只是出于贪图金钱的目的参加入门测试,而根本没有按照要求完成题目

迫不得已,研究者将参加测试的门槛上调到了在平台上完成过不少于2000个任务,且通过率要达到99%。

挖错网 挖错网

一款支持文本、图片、视频纠错和AIGC检测的内容审核校对平台。

挖错网 185 查看详情 挖错网

不过,虽然作者用通过率筛人,但是在具体能力上,除了需要受试者会英语,对图形等其他专业能力“没有特殊要求”

为了实现数据的多样性,研究人员在实验的后期将招募工作转移到了另一个众包平台上。最终,共有415名被试者参与了这项实验

尽管如此,还是有人质疑实验中的样本“不够随机”。

GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%

还有网友指出,研究者用来招募受试者的亚马逊众包平台上,有大模型在冒充人类

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%

多模态版本的GPT操作相对简单,只需直接传入图片,并使用相应的提示词即可

GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%

在零样本测试中,只需删除相应的EXAMPLE部分

但对于不带多模态的纯文本版GPT-4(0613),则需要把图像转化为格点,用数字来代替颜色

GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%

针对这种操作,就有人表示不认同了:

把图像转换成数字矩阵后,概念完全变了,就算是人类,看着用数字表示的“图形”,可能也无法理解

GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%

One More Thing

无独有偶,斯坦福大学的华裔博士生Joy Hsu也对GPT-4v的图形理解能力进行了几何数据集的测试

去年发布了一个数据集,旨在测试大型模型对欧氏几何的理解。在GPT-4v开放后,Hsu再次使用该数据集对其进行了测试

结果发现,GPT-4v对图形的理解方式,似乎“和人类完全不同”。

GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%

在数据方面,GPT-4v在回答这些几何问题上明显不如人类

GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%

论文地址:
[1]https://arxiv.org/abs/2305.07141
[2]https://arxiv.org/abs/2311.09247

以上就是GPT-4在图形推理方面表现不佳?即使“放水”后,准确率仅为33%的详细内容,更多请关注其它相关文章!


# 推理  # 福田区网站推广选哪家  # 民宿营销推广信息简报  # 服务行业网站优化运营  # 看书网站建设路  # 浙江测试网站优化耗材  # 只需  # 腾讯  # 多模  # 亚马逊  # 的是  # 下载量  # 受试  # 子类  # 仅为  # 关键词  # AI  # seo实地学校  # 营销活动推广的文案更多  # 潜江网站建设方案公示  # 铜陵网站群推广公司电话  # 江苏seo服务推荐机构 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 夸克po什么意思  学typescript需要多久  哪个品牌有折叠屏手机卖  征信不好如何短期恢复  金色cmyk色值是多少  typescript如何使用viewer  苹果16系统有哪些缺陷  什么是base64  春运订票什么时候抢票  交管12123协议头不完整是啥意思  如何查看网站域名解析  如何卸载typescript  油烟机上的power是什么意思  哪些明星在用苹果16  热水器没热水显示power是什么意思  光猫power和pon常亮是什么意思  春运抢票失败怎么抢  哪些库是typescript  如何创建sql命令  夸克用的什么服务器  科技型企业成长"十步法"  typescript属性只读如何修改  固态硬盘内存如何查找  如何在昇腾Ascend 910B上运行Qwen2.5教程  python 如何执行linux命令  萝卜快跑的收费标准是什么  手机拍电脑屏幕有条纹怎么解决  如何用dos命令分区  如何为服务器配置静态路由?服务器配置静态路由详细教程  空调power灯一直闪是什么意思  华为如何面对苹果16  苹果16自带配件有哪些  vue怎么连接typescript  drawing是什么意思  为什么夸克没有动漫  如何学习typescript  三星固态硬盘如何保修  为什么夸克无法注销账户  vs如何输入命令行参数  j*a怎么讲数组打印  如何增加固态硬盘  如何安装笔记本固态硬盘  j*a二数组怎么创建  如何在命令行执行存储过程  如何编写一个linux命令  内网和外网区别 内网和外网有什么区别  夸克还原排版是什么意思  put linux命令如何书写  driver是什么意思  如何用adb命令停用系统软件 

搜索