新闻中心

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

2024-06-24
浏览次数:
返回列表
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

上海交通大学生成式人工智能实验室 (GAIR Lab) 的研究团队,主要研究方向是:大模型训练、对齐与评估。
团队主页:https://plms.ai/

AI技术日新月异,近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了吗?回答这个问题的挑战在于我们首先需要一个足够挑战的智力测试基准,使得我们可以区分目前最高水平的AI

上海交通大学生成式人工智能实验室(GAIR Lab)推出的OlympicArena[1] (奥林匹克竞技场)满足了这个需求。

奥林匹克学科竞赛不仅是对人类(碳基智能)思维敏捷性、知识掌握和逻辑推理的极限挑战,更是AI(“硅基智能”)锻炼的绝佳练兵场,是衡量AI与“超级智能”距离的重要标尺。OlympicArena——一个真正意义上的AI奥运竞技场。在这里,AI不仅要展示其在传统学科知识上的深度(数学、物理、生物、化学、地理等顶级竞赛),还要在模型间的认知推理能力上展开较量。

近日,同样是研究团队,首次提出使用"奥林匹克竞赛奖牌榜"的方法,根据各AI模型在奥林匹克竞技场(各学科)的综合表现进行排名,选出迄今为止智力最高的AI。在此次竞技场中,研究团队重点分析并比较了最近发布的两个先进模型——Claude-3.5-SonnetGemini-1.5-Pro,以及OpenAI的GPT-4系列(e.g., GPT4o)。通过这种方式,研究团队希望能够更有效地评估和推动AI技术的发展。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

奥林匹克竞赛里选最聪明的ai:claude-3.5-sonnet vs. gpt-4o?

                                图: 奥林匹克学科竞赛奖牌榜
                              注:研究团队首先依据金牌数量对模型进行排序,如果金牌数量相同,则按照整体性能分数来排序。

实验结果表明:

  • Claude-3.5-Sonnet在整体表现上与GPT-4o相比极具竞争力,甚至在一些科目上超过了GPT-4o(比如在物理、化学和生物学上)。
  • Gemini-1.5-Pro和GPT-4V排名紧随GPT-4o和Claude-3.5-Sonnet之后,但它们之间存在明显的表现差距。
  • 来自开源社区的AI模型性能明显落后于这些专有模型。
  • 这些模型在此基准测试上的表现不尽人意,表明我们在实现超级智能之路上还有很长的路要走。

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

  • 项目主页:https://gair-nlp.github.io/OlympicArena/

实验设置

研究团队采取OlympicArena的测试集进行评估。该测试集的答案并未公开,有助于防止数据泄露,从而反映模型的真实性能。研究团队测试了多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LLMs的测试,输入时不提供任何与图像相关的信息给模型,仅提供文本。所有评估均采用零样本(zero-shot)思维链(Chain of Thought)提示词。

评估对象

研究团队评估了一系列开源和闭源的多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LMMs,选择了GPT-4o、GPT-4V、Claude-3-Sonnet、Gemini Pro Vision、Qwen-VL-Max等闭源模型,此外还评估了LLaVA-NeXT-34B、InternVL-Chat-V1.5、Yi-VL-34B和Qwen-VL-Chat等开源模型。对于LLMs,主要评估了Qwen-7B-Chat、Qwen1.5-32B-Chat、Yi-34B-Chat和InternLM2-Chat-20B等开源模型。

此外,研究团队特别包括了新发布的Claude-3.5-Sonnet以及Gemini-1.5-Pro,并将它们与强大的GPT-4o和GPT-4V进行比较。以反映最新的模型性能表现。

评估方法

衡量标准 鉴于所有问题都可以通过基于规则的匹配进行评估,研究团队对非编程任务使用准确率,并对编程任务使用公正的pass@k指标,定义如下:

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

本次评估中设定k = 1且n = 5,c表示通过所有测试用例的正确样本数量。

奥林匹克竞技场奖牌榜:

与奥运会使用的奖牌系统类似,是一个专门设计用来评估AI模型在各个学术领域性能的先驱性排名机制。该表为在任一给定学科中取得前三名成绩的模型颁发奖牌,从而为比较不同模型提供了一个明确且具有竞争性的框架。研究团队首先依据金牌数量对模型进行排序,如果金牌数量相同,则按照整体性能分数来排序。它提供了一种直观简洁的方式来识别不同学术领域中的领先模型,使研究人员和开发者更容易理解不同模型的优势和劣势。

细粒度评估:
研究团队还基于不同学科、不同模态、不同语言以及不同类型的逻辑和视觉推理能力进行基于准确性的细粒度评估。

结果与分析

分析内容主要关注Claude-3.5-Sonnet和GPT-4o,同时也对Gemini-1.5-Pro的性能表现进行了部分讨论。

总体情况

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

                                  表:模型在不同学科上的表现

根据表格的总体结果,可以观察到:

  • 新发布的Claude-3.5-Sonnet性能强大,达到了几乎与GPT-4o相当的水平。两者的整体准确率差异仅约1%。
  • 新发布的Gemini-1.5-Pro也展现出了相当的实力,在大多数学科中的表现超过了GPT-4V(OpenAI当前第二强大的模型)。
  • 值得注意的是,在撰写本报告时,这三个模型中最早的发布时间仅为一个月前,反映了这一领域的快速发展。

针对学科的细粒度分析

GPT-4o vs. Claude-3.5-Sonnet:

尽管GPT-4o和Claude-3.5-Sonnet在整体上表现相似,但两个模型都展现了不同的学科优势。GPT-4o在传统的演绎和归纳推理任务上展现出更优秀的能力,特别是在数学和计算机科学方面。Claude-3.5-Sonnet在物理、化学和生物等学科表现出色,特别是在生物学上,它超过GPT-4o 3%。

GPT-4V vs. Gemini-1.5-Pro:

在Gemini-1.5-Pro与GPT-4V的比较中,可以观察到类似的现象。Gemini-1.5-Pro在物理、化学和生物学方面的表现显著优于GPT-4V。然而,在数学和计算机科学方面,Gemini-1.5-Pro优势不明显甚至不如GPT-4V。

从这两组比较中,可以看出:

  • OpenAI的GPT系列在传统的数学推理和编程能力上表现突出。这表明GPT系列模型已经经过了严格训练以处理需要大量演绎推理和算法思维的任务。
  • 相反,当涉及到需要将知识与推理结合的学科,如物理、化学和生物学时,其他模型如Claude-3.5-Sonnet和Gemini-1.5-Pro展现出了具有竞争性的表现。这体现了不同模型的专业领域以及潜在的训练重点,表明在推理密集型任务以及知识整合型任务可能存在的权衡。

针对推理类型的细粒度分析

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

Yaara Yaara

使用AI生成一流的文案广告,电子邮件,网站,列表,博客,故事和更多…

Yaara 95 查看详情 Yaara
Caption: 各模型在逻辑推理能力上的表现。逻辑推理能力包括:演绎推理(DED)、归纳推理(IND)、溯因推理(ABD)、类比推理(ANA)、因果推理(CAE)、批判性思维(CT)、分解推理(DEC)和定量推理(QUA)。

GPT-4o 与 Claude-3.5-Sonnet 在逻辑推理能力上的比较:

从表格的实验结果可以看出,GPT-4o在大多数的逻辑推理能力上优于Claude-3.5-Sonnet,例如演绎推理、归纳推理、溯因推理、类比推理和批判性思维方面。然而,Claude-3.5-Sonnet在因果推理、分解推理和定量推理上的表现超过了GPT-4o。整体而言,两个模型的表现相当,虽然GPT-4o在大多数类别上略有优势。

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

表: 各模型在视觉推理能力上的表现。视觉推理能力包括:模式识别(PR)、空间推理(SPA)、图表推理(DIA)、符号解释(SYB)和视觉比较(COM)。

GPT-4o vs. Claude-3.5-Sonnet 在视觉推理能力上的表现:

从表格的实验结果可以看出,Claude-3.5-Sonnet在模式识别和图表推理方面能力领先,展现了其在模式识别和解读图表方面的竞争力。两个模型在符号解释方面表现相当,表明它们在理解和处理符号信息方面具有相当的能力。然而,GPT-4o在空间推理和视觉比较方面优于Claude-3.5-Sonnet,展示了其在需要理解空间关系和比较视觉数据的任务上的优越性。

综合学科与推理类型的分析,研究团队发现:

  • 数学和计算机编程强调复杂演绎推理技巧和基于规则导出普适性结论,倾向于较少依赖预先存在的知识。相比之下,像化学和生物学这样的学科往往需要大量的知识库来基于已知的因果关系和现象信息进行推理。这表明,尽管数学和编程能力仍然是衡量模型推理能力的有效指标,其他学科更好地测试了模型在基于其内部知识进行推理和问题分析方面的能力。
  • 不同学科的特点表明了定制化训练数据集的重要性。例如,要提高模型在知识密集型学科(如化学和生物学)中的表现,训练期间模型需要广泛接触特定领域的数据。相反,对于需要强大逻辑和演绎推理的学科,如数学和计算机科学,模型则能从专注于纯逻辑推理的训练中受益。
  • 此外,推理能力和知识应用之间的区别表明了模型跨学科应用的潜力。例如,具有强大演绎推理能力的模型可以协助需要系统化思维解决问题的领域,如科学研究。而拥有丰富知识的模型在重度依赖现有信息的学科中非常宝贵,如医学和环境科学。理解这些细微差别有助于开发更专业和多功能的模型。

针对语言类型的细粒度分析

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?                               Caption: 各模型在不同语言问题的能力表现。

以上表格展示了模型在不同语言上的性能表现。研究团队发现大多数模型在英语上的准确度比中文要高,这种差距在排名靠前的模型中尤为显著。推测可能有以下几个原因:

  • 尽管这些模型包含了大量中文训练数据并且具有跨语言泛化能力,但它们的训练数据主要以英语为主。
  • 中文问题的难度比英文问题更具挑战性,尤其是在物理和化学等科目中,中国奥林匹克竞赛的问题更难。
  • 这些模型在识别多模态图像中的字符方面能力不足,中文环境下这一问题更为严重。

然而,研究团队也发现一些中国厂商开发或基于支持中文的基模型进行微调的模型,在中文场景下的表现优于英文场景,例如Qwen1.5-32B-Chat、Qwen-VL-Max、Yi-34B-Chat和Qwen-7B-Chat等。其他模型如InternLM2-Chat-20B和Yi-VL-34B,虽然仍然在英语上表现更好,但与排名靠前的闭源模型相比,它们在英语和中文场景间的准确度差异要小得多。这表明,为中文数据乃至全球更多语言优化模型,仍然需要显著的关注。

针对模态的细粒度分析

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

                              Caption: 各模型在不同模态问题的能力表现。

以上表格展示了模型在不同模态上的性能表现。GPT-4o在纯文本和多模态任务中均优于Claude-3.5-Sonnet,并在纯文本上表现更突出。另一方面,Gemini-1.5-Pro在纯文本和多模态任务上表现均优于GPT-4V。这些观察表明,即使是目前可用的最强模型,在纯文本任务上也比多模态任务有更高的准确率。这说明模型在利用多模态信息解决复杂推理问题方面仍有相当大的改进空间。

结语

研究团队在本次评测中主要关注最新的模型:Claude-3.5-Sonnet 和 Gemini-1.5-Pro,并将它们与 OpenAI 的 GPT-4o 和 GPT-4V 进行比较。此外,研究团队还设计了一种用于大模型的新颖排名系统——OlympicArena Medal Table,用来清晰的比较不同的模型的能力。研究团队发现,GPT-4o 在数学和计算机科学等科目上表现突出,具有较强的复杂演绎推理能力和基于规则得出普遍结论的能力。另一方面,Claude-3.5-Sonnet 更擅长根据已有的因果关系和现象进行推理。另外,研究团队还观察到这些模型在英语语言问题上表现更好,并且在多模态能力方面有显著的改进空间。理解模型这些细微差别有助于开发更专业化的模型,以更好地满足不同学术和专业领域的多样化需求。

随着四年一度的奥运盛事日益临近,我们不禁想象,如果人工智能也能参与其中,那将是一场怎样的智慧与技术的巅峰对决?不再仅仅是肢体的较量,AI的加入无疑将开启对智力极限的新探索, 也期待更多AI选手加入这场智力的奥运会。

参考链接:
[1] Huang et al., OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI https://arxiv.org/abs/2406.12753v1

以上就是奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?的详细内容,更多请关注其它相关文章!


# gair lab  # 中国网站建设方案咨询  # 这一  # 可以看出  # 华纳  # 细粒度  # 保时捷  # 开源  # 是在  # 英语  # 奥林匹克  # type  # 硅基智能  # qwen  # claude  # gemini  # git  # 工程  # 多模  # 移动服务站营销推广  # 温州seo优化合作  # 单页seo是什么  # 营销系统推广报价  # sem和seo工资  # web网站怎么优化  # 昆明个人网站建设  # 网站怎么优化在线火5星  # 东阳seo网络推广 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: typescript多久能学会  tft单片机怎么写彩屏  如何查看电脑的固态硬盘  performance是什么意思  市盈率回落是什么意思  soup是什么意思  五十铃x-power是什么意思  树莓派命令行如何新建文件  如何winpe cmd命令  春运抢票可以抢几次啊  金色cmyk色值是多少  如何激活固态硬盘  typescript需要学多久  春运抢票最快几天能成功  苹果16更新了哪些版本  广东春运抢票怎么抢的  j*a里数组怎么赋值  iphone拍电子屏有横条如何解决  固态硬盘坏了如何换硬盘  vivo手机爱奇艺怎么投屏到电视操作步骤  三星 nfc什么功能是什么意思  汽车排量是什么意思  4800日元等于多少人民币  春运什么时候开始抢票  固态硬盘如何拆除  manager是什么意思  如何设置sql命令  单片机怎么进行排序操作  空调控制面板power灯一直亮是什么意思  平板键盘nfc功能是什么意思  如何打开管理员命令提示符  5G类似微信的聊天软件有哪些  移动固态硬盘如何使用  什么是unix时间戳  typescript和哪个语音很像  市盈率市净率是什么意思  typescript掌握哪些可以做项目  哪些编程软件需用typescript  ssd固态硬盘如何选择  破太岁是什么意思  python如何命令行换行  命令不执行如何处理  苹果16哪些功能好用  pp是什么意思  vi命令如何退出编辑模式  如何开发typescript  mac如何使用vi命令  typescript怎么传json  市盈率pe是什么意思  make命令如何使用 

搜索