新闻中心

LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证

2023-10-25
浏览次数:
返回列表

「任何认为自动回归式 LLM 已经接近人类水平的 AI,或者仅仅需要扩大规模就能达到人类水平的人,都必须读一读这个。AR-LLM 的推理和规划能力非常有限,要解决这个问题,并不是把它们变大、用更多数据进行训练就能解决的。」

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证

一直以来,图灵奖得主 Yann LeCun 就是 LLM 的「质疑者」,而自回归模型是 GPT 系列 LLM 模型所依赖的学习范式。他不止一次公开表达过对自回归和 LLM 的批评,并产出了不少金句,比如:

「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」

「自回归生成模型弱爆了!(Auto-Regressive Generative Models suck!)」

「LLM 对世界的理解非常肤浅。」

让 LeCun 近日再次发出疾呼的,是两篇新发布的论文:

LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证

「LLM 真的能像文献中所说的那样自我批判(并迭代改进)其解决方案吗?我们小组的两篇新论文在推理 (https://arxiv.org/abs/2310.12397) 和规划 (https://arxiv.org/abs/2310.08118) 任务中对这些说法进行了调查(并提出了质疑)。」

看起来,这两篇关于调查 GPT-4 的验证和自我批判能力的论文的主题引起了很多人的共鸣。

论文作者表示,他们同样认为 LLM 是了不起的「创意生成器」(无论是语言形式还是代码形式),只是它们无法保证自己的规划 / 推理能力。因此,它们最好在 LLM-Modulo 环境中使用(环路中要么有一个可靠的推理者,要么有一个人类专家)。自我批判需要验证,而验证是推理的一种形式(因此对所有关于 LLM 自我批判能力的说法都感到惊讶)。

同时,质疑的声音也是存在的:「卷积网络的推理能力更加有限,但这并没有阻止 AlphaZero 的工作出现。这都是关于推理过程和建立的 (RL) 反馈循环。我认为模型能力可以进行极其深入的推理(例如研究级数学)。」

LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证

对此,LeCun 的想法是:「AlphaZero「确实」执行规划。这是通过蒙特卡洛树搜索完成的,使用卷积网络提出好的动作,并使用另一个卷积网络来评估位置。探索这棵树所花费的时间可能是无限的,这就是推理和规划。」

在未来的一段时间内,自回归 LLM 是否具备推理和规划能力的话题或许都不会有定论。

接下来,我们可以先看看这两篇新论文讲了什么。

论文 1:gpt-4 doesn’t know it’s wrong: an analysis of iterative prompting for reasoning problems

第一篇论文引发了研究者对最先进的 LLM 具有自我批判能力的质疑,包括 GPT-4 在内。

LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证

论文地址:https://arxiv.org/pdf/2310.12397.pdf

接下来我们看看论文简介。

人们对大型语言模型(LLM)的推理能力一直存在相当大的分歧,最初,研究者乐观的认为 LLM 的推理能力随着模型规模的扩大会自动出现,然而,随着更多失败案例的出现,人们的期望不再那么强烈。之后,研究者普遍认为 LLM 具有自我批判( self-critique )的能力,并以迭代的方式改进 LLM 的解决方案,这一观点被广泛传播。

然而事实真的是这样吗?

来自亚利桑那州立大学的研究者在新的研究中检验了 LLM 的推理能力。具体而言,他们重点研究了迭代提示(iterative prompting)在图着色问题(是最著名的 NP - 完全问题之一)中的有效性。

该研究表明(i)LLM 不擅长解决图着色实例(ii)LLM 不擅长验证解决方案,因此在迭代模式下无效。从而,本文的结果引发了人们对最先进的 LLM 自我批判能力的质疑。

论文给出了一些实验结果,例如,在直接模式下,LLM 在解决图着色实例方面非常糟糕,此外,研究还发现 LLM 并不擅长验证解决方案。然而更糟糕的是,系统无法识别正确的颜色,最终得到错误的颜色。

如下图是对图着色问题的评估,在该设置下,GPT-4 可以以独立和自我批判的模式猜测颜色。在自我批判回路之外还有一个外部声音验证器。

LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证

结果表明 GPT4 在猜测颜色方面的准确率低于 20%,更令人惊讶的是,自我批判模式(下图第二栏)的准确率最低。本文还研究了相关问题:如果外部声音验证器对 GPT-4 猜测的颜色提供可证明正确的批判,GPT-4 是否会改进其解决方案。在这种情况下,反向提示确实可以提高性能。

LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证

即使 GPT-4 偶然猜出了一个有效的颜色,它的自我批判可能会让它产生幻觉,认为不存在违规行为。

LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证

最后,作者给出总结,对于图着色问题:

  • 自我批判实际上会损害 LLM 的性能,因为 GPT-4 在验证方面很糟糕;
  • 来自外部验证器的反馈确实能提高 LLM 的性能。

论文 2:Can Large Language Models Really Improve by Self-critiquing Their Own Plans?

短影AI 短影AI

长视频一键生成精彩短视频

短影AI 170 查看详情 短影AI

在论文《Can Large Language Models Really Improve by Self-critiquing Their Own Plans?》中,研究团队探究了 LLM 在规划(planning)的情境下自我验证 / 批判的能力。

这篇论文对 LLM 批判自身输出结果的能力进行了系统研究,特别是在经典规划问题的背景下。虽然最近的研究对 LLM 的自我批判潜力持乐观态度,尤其是在迭代环境中,但这项研究却提出了不同的观点。

LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证

论文地址:https://arxiv.org/abs/2310.08118

令人意外的是,研究结果表明,自我批判会降低规划生成的性能,特别是与具有外部验证器和 LLM 验证器的系统相比。LLM 会产生大量错误信息,从而损害系统的可靠性。

研究者在经典 AI 规划域 Blocksworld 上进行的实证评估突出表明,在规划问题中,LLM 的自我批判功能并不有效。验证器可能会产生大量错误,这对整个系统的可靠性不利,尤其是在规划的正确性至关重要的领域。

有趣的是,反馈的性质(二进制或详细反馈)对规划生成性能没有明显影响,这表明核心问题在于 LLM 的二进制验证能力,而不是反馈的粒度。

如下图所示,该研究的评估架构包括 2 个 LLM—— 生成器 LLM + 验证器 LLM。对于给定的实例,生成器 LLM 负责生成候选规划,而验证器 LLM 决定其正确性。如果发现规划不正确,验证器会提供反馈,给出其错误的原因。然后,该反馈被传输到生成器 LLM 中,并 prompt 生成器 LLM 生成新的候选规划。该研究所有实验均采用 GPT-4 作为默认 LLM。

LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证

该研究在 Blocksworld 上对几种规划生成方法进行了实验和比较。具体来说,该研究生成了 100 个随机实例,用于对各种方法进行评估。为了对最终 LLM 规划的正确性进行真实评估,该研究采用了外部验证器 VAL。

如表 1 所示,LLM+LLM backprompt 方法在准确性方面略优于非 backprompt 方法。

LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证

在 100 个实例中,验证器准确识别了 61 个(61%)。

LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证

下表显示了 LLM 在接受不同级别反馈(包括没有反馈)时的表现。

LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证

以上就是LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证的详细内容,更多请关注其它相关文章!


# 将于  # 北京seo培  # 推广小说的网站有哪些  # 亲子网站建设银行  # ppc竞价与seo优势对比  # 市场营销短视频推广案例  # 滨州网络营销推广软件  # 成都seo标签优化  # 高端网站建设框架模板图  # 一蓝网站建设  # seo网络高清传输器  # 模型  # 三大  # 就能  # 进行了  # 迭代  # 出了  # 是在  # 的是  # 为证  # 两篇  # AI 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: vivo手机nfc功能是什么意思  固态硬盘如何区分好坏  sofa是什么意思  春运抢票哪个平台好抢  固态硬盘坏了如何换硬盘  自由服务器如何做动态ip域名解析  为什么有的夸克带电  m*en repository的作用是什么  excel中datediff函数怎么用  如何引用typescript中的方法  如何检测固态硬盘温度  显示器power接口是什么意思  什么是unix时间戳  j*a 怎么清空数组元素  j*a怎么处理json数组  交管12123协议头不完整是啥意思  如何查询固态硬盘寿命  如何进入安卓命令行  迅达热水器显示power是什么意思  内在市盈率是什么意思  折叠屏手机哪个牌子性价比高  市盈率估值1stdv是什么意思  春运哪天抢票最好预约  折叠屏手机共有哪些  命令不执行如何处理  万能表上的power是什么意思  ai如何重复使用上一命令  为什么youtube音乐打不开  win7怎么关闭360壁纸屏保  苹果16系统有哪些系列  命令行如何打开文件  新版路由器如何设置路由命令  mac如何使用vi命令行  更换固态硬盘如何检查  折叠屏手机哪款最好  没网环境如何安装typescript  哪些明星在用苹果16  如何以管理员身份打开cmd命令行窗口  固态硬盘颗粒如何修理  咋免费领取爱奇艺会员 如何免费领取爱奇艺会员步骤  怎么用typescript 写js  如何查看固态硬盘分区  固态硬盘如何安装win10系统安装  1kb等于多少字节  kingston是什么_kingston是什么意思  丰田type-c接口是什么  汽车中控导航机power线是什么意思  苹果16配置参数有哪些  什么是typescript  笔记本如何使用固态硬盘 

搜索