新闻中心
NeurIPS 2025 (Oral) | 如何量化与提升思维链的推理能力边界?
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

论文链接:https://arxiv.org/abs/2410.05695
代码地址:https://github.com/LightChen233/reasoning-boundary

:
。
,即表述为:
表示任务
的推理边界。
和
是缩放因子,仅受相关任务影响。如图 1 (b) 所示,该方程提供了一个数学公式来估计独立 RB 的组合,从而可以更深入地了解复杂任务的模型行为。完全可行的推理边界:研究者定义准确率大于 90% 的部分是完全可行的推理边界 (CFRB=
),这意味着 LLM 可以有效地掌握这部分的表现。完全不可行的推理边界:研究者认为准确率小于 10% 的部分是完全不可行的推理边界 (CIRB=
),这意味着模型永远无法有效掌握这部分的性能。部分可行推理边界:研究者将除 CFRB 和 CIRB 之外的其余部分中的 RB 定义为部分可行推理边界 (PFRB=
),这需要模型重复思考或者更清晰的信息来解决问题。
模型设置:研究者们采用了 GPT-3.5-Turbo 作为主要模型,实验还涵盖了多任务场景,包括数学推理、多跳问答和多语言推理等领域,以确保推理边界的全面评估。
基准设置:为了更好地评估 LLMs 的推理能力,作者引入了一个新的数据集 ——BigGSM。这个数据集不仅具有较高的计算复杂性,还包含更长的推理链,能够更好地挑战模型的推理上限。

复杂多项式计算的推理边界:可视为 ①计算步骤规划 与 ②数学运算 两个推理边界的结合。如图 3 (a) 所示,实验结果显示了三个具有明显边界的推理边界划分区域。 复杂小学数学推理的推理边界:可理解为 ①自然语言步骤规划 与 ②数学运算 的结合,图 3 (b) 中同样展示了三个清晰的推理边界划分区域。 多跳问答的推理边界:可被视作 ①多跳规划 与
②实体推理 的结合。正如图 3 (c) 所示,三个推理边界划分的有效区域同样可见。

完全可行推理边界-->完全掌握:如图 4 (a, b) 所示,在这一边界下,模型即使在没有示例、无需 self-consistency 的情况下也能够高效完成任务。
部分可行推理边界-->不完全掌握:在这一推理边界下,如图 4 (b) 所示,模型对任务的掌握程度有限,需要通过多次 Self-consistency 来增强信心,从而提高准确率。
完全不可行推理边界-->完全不掌握:在这种边界下,如图 4 (b) 所示,模型的推理表现极其有限,即便采用 Self-consistency,模型的准确率仍难以得到提升。
大模型能够自己意识到自己的推理边界:研究还发现,如图 4 (c) 所示,当让模型自行生成 CoT 示例时,模型更倾向于生成符合其推理边界的样本,特别是在完全可行推理边界范围内,而很少生成其完全无法掌握的样本。这表明模型对推理边界具有一定的自我感知能力,能够根据自身能力选择合适的任务进行推理。


。显然,模型的组合推理边界可以计算为:
,这表明工具使用可以提高推理的边界。这解释了为什么工具使用比普通的推理链性能更好(见表 1)。此外,如图 5 所示,理论推理边界与实际推理边界的分布几乎完美重合,这也证明了该假设的可靠性和适用性。
。那么,PoT 的推理边界
。Complex CoT 在推理步骤与性能之间的平衡
单次计算负荷缓解:研究表明,通过增加推理步骤,可以缓解单次计算的负荷,从而提升模型的计算边界
,这有助于提高整体的推理能力。
Yaara
使用AI生成一流的文案广告,电子邮件,网站,列表,博客,故事和更多…
95
查看详情
规划难度增加:然而,推理步骤的过度增加可能带来负面影响:原问题在准确率较高的边界
上,经过 Complex CoT,可能落到准确率较低的边界
上,其中
。这意味着过多的推理步骤可能导致组合推理准确度的下降。

在规划与计算负荷之间存在一个平衡:如图 6 所示,随着推理步骤的增加,模型性能在初期显著提高,但当步骤数超过模型的最优推理能力时,性能开始下降。这表明,Complex CoT 在推理步骤数量与计算负荷之间存在一个最佳平衡点。超出这一点,计算负荷的增加会对模型的整体表现产生负面影响。
Least-to-Most 的分步优化策略

。如图 15 所示,接近 70% 的全局规划数超过了 5 步,严重加大了模型规划难度,从而使实际的组合推理边界对应的准确率下降。
最短可接受推理路径提示(MARP)
最小化推理路径提示:为了减轻与规划相关的认知负担,通过该提示让模型尽可能简洁地回答问题,确保提供简短、清晰和直接的推理路径。

可接受推理路径提示:为了更有效地利用推理边界的上限,通过该提示要求模型每一个推理步骤的复杂性在可接受的范围内。

推理边界与模型准确率的正相关性:研究者通过对 25 个不同模型的推理边界表现进行分析,发现推理边界与数学任务中的准确率呈现出正相关关系。
数学模型与通用模型在推理边界 - 准确率分布上的差异:通过数学数据微调的模型,推理边界 - 准确率分布虽然呈现出正相关,但与通用 LLM 存在显著差异。这可以为未来区分模型是否进行了数学专项训练提供了一个潜在的指标。
开源模型在完全可行推理边界上的局限性:开源模型在完全可行推理边界(CFRB)上的表现与闭源模型存在显著差异。几乎所有开源模型的 CFRB 值均为 0,这表明开源模型在高级推理任务上的不足,表明其在未来优化中的潜力。

多语言推理:通过将多语言能力、数学计算与推理规划相结合,实验结果表明,这些能力的正交组合后,推理边界依然保持了三类不同的推理边界模式,进一步证实了此方法的普适性和稳定性。

医疗推理:类似地,在医疗领域,研究通过将医疗实体推理与多跳推理规划相结合,验证了推理边界在正交组合后仍然保持一致,说明该推理策略同样适用于医疗推理任务。



以上就是NeurIPS 2025 (Oral) | 如何量化与提升思维链的推理能力边界?的详细内容,更多请关注其它相关文章!
# git
# ai
# 邮箱
# 为什么
# type
# 工程
# 这一
# 网站怎么优化分站
# 杨浦区网站建设代理
# 电子烟营销推广方案
# 九斗云网络推广营销数据
# 一个短视频营销推广方案
# 最短
# 自然语言
# 三种
# 可接受
# 多个
# 提出了
# 所示
# 如图
# 化与
# 顺昌专业seo公司
# 万州seo排名业务
# 南庄短视频营销推广中心
# 沙田服装网站推广服务
# 南开区网络营销推广软件
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
折叠屏手机哪个牌子性价比高
语音聊天软件哪个好 语音聊天软件2025排行榜
typescript怎么写call方法
如何在昇腾Ascend 910B上运行Qwen2.5教程
丰田type-c接口是什么
typescript属性只读如何修改
开机如何进入命令行模式
2025年哪个局域网聊天软件好用
征信不好如何快速恢复 征信不好快速恢复的方法
系统如何装在固态硬盘
power在坐标轴中是什么意思
typescript如何生成uuid
typescript怎么理解的
电动车eco和power是什么意思
typescript文件怎么打开
md5解密是什么意思
电脑显示屏上power是什么意思
j*a数组求和怎么算
交管12123协议头不完整是什么原因
哪些明星在用苹果16
如何创建解压文件命令
为什么夸克没有动漫
power在充电器上是什么意思
新装固态硬盘如何安装
如何安装台式机固态硬盘
征信信誉不好如何恢复 如何修复不良征信方法
put linux命令如何书写
苹果16最近玩法有哪些
闲鱼上面的power是什么意思
vi命令如何退出
自己如何安装固态硬盘
苹果16日发售哪些机型
debian和ubuntu的区别是什么
新三板市盈率是什么意思
typescript怎么使用map
固态硬盘如何迁移系统
选哪个折叠屏手机好
反向春运抢票方式
商誉是什么意思
typescript怎么用
苹果16系统有哪些功能
kingston是什么_kingston是什么意思
如何使用程序编译 执行的命令
一天多少分钟
夸克的答案为什么不对
j*a怎么声明byte数组
广东春运抢票怎么抢的
5g手机4g卡怎么没有网络
苹果16关闭哪些功能好
16苹果有哪些机型


2024-11-11
浏览次数:次
返回列表
②实体推理 的结合。正如图 3 (c) 所示,三个推理边界划分的有效区域同样可见。