新闻中心
ReSum— 阿里通义开源的WebAgent推理范式
ReSum是什么
resum 是阿里通义推出的新型webagent 推理范式,隶属通义deepresearch家族,能解决 webagent 在长视界任务中面临的上下文长度限制问题,通过周期性地对交互历史进行摘要,将不断增长的对话内容压缩成紧凑的推理状态,实现无限探索,同时保持对先前发现的认知。resum 的核心是 resum-grpo 方案,融合 grpo 算法,使智能体能熟练掌握摘要条件推理。实验表明,resum 在多项任务中表现优异,相比传统的 react 方法平均绝对提升 4.5%。这种创新机制为 webagent 在复杂任务中的应用提供更广阔的可能性。
GoEnhance
全能AI视频制作平台:通过GoEnhance AI让视频创作变得比以往任何时候都更简单。
347
查看详情
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ReSum的主要功能
- 突破上下文长度限制:通过周期性摘要机制,将长篇对话压缩成紧凑的推理状态,有效解决上下文长度限制问题。
- 实现无限探索:ReSum使WebAgent能进行无限探索,动态更新推理状态,确保每一步决策基于最新信息。
- 提升推理能力:ReSum融合ReSum-GRPO方案,通过生成、检索、规划和优化四个步骤,显著提升智能体的推理能力。
- 实验验证:实验表明ReSum相比传统ReAct方法平均绝对提升4.5%,在长篇对话和复杂任务中表现优异。
ReSum的技术原理
- 周期性上下文摘要:ReSum通过定期对交互历史进行摘要,将长篇对话压缩成紧凑的推理状态,突破上下文长度限制,同时保留关键信息支持后续推理。
-
ReSum-G
RPO算法:ReSum基于ReSum-GRPO方案,融合GRPO(Group Relative Policy Optimization)算法,通过生成、检索、规划和优化四个步骤,优化智能体的决策过程,提升在复杂任务中的表现。
- 动态推理状态更新:ReSum能动态地更新推理状态,确保智能体在每一步都基于最新的信息进行推理,实现高效的多步推理。
- 强化学习框架:ReSum在强化学习的框架下进行训练,通过on-policy训练和定制的GRPO算法,确保学习信号始终与模型当前能力相关,提高训练的稳定性和效率。
ReSum的项目地址
- GitHub仓库:http://github.com/Alibaba-NLP/DeepResearch/tree/main/WebAgent/WebResummer
- arXiv技术论文:http://arxiv.org/pdf/2509.13313
ReSum的应用场景
- 学术研究:高效处理复杂的学术文献和多步推理任务,帮助研究人员快速定位关键信息,提升研究效率。
- 法律研究:系统地检索案例法、交叉引用法规,为法律专业人士提供精准的法律研究支持。
- 旅行规划:ReSum能生成复杂的旅行计划,如多日自驾游路线,包括特定景点和宠物友好酒店,为用户提供个性化的旅行建议。
- 医疗咨询:整合患者的病历和最新研究,为医生提供全面的医疗信息支持,辅助制定治疗方案。
- 金融分析:分析大量的金融数据和市场动态,为投资者提供深入的市场分析和投资建议。
以上就是ReSum— 阿里通义开源的WebAgent推理范式的详细内容,更多请关注其它相关文章!
# 多项
# 营销推广视频指哪些
# 换工作做seo如何
# 江门搜狗seo推广价格
# 肇庆渠道推广招聘网站最新
# 钟祥百度推广网站在哪里
# 昆山网站建设的几个步骤
# 微营销推广产品方案
# 优化关键词排名原理
# 绍兴网站推广选哪家公司
# seo单页系统
# 主要功能
# 用户提供
# react
# 解决问题
# 中文网
# 相关文章
# 医学研究
# 压缩成
# 清华
# 开源
# 金融
# pdf
# ai
# github
# git
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
折叠屏手机哪个卖得最好
苹果16系统有哪些缺陷
命令不执行如何处理
手机如何更改固态硬盘
typescript如何做项目
mac 如何启动命令行模式
如何在命令行写j*a程序
交管12123协议头不完整是什么原因
市盈率估值1stdv是什么意思
油电混动车仪表盘上的power是什么意思
sausage是什么意思
自己如何加装固态硬盘
vivo手机爱奇艺怎么投屏到电视操作步骤
如何学习typescript
如何打开命令提示符
如何安装笔记本固态硬盘
360n5锁屏壁纸怎么设置
如何激活固态硬盘
使用typescript对团队有什么要求
360桌面壁纸怎么弄掉
type-c接口接地是什么意思
语音聊天软件哪个好 语音聊天软件2025排行榜
typescript要用什么工具
如何用固态硬盘做缓存
没网环境如何安装typescript
怎么关360壁纸广告
怎么确定手机是5g
如何创建sql命令
vue项目如何用typescript
春运抢票可以抢几张
苹果16更新了哪些软件
皓影混动仪表盘上power是什么意思
如何管理员打开cmd命令行窗口
typescript如何开发
春运抢票准备什么
硬件如何执行命令
苹果16会有哪些更新
sofa是什么意思
typescript性能如何
市盈率静是什么意思
命令行ftp如何创建目录
新网站如何填写域名解析
联想的固态硬盘如何
ip dhcp是什么意思
通配符的用法
单片机怎么加死循环
ai怎么找链接文件位置教程
固态硬盘装完如何使用
春运高速高铁抢票攻略
python 如何执行linux命令


2025-09-19
浏览次数:次
返回列表
RPO算法:ReSum基于ReSum-GRPO方案,融合GRPO(Group Relative Policy Optimization)算法,通过生成、检索、规划和优化四个步骤,优化智能体的决策过程,提升在复杂任务中的表现。