新闻中心
首个具身智能强化学习框架RLinf开源,助力AI从感知迈向行动
近日,无问芯穹联合清华大学、北京中关村学院,携手北京大学、加州大学伯克利分校等机构,正式开源首个面向具身智能的“渲训推一体化”大规模强化学习框架rlinf。这一举措为人工智能从“感知”向“行动”的跨越提供了关键技术支撑。
人工智能正经历从“感知”到“行动”的跨越式发展,融合大模型的具身智能被视为人工智能的下一发展阶段,受到学术界和工业界的共同关注。在大模型领域,随着o1/R1系列推理模型的发布,模型训练重心逐渐从数据驱动的预训练/后训练转向奖励驱动的强化学习。OpenAI预测强化学习所需算力将超过预训练,能够高效利用大规模算力的RL infra的重要性日益凸显,近期也涌现出一批优秀框架,推动了该领域的发展。
然而,当前框架对具身智能的支持仍存在局限。与纯推理大模型不同,具身智能领域存在大脑(侧重推理、长程规划)、小脑(侧重执行、短程操作)及大小脑联合等多样模型。此外,具身智能还具有“渲训推一体化”的独特属性,当前主流*器通常采用GPU加速,耦合多步决策带来了算力和显存竞争的新挑战。具身智能领域不仅继承了推理大模型和数字智能体的难点,还引入了新的渲训推一体化特征,再加上具身智能模型尚未收敛,对框架的灵活性、高效性和易用性提出了更高要求。
RLinf名称中的“inf”,既代表“infrastructure”(基础设施),也寓意“infinite”(无限扩展),其核心就是解决当前框架对具身智能支持受限的问题。该框架通过六大层级设计,即用户层(统一编程接口)、任务层(多后端集成方案)、执行层(灵活执行模式)、调度层(自动化调度)、通信层(自适应通信)和硬件层(异构硬件),针对性地突破技术难点。
在执行模式方面,当前强化学习框架通常采用共享式和分离式,但这两种模式在具身智能“渲训推一体”的特点下存在局限性。RLinf提出混合式执行模式,兼具分离式和共享式的优势,配合细粒度流水设计,显著提升了系统运行效率。同时,RLinf采用创新的宏工作流到微执行流的映射机制,实现从组件级进行调度,解决了传统计算流图构建编程灵活性低的问题。在后端集成方面,为支持具身智能不同用户的需求,RLinf集成了两套后端。Megatron + SGLang/vLLM针对已收敛的模型架构,支持已适配模型的快速接入,是大规模集群训练的首选模式;FSDP + Hugging Face针对未收敛的模型架构,支持Hugging Face模型开箱即用无需适配,是快速小规模验证的首选模式。此外,RLinf还支持多项刚需,如LoRA训练、断点续训以及训练可视化等,并且正在集成SFT模块,致力于提供一站式服务。在通信和调度方面,RLinf设计了自适应通信库和自动化调度模块。自适应通信库包含自适应CUDAIPC/NCCL通信、负载均衡传输队列、多通道并发通信机制、快速通信重配置等优化技术,提升了通信效率和稳定性。自动化调度模块可以针对用户的训练流和计算资源,选择最优的执行模式,还集成了“秒级在线扩缩容”能力,显著提升了训练效率。在性能方面,RLinf在具身性能和推理性能上均表现出色。在具身性能测试中,采用FSDP+HuggingFace后端,相比其他框架的分离式执行模式,系统效率显著提速120%以上,模型成功率也有大幅提升。在推理性能测试中,采用Megtatron+SGLang后端,支持的推
理大模型训练在多个测试集上取得SOTA性能。
GoEnhance
全能AI视频制作平台:通过GoEnhance AI让视频创作变得比以往任何时候都更简单。
347
查看详情
考虑到框架的易用性,RLinf提供了全面且系统化的使用文档,还提供完整的API文档与集成AI问答机器人支持。RLinf团队的开发成员具有交叉研究背景,能够从应用需求驱动算法设计,算法指导系统设计,高效系统加速算法迭代。未来,RLinf团队将持续开发和维护该框架。
总之,RLinf的开源为具身智能领域的发展带来了新的机遇,其灵活、可扩展的设计理念和出色的性能,有望推动人工智能从“感知”向“行动”的跨越。
以上就是首个具身智能强化学习框架RLinf开源,助力AI从感知迈向行动的详细内容,更多请关注其它相关文章!
# 长程
# 网站营销推广方式有几种
# 定制网站建设技术支持
# 百度收录怎么做seo
# 无锡网站建设网站
# 牡丹江律师网站推广公司
# 设计网站建设的企业
# 广东seo工具快速入门
# 搜索栏入口seo
# 微营销推广操作步骤
# seo怎么自己接单
# 百位
# 负载均衡
# 无问芯穹
# 带来了
# 首个
# 福特
# 自适应
# 开源
# hugging face
# 性能测试
# 大模型
# openai
# ai
# 后端
# 人工智能
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
怎么用typescript 写js
typescript书籍哪个好
typescript学多久可以学会
负市盈率是什么意思
如果公司ttm市盈率为负数是什么意思
闪光灯power闪烁是什么意思
估值水平比较中市盈率E是什么意思
如何判断固态硬盘端口
j*a怎么让数组倒换
折叠手机屏易坏吗为什么
单片机面包板怎么插
单片机显存怎么设置最佳
怎么在typescript写原型链
j*a怎么读取char数组
春运车票啥时候可以抢票
如何看固态硬盘型号
typescript的文件如何执行
苹果16有哪些款式的
市盈率和市净率是什么意思
ai文件里无法找到链接文件怎么解决
选哪个折叠屏手机好
a03怎么根据编号找文链接入口
faq是什么意思
域名解析后为什么要进行域名备案
单片机log怎么看
类似微信的聊天软件有哪些
如何打开命令框
typescript卸载不掉怎么办
焊机上power指示灯亮是什么意思
新买的固态硬盘如何查
三星相机里power是什么意思
solidworks打开IGS文件作图教程
电信开通nfc功能是什么意思
unix时间戳转换公式
一尺是多少厘米
苹果16有哪些改善
单片机速度怎么看
摄像机的power chg是什么意思中文
access 如何输入命令
sofa是什么意思
手机换电池要多少钱
360手机壁纸怎么改
j*a怎么处理json数组
春运车站抢票和网上抢票
如何以命令符运行程序
video是什么意思
折叠屏手机哪个卖得最好
driver是什么意思
哪些明星在用苹果16
单片机计时程序怎么写


2025-09-19
浏览次数:次
返回列表