新闻中心
英伟达团队发布最新具身模型 Cosmos-Reason1,在物理世界推理中碾压 Qwen、GPT-4o 等多个 VLM 模型
英伟达 gtc 大会热度飙升。继黄仁勋在英伟达大会上发布基础世界模型 cosmos 引发业内讨论后,英伟达团队近日又发布了一个新的物理世界大模型:cosmos-reason1。
作为 Cosmos 系列的一个大模型,顾名思义,Cosmos-Reason1 更强调模型的“Reason”(即“推理”)能力。这是继 DeepSeek R1 采用纯强化学习
方法替代 SFT 之后,思考推理模型在物理世界中的进一步探索;且据论文介绍,其取得了不错的成果。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
论文地址:https://arxiv.org/abs/2503.15558
与 DeepSeek 跑在云端不同,Cosmos-Reason1 致力于解决的是人工智能系统与物理世界交互的问题——这要求跑在物理世界中的 AI 大模型要同时具备感知、理解与执行复杂动作的三个基本能力,即当前具身智能领域主流的研究热词“VLA”,或“具身大脑”。
根据论文介绍,Cosmos-Reason1 可以理解物理世界,并通过长思维链(Long CoT)的推理过程在自然语言中生成适当的行为决策。在这个思路上,英伟达的研究团队开发两个多模态大模型,分别是 80 亿参数的 Cosmos-Reason1-8B 和 560 亿参数的 Cosmos-Reason1-56B。
他们分四个阶段来进行数据收集与模型训练,分别是:视觉预训练、通用 SFT、物理 AI SFT、以及物理 AI 强化学习后训练。为了评估模型效果,他们分别在物理常识与具身推理两个方向上制定了 Benchmark,并取得了不错的表现。
Cosmos-Reason1 技术路线图概览
当前 Cosmos-Reason1 已开源,具身智能先锋研究者宋舒然等人也参与其中。
物理世界的 AGI 有何不同?
业内一直有观点认为,AGI 的发展会天然地分为云端 AGI 与端侧 AGI,物理世界中的 AGI 即属于后者。
但相比云端 AGI 模型(如 DeepSeek R1 等),能够与物理世界进行有效交互的 AGI 却突破缓慢,因其难度更大,不仅要具备云端 AGI 的理解、推理能力,还需要感知、决策。即使是推理环节,云端大模型的训练主要基于互联网上的大量文本数据,也难以迁移到与物理世界的互动知识中。
物理世界中的 AGI 需要具备什么能力?
英伟达团队认为,与设计擅长解决编码和数学问题的大模型不同,物理世界的大模型应该具备物理世界常识与基于物理世界的具体推理能力。这包含两方面:
一是物理常识应分为三个主要类别:空间、时间和基础物理,同时这三个类别又会被进一步划分为 16 个细粒度的子类别。这关乎到物理世界如何在物理定律下运行,以及 AI 如何与物理世界进行交互;
图注:物理常识的 16 个子类别,空间包含关系、合理性、可供性与环境;时间包含规划、相机、因果、指令、行为;基础物理包括反重力、热力学、电磁、机械学、客体永恒性、状态、属性。
二是他们认为,要为具身推理引入一个二维的知识体系,其包含跨越 5 类具身智能体的 4 种关键推理能力。这样有助于 AI 智能体在物理世界中的理解与规划。
具体而言,具身推理需要具备以下能力:
处理复杂的感官输入。与处理清晰数据表示的符号推理不同,具身推理必须从原始的、往往不完整且模糊的感官输入中提取有意义的模式。
预测行动效果。行动会产生物理后果,有效的推理需要直观地掌握因果关系。AI 系统必须预测一个物体对力会有怎样的反应,一个机器人的身体将如何与周围环境相互作用,或者一辆车辆的移动将如何受到地形和物理规律的影响。
遵循物理约束。与通常涉及优化离散选择的抽象问题解决不同,具身推理必须考虑现实世界的物理因素,如惯性、摩擦力和材料属性。它要求 AI 生成在物理约束条件下可行的长期行动规划,以确保执行过程中的稳定性、效率和安全性。
从交互中学习。在物理 AI 中,行动不是孤立发生的;每一个动作或决策都会影响环境并产生反馈。具身推理必须基于这些交互不断更新其理解,使系统能够动态地改进其行为。
在这个过程中,Cosmos-Reason1 的目标之一是使多模态大模型生成更多符合物理世界要求的反应。在视觉世界中,模型对世界的理解会被表示为视频形式,然后通过视频输入感知、理解与推理物理世界,再用自然语言将模型的反应表达出来。他们采用的是纯解码的多模态大模型架构,以及混合的 Mamba-MLP-Transformer 架构。
值得注意的是,Transformer 架构此前一直被诟病虽然擅长长序列表达、但无法高效实现空间理解,而 Mamba 架构是典型的非 Transformer 架构,英伟达团队采用 Mamba 混合或许就是为了中和 Transformer 在物理世界大模型中的短板。
Zyro AI Background Remover
Zyro推出的AI图片背景移除工具
145
查看详情
他们使用张量并行度为 4 来训练 Cosmos-Reason1-8B 模型,而 Cosmos-Reason1-56B 模型则使用张量并行度为 8 和流水线并行度为 2来进行训练,以支持更长的视频训练。
为了提高模型的通用能力,在数据采集上,英伟达团队一共采用了总计 120M 的图像、视频与交互数据用于数据预训练,8M 的图像和视频数据用于通用的 SFT。
在大模型的推理中,基于规则的、可验证的大规模奖励(即强化学习方法)对解决数学、编码问题起了很大的作用。受此启发,英伟达团队也在 Cosmos-Reason1 中使用了强化学习方法来训练模型在物理世界中的推理能力。
他们探索了两种多项选择题回答的奖励类型,一种是基于人工注释的 MCQ,另一种是受视频自监督学习的启发,自动生成基于视频数据结构的 MCQ,比如用打乱的时空视频补丁来解谜题、预测视频向前或向后播放的时间箭头等。
Cosmos-Reason1 的效果
为了测试 Cosmos-Reason1 的效果,英伟达团队制定了以下基准:
在物理常识上,他们制定了 3 个基准(空间、时间与基础物理),包含了来自 426 个视频中的 604 个问题。
在具身推理上,他们建立了 6 个基准测试、包含来自 600 个视频的 612 个问题,覆盖了包括人体、机械臂、人形机器人与自动驾驶等多个构型的物理具身。
他们将 Cosmos-Reason1 与其他的大模型进行了对比,结果如下:
在物理常识的基准上,Cosmos-Reason1-8B 与 56B 的效果都显著提升,尤其是 56B 的效果全面超过 Qwen2.5-VL-7B 与 72B、Gemini 2.0 Flash 与 GPT-4o,只稍逊于 OpenAI 的 o1:
在具身推理上,显著强于其他 VLM 模型,效果提升超 10%:
为了测试模型的直观推理能力,他们为三个任务(时间箭头、空间谜题与物体持久性)中的每一个任务都策划了 100 个视频,并生成 100 个问题。
结果显示,现有的许多 VLM 模型在时间箭头与物理持久性的任务上表现不佳,GPT-4o 与 OpenAI o1 处理空间谜题比随机猜测强。但 Cosmos-Reason1-8B 在三个任务中都得到了显著改进:
时间箭头例子:
时间箭头例子:
参考文献:https://arxiv.org/pdf/2503.15558
以上就是英伟达团队发布最新具身模型 Cosmos-Reason1,在物理世界推理中碾压 Qwen、GPT-4o 等多个 VLM 模型的详细内容,更多请关注其它相关文章!
# cos
# SEO教程简笔画动物
# 个贷营销推广方案
# 福建营销策划推广方法
# 涟水seo优化推广公司
# 砍价平台推广网站便宜
# 廊坊seo标签优化
# 多模
# 一是
# 子类
# 在这个
# 自然语言
# 开源
# 数据结构
# 的是
# 发布最新
# 多个
# qwen
# deepseek
# gemini
# ai
# 网站制作建设游戏有哪些
# 昆明做网站建设价格多少
# 怎么seo网站
# 南宁网站建设如何
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
春运哪天抢票最好预约
电脑命令如何删除账号
j*a数组怎么新增值
路由器power闪红绿灯闪是什么意思
金色cmyk色值是多少
typescript如何开发
索尼type-c接口是什么
市盈率是什么意思高好还是低好
焊机上power指示灯亮是什么意思
make命令如何使用
自由服务器如何做动态ip域名解析
ensp命令如何提示
满射和单射定义
按键精灵datediff函数怎么用 如何使用按键精灵中的Datediff函数教程
命令行如何打开文件
如何看固态硬盘信息
平板键盘nfc功能是什么意思
为什么选择typescript
5r是多少钱
网络光刻机是干什么用的
solidworks打开IGS文件作图教程
360f4怎么取消百变壁纸
如何在一串数字前面去掉四位数的命令
夸克缺什么登录不了
夸克为什么会变小
typescript怎么解析vue TypeScript在vue中的使用最新解读
为什么夸克书架书单没了
市盈率中的19a是什么意思
车子上面nfc功能是什么意思
个人征信不好如何恢复 个人征信不良的全面修复指南
如何查看邮件域名解析
命令指示符如何打开盘符
datediff快捷函数怎么用
夸克是什么用途
为什么有的夸克带电
如何通过命令检测u盘启动
固态硬盘装完如何使用
电脑显示器上power是什么意思
ai文件里无法找到链接文件要怎么解决步骤
typescript变量是什么
typescript如何定义变量
光刻机的分类及其优缺点
typescript学多久可以学会
51单片机贴片怎么*
春运抢票哪个城市好抢
免费恢复删除的微信聊天记录软件有哪些
gs是什么意思
固态硬盘如何查看盘符
什么是泛域名解析
如何修改域名解析


2025-04-01
浏览次数:次
返回列表