新闻中心
家具家电通用三维图文大模型系统中的首创无需指导、泛化使用形象化模型
这几天,家务活都被机器人抢着干了。
前脚来自斯坦福的会用锅的机器人刚刚登场,后脚又来了个会用咖啡机的机器人 Figure-01 。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Figure-01只需观看示范视频,再进行10小时的训练,就能熟练操作咖啡机。从放入咖啡胶囊到按下启动键,一气呵成。
然而,要使机器人能够独立学会使用各种家具和家电,遇到它们时不需要示范视频,这是一个难以解决的问题。这需要机器人具备强大的视觉感知和决策规划能力,以及精确的操纵技能。

论文链接:https://arxiv.org/abs/2312.01307
项目主页:https://geometry.stanford.edu/projects/sage/
代码:https://github.com/geng-haoran/SAGE
研究问题概述

图 1:根据人类指令,机械臂能够无师自通地使用各种家用电器。
近日,PaLM-E 和 GPT-4V 带动了图文大模型在机器人任务规划中的应用,视觉语言引导下的泛化机器人操控成为了热门研究领域。
以往的常见方法是建立一个两层的系统,上层的图文大模型做规划和技能调度,下层的操控技能策略模型负责物理地执行动作。但当机器人在家务活中面对各种各样从未见过并且需要多步操作的家用电器时,现有方法中的上下两层都将束手无策。
以目前最先进的图文大模型 GPT-4V 为例,虽然它可以对单张图片进行文字描述,但涉及可操作零部件检测、计数、定位及状态估计时,它仍然错误百出。图二中的红色高亮部分是 GPT-4V 在描述抽屉柜、烤箱和立柜的图片时出现的各种错误。基于错误的描述,机器人再进行技能调度,显然不太可靠。

图 2:GPT-4V 不能很好处理计数,检测,定位,状态估计等泛化操控所关注的任务。
下层的操控技能策略模型负责在各种各样的实际情况中执行上层图文大模型给出的任务。现有的研究成果大部分是基于规则生硬地对一些已知物体的抓取点位和操作方式进行了编码,无法泛应对没见过的新物体类别。而基于端到端的操作模型(如 RT-1,RT-2 等)只使用了 RGB 模态,缺乏对距离的准确感知,对新环境中如高度等变化的泛化性较差。
受王鹤教授团队之前的 CVPR Highlight 工作 GAPartNet [1] 启迪,研究团队将重点放在了各种类别的家用电器中的通用零部件(GAPart)之上。虽然家用电器千变万化,但总有几样零件不可或缺,每个家电和这些通用的零件之间存在相似的几何和交互模式。
由此,研究团队在 GAPartNet [1] 这篇论文中引入了 GAPart 这一概念。GAPart 指可泛化可交互的零部件。GAPart 出现在不同类别的铰接物体上,例如,在保险箱,衣柜,冰箱中都能找到铰接门这种零件。如图 3,GAPartNet [1] 在各类物体上标注了 GAPart 的语义和位姿。

图3:GAPart:可泛化可交互的零部件[1]。
在之前研究的基础上,研究团队创造性地将基于三维视觉的 GAPart 引入了机器人的物体操控系统 SAGE 。SAGE 将通过可泛化的三维零件检测 (part detection),精确的位姿估计 (pose estimation) 为 VLM 和 LLM 提供信息。新方法在决策层解决了二维图文模型精细计算和推理能力不足的问题;在执行层,新方法通过基于 GAPart 位姿的鲁棒物理操作 API 实现了对各个零件的泛化性操作。
VALL-E
VALL-E是一种用于文本到语音生成 (TTS) 的语言建模方法
134
查看详情
SAGE 构成了首个三维具身图文大模型系统,为机器人从感知、物理交互再到反馈的全链路提供了新思路,为机器人能够智能、通用地操控家具家电等复杂物体探寻了一条可行的道路。
系统介绍
图 4 展示了 SAGE 的基本流程。首先,一个能够解读上下文的指令解释模块将解析输入机器人的指令和其观察结果,将这些解析转化为下一步机器人动作程序以及与其相关的语义部分。接下来,SAGE 将语义部分(如容器 container)与需要进行操作部分(如滑动按钮 slider button)对应起来,并生成动作(如按钮的 「按压 press」 动作)来完成任务。

图 4:方法概览。
特定的用户手册。LLM 将基于输入生成一个可操作零件的目标。







图 12:真机演示。
研究团队同时也进行了大规模真实世界实验,他们使用 UFACTORY xArm 6 和多种不同的铰接物体进行操作。上图的左上部分展示了一个启动搅拌器的案例。搅拌器的顶部被感知为一个用于装果汁的容器,但其实际功能需要按下一个按钮来开启。SAGE 的框架有效地连接了其语义和动作理解,并成功执行了任务。
上图右上部分展示了机器人,需要按下(下压)紧急停止按钮来停止操作,旋转(向上)来重启。借助用户手册的辅助输入,在 SAGE 指导下的机械臂完成了这两个任务。上图底部的图片展示了开启微波炉任务中的更多细节。

图 13:更多真机演示和指令解读示例。
总结
团队介绍
SAGE 这一研究成果来自斯坦福大学 Leonidas Guibas 教授实验室、北京大学王鹤教授具身感知和交互(EPIC Lab)以及智源人工智能研究院。论文的作者为北京大学学生、斯坦福大学访问学者耿浩然(共同一作)、北京大学博士生魏松林(共同一作)、斯坦福大学博士生邓丛悦,沈博魁,指导老师为 Leonidas Guibas 教授和王鹤教授。
参考文献:
[1] Haoran Geng,Helin Xu,Chengyang Zhao,Chao Xu,Li Yi,Siyuan Huang,and He Wang。Gapartnet: Cross-category domaingeneralizable object perception and manipulation via generalizable and actionable parts。arXiv preprint arXiv:2211.05272,2025.
[2] Kirillov,Alexander,Eric Mintun,Nikhila R*i,Hanzi Mao,Chloe Rolland,Laura Gustafson,Tete Xiao et al。"Segment anything." arXiv preprint arXiv:2304.02643 (2025).
[3] Zhang,Hao,Feng Li,Shilong Liu,Lei Zhang,Hang Su,Jun Zhu,Lionel M。Ni,and Heung-Yeung Shum。"Dino: Detr with improved denoising anchor boxes for end-to-end object detection." arXiv preprint arXiv:2203.03605 (2025).
[4] Xiang,Fanbo,Yuzhe Qin,Kaichun Mo,Yikuan Xia,Hao Zhu,Fangchen Liu,Minghua Liu et al。"Sapien: A simulated part-based interactive environment." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,pp。11097-11107。2025.
以上就是家具家电通用三维图文大模型系统中的首创无需指导、泛化使用形象化模型的详细内容,更多请关注其它相关文章!
# sage
# fig
# 无师自通
# 首个
# 斯坦福大学
# 互动
# 北京大学
# 工程
# 营销推广软件很棒乐云seo
# 杨浦营销推广怎么做
# 滨州网络营销推广哪个好
# 怎么在搜狗上推广网站
# 杭州seo外链优化
# 北京怎么做推广营销赚钱
# 广州seo优化报价
# 9866电影网站建设
# 网站如何发布文案推广
# 什么网站推广流量大
# 展示了
# 开源
# 按下
# 过程中
# 为例
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
市盈率百分位roe是什么意思
typescript文件怎么打开
哪些库是typescript
春运抢票哪个平台好一点
混合固态硬盘如何分区
抖音GMV是什么_抖音GMV是什么意思
夸克网盘下载为什么要钱
5G手机导航怎么旋转
安全的ao3镜像网站链接入口
如何用固态硬盘做缓存
type-c全能接口是什么意思
苹果16有哪些系统
市盈率高是什么意思
夸克学习都有什么课程
typescript怎么使用map
树莓派命令行如何新建文件
春运抢票软件哪个好
市盈率静是什么意思
bugly是什么
折叠屏手机为什么这么小
如何打开win10命令
a03怎么根据编号找文链接入口
爱奇艺fun会员可以几个人用?
typescript怎么写call方法
typescript和node学哪个
类似微信的聊天软件有哪些
2025年哪个局域网聊天软件好用
市盈率市净率是什么意思
单片机怎么储存和显示
三星 nfc什么功能是什么意思
j*a数组怎么保存类
充电器上的power是什么意思
vue中datediff函数怎么用
为什么夸克运行不了
j*a里数组怎么赋值
如何将系统移到固态硬盘
typescript属性只读如何修改
东芝固态硬盘如何保修
nfc功能是什么意思怎么开启
typescript参数怎么用
电动车eco和power是什么意思
typescript怎么使用vue
油烟机上的power是什么意思
三星固态硬盘如何保修
如何检测固态硬盘温度
苹果16将会带来哪些升级
openwrt有什么用
干股是什么意思
vue怎么连接typescript
typescript能开发什么


2024-01-09
浏览次数:次
返回列表