新闻中心

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

2024-02-01
浏览次数:
返回列表

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

随着人工智能和机器人技术的迅速发展,功能操控(Functional Manipulation)在机器人学中的重要性愈加突出。传统的基准测试已无法满足目前机器人对复杂操控任务的需求,呼吁新的操控基准(Functional Manipulation Benchmark)出现。

概述

机器人操控面临两个主要挑战:机器人如何智能地处理复杂的接触动力学以及如何应对环境和物体的多样性。针对这些挑战,机器人学习技术被视为关键的解决手段。因此,该领域需要一个全面易得的框架,提供有挑战性的实际任务、高质量数据、易于复制的设置,集合了基线结果的相关方法,基于该框架,研究人员能够对所提出任务的实验发现进行深入分析。

加州大学伯克利分校智能机器人实验室(RAIL)的研究团队提出了如上所述的现实世界基准,称为 FMB(Functional Manipulation Benchmark for Generalizable Robotic Learning)。

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

  • 项目主页:https://functional-manipulation-benchmark.github.io/
  • 论文地址:https://arxiv.org/abs/2401.08553
  • 论文题目:FMB: a Functional Manipulation Benchmark for Generalizable Robotic Learning
  • 共同第一作者主页:https://people.eecs.berkeley.edu/~jianlanluo/
  • https://charlesxu0124.github.io/

FMB 具有以下特点:

  • 创新设计:采用了 3D 打印技术制作任务中的物体,来考验机器人的泛化能力,这种方法也便于其他研究人员复现。
  • 多样化任务:包含单物体和多物体多阶段操控任务,真实模拟日常环境中的挑战。
  • 大型数据集:通过大量人工演示,为机器人提供了丰富的数据集。
  • 模仿学习基线:使用最先进的机器学习方法,提供了基线结果和模块化组件以供其他研究者使用。

物体和任务

FMB 中的任务大致分为两类:单物体多步骤操控任务和多物体多步骤操控任务。这些任务旨在测试机器人的基本技能,如抓取、重新定位和装配等,这些都是完成整个任务所必需的技能。FMB 中的任务要求机器人不仅能完成单一的操控技能,还要求机器人能够将这些技能组合起来,完成更为复杂的多步骤任务。

FMB 的任务设计灵活多变,研究人员可以根据需要选择专注于单一技能,深入研究机器人的操控能力,也可以研究完整的多步骤任务,这需要机器人进行长期规划并具备从失败中恢复的能力。由于涉及选择合适的物体并推理操控物体的顺序,更为复杂的多步骤任务要求机器人能够做出复杂的实时决策。

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

大型数据集

在机器人学习的过程中,数据的作用不可小觑。为了使机器人更好地理解和掌握复杂的任务,研究团队收集了一个涵盖上述任务的大规模专家人类示范数据集,包含超过两万个操作轨迹。研究团队采用了四个不同的摄像机记录这些示范数据,其中两个摄像机安装在机器人的腕部,另外两个提供全局视角。这些摄像机捕捉了对于机器人学习解决任务至关重要的 RGB 彩色图像信息、深度信息等数据。

此外,数据集还记录了机器人末端执行器的力 / 扭矩信息,这对于像装配这样需要接触大量物体的的任务非常重要。通过这些丰富的数据,机器人能够深入理解任务的每个细节,更加精确地模仿人类的操作技巧。正是由于数据的深度和广度,为机器人学习提供了坚实的基础。这使得机器人在执行复杂任务时,能够更加人性化和更灵巧地对任务作出响应。

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

模仿学习基线

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

基线策略的架构图。

基于 Transformer 和 ResNet 的两种模型都使用了共享权重的 ResNet 编码器对每个图像视图进行编码,然后与本体感知信息和可选的物体和相应的机器人技能编码特征结合,以预测 7 自由度的动作。

FMB 的实验部分对模仿学习系统的性能进行了一系列测试,比较了不同的学习方法,探究了不同输入模式和设计决策的影响。实验发现,使用深度信息有助于提高抓取策略的效果,力 / 扭矩信息对于装配任务非常重要。对于多步骤任务,传统的 ResNet、Transformer 和 Diffusion 方法均未能奏效,但该论文中提出的分级控制 (hierarchical control) 方法显示出了潜力。

抓取任务

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

刺鸟创客 刺鸟创客

一款专业高效稳定的AI内容创作平台

刺鸟创客 110 查看详情 刺鸟创客
实验结果显示,纳入深度信息的 ResNet 策略在抓取任务中的性能一致优于仅使用 RGB 信息的策略。通过数据削减研究,研究团队探究了不同数量的训练数据对抓取任务性能的影响。结果显示,纳入深度信息的 ResNet 策略在处理已见物体时的性能将随着训练数据量的增加而提升。值得注意的是,该策略对未见过的物体表现出了与已见物体相近的性能,这表明训练对象的多样性极大地促进了机器人的泛化能力。

装配任务

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

在装配任务中,力 / 扭矩信息的重要性得到了证实。力 / 扭矩信息对于机器人采取的策略判断物体是否已经接触到目标表面,并有效进行搜索等行为非常重要。

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

然而,当策略在所有物体上进行训练时,机器人并不总是能够成功地完成装配任务。这是因为策略需要首先判断应将物体装配到哪个孔中,然后再生成相应的动作,这大大增加了任务的复杂性。为了解决这个问题,研究团队在策略中添加了一个选取物体机制,帮助策略确定需要装配的物体的形状,从而专注于生成正确的装配动作。

多步骤任务

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

FMB 的框架包含了两项复杂任务。这些复杂任务要求机器人能够像人类一样连续完成多个步骤。此前的方法是让机器人学习整个过程,但这种方法容易因为单一环节的错误而不断累计误差,最后导致整个任务失败。无论是在单物体还是多物体操控任务中,这种方法的成功率均为 0/10。

针对累积误差问题,研究团队采用了分层控制策略。分层策略通过将任务分解成若干小块,每完成一块便相当于通过一个决策点,即使出现错误也能迅速纠正,避免影响后续环节。例如,如果机器人在抓取过程中未能稳固抓住物体,它会持续尝试直至成功。

研究团队测试了两种分层方法,第一种方法为单一策略提供指示任务类型的有效向量,而第二种方法则是针对每个操控技能单独训练不同的策略,均采用了操作员的指令作为上层策略,在测试中,研究团队发现这两种方法均表现优异。

测试结果显示了分层方法在处理复杂机器人任务中的有效性,并为未来研究提供了新的研究方向。

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

如上图所示,机器人在学习后能够自主进行功能操控。

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

总的来说,以上实验展示了研究团队在机器人学习领域的技术创新,也验证了 FMB 是适合开发先进机器人学习方法的基准。研究团队研究期待未来的研究可以在 FMB 基础上进一步推动机器人学习的边界。

以上就是伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难的详细内容,更多请关注其它相关文章!


# 都能  # 农化企业网站建设  # 品牌营销推广加盟项目  # 太仓企业网站优化多少钱  # seo优化的方式与方法  # 玉林本地seo工具  # qq空间赞网站推广  # 房山哪家网站优化好  # 济南网站百度推广电话  # 某网站制定推广方案  # 网站推广营销主题文案  # 两种  # 产业  # 出了  # 非常重要  # 种方法  # 华纳  # 采用了  # 伯克利  # 开源  # 高质量  # 功能操控  # fmb  # 机器人技术 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 怎么用typescript 写js  市盈率市净率是什么意思  如何给电脑加装固态硬盘  美食音乐每日推荐怎么写  j*a怎么复制数组中  市盈率中1stdv是什么意思  r中如何逐行执行命令  put linux命令如何书写  j*a怎么用数组缓存  汽车收音机power是什么意思  新找到ao3镜像网站链接入口  雅迪电动车上的power是什么意思  如何寻找和修复无法在 AI 中找到文件的问题  typescript有哪些版本  爱奇艺vip会员可以同时几个人用?  本科一批和本科二批是什么意思  如何知道固态硬盘  ao3镜像网站永久地址入口  云淡风轻什么意思  如何用命令打开光驱  电脑5G怎么上传手机  制冰机power1灯亮是什么意思  市盈率中的19a是什么意思  市盈率负值是什么意思  光刻机的作用及工作原理  如何正确使用固态硬盘  课程伴侣登不上怎么办  阿里云盘扩容工具怎么用  shell如何注释所有命令  新固态硬盘如何装系统  固态硬盘如何消除缓存  计数器上power是什么意思  vue怎么连接typescript  使用typescript对团队有什么要求  显示器上power键是什么意思  linux如何使用db2命令  access 如何输入命令  j*a如何运行curl命令行  typescript全局配置放哪里  春运抢票可以抢几张  如何进入 dos 命令行  ai如何重复使用上一命令  win7怎么做幻灯片  爱奇艺中下载的视频怎么在PPT中播放操作方法  j*a对数组怎么使用  通配符的用法  华为使用nfc功能是什么意思  苹果16会有哪些更新  划水是什么意思  台达plc只有power灯亮是什么意思 

搜索