新闻中心

VLN-R1— 港大联合上海AI lab推出的具身智能框架

2025-06-27
浏览次数:
返回列表

VLN-R1是什么

vln-r1是由香港大学与上海人工智能实验室共同研发的新型具身智能框架,利用大型视觉语言模型(lvlm),将第一人称视角的视频流直接转化为连续的导航动作。该框架依托habitat 3d模拟器构建了vln-ego数据集,并采用长短期记忆采样策略,平衡历史信息和当前观测内容。训练过程分为两个阶段:监督微调(sft)使模型的动作序列文本预测与专家示范保持一致;强化微调(rft)则基于时间衰减奖励(tdr)机制优化未来多步动作的表现。在vln-ce基准测试中,vln-r1展现出卓越性能,验证了lvlm在具身导航中的有效性,同时提升了任务特定推理能力并具备高数据效率。

CA.LA CA.LA

第一款时尚产品在线设计平台,服装设计系统

CA.LA 94 查看详情 CA.LA

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

VLN-R1— 港大联合上海AI lab推出的具身智能框架VLN-R1的主要功能

  • 连续环境导航:可直接处理第一人称视角视频流,使智能体能够在连续的3D环境中自由移动,而不仅限于固定节点。
  • 动作生成:能够输出四种基本指令(前进、左转、右转、停止),实现对导航行为的精准控制。
  • 数据高效训练:通过监督微调(SFT)与强化微调(RFT)相结合的方式,在有限的数据量下完成高效的模型训练,显著提升导航表现。
  • 跨领域适应:借助强化微调(RFT),模型可以在仅有少量新数据的情况下快速适应新的导航任务和环境。
  • 任务特定推理:引入时间衰减奖励(TDR)机制,优化对未来多步动作的预测,从而增强长期导航的稳定性与准确性。

VLN-R1的技术原理

  • 数据集构建:VLN-Ego数据集由Habitat 3D模拟器生成,包含第一人称视频流及其对应的未来动作预测,为模型提供丰富的训练素材。
  • 长短期记忆采样:在处理视频输入时,采用长短期记忆采样策略,动态调节历史帧与实时输入的重要性,确保模型既关注短期变化,又保留长期上下文。
  • 监督微调(SFT):通过最小化模型预测文本与专家示范之间的交叉熵损失,使模型的动作序列预测更加贴近真实操作,提高其对语言指令的理解能力。
  • 强化微调(RFT):采用组相对策略优化(GRPO)方法,结合时间衰减奖励(TDR)机制评估和优化未来多步动作的预测效果,进一步提升模型在复杂任务中的表现。
  • 大型视觉语言模型(LVLM):依托先进的LVLM(例如Qwen2-VL)处理视觉与语言输入,实现从第一视角视频到导航指令的端到端映射,提升整体系统的泛化能力与适应性。

VLN-R1的项目地址

  • 项目官网:https://www.php.cn/link/9eb8eff225298ae9cdc871bff8b16b7d
  • GitHub仓库:https://www.php.cn/link/3e2309f10cc986e761d11632be29f3ad
  • arXiv技术论文:https://www.php.cn/link/70e57eb7c5b31448a55580c15b574d9c

VLN-R1的应用场景

  • 家庭服务机器人:支持家庭机器人根据用户自然语言指令自主导航,执行清洁、取物等任务,提升居家便利程度。
  • 工业自动化:协助工厂车间机器人依据人工指令灵活移动,完成物料运输和设备维护,提升生产效率。
  • 智能仓储:让仓储机器人根据指令在货架间精准定位并完成货物存取,提高仓储管理效率。
  • 医疗保健:应用于医院或养老院场景,使机器人能按医护人员或患者指令进行导航,完成送药、送餐等工作,减轻人力负担。
  • 智能交通:帮助自动驾驶车辆在复杂城市道路中依据信号和指令进行导航,提升行驶安全性和灵活性。

以上就是VLN-R1— 港大联合上海AI lab推出的具身智能框架的详细内容,更多请关注其它相关文章!


# 中文网  # 朔州网站推广sem  # php seo设置  # 深圳专业网站建设加盟  # 西藏seo排名选哪家企业  # 网站优化零基础  # 生态社区网站建设  # 医院网站建设用什么软件  # 红色旅游app营销推广  # 营销计划推广表模板  # 长治网络推广人招聘网站  # 解决问题  # git  # 相关文章  # 是由  # 自然语言  # 安装包  # 一键  # 港大  # 未来  # 上海  # qwen  # 模拟器  # ai 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 如何通过命令系统还原  如何通过命令行启动tomcat  rxjs和typescript什么意思  如何显示固态硬盘  如何在一串数字前面去掉四位数的命令  命令不执行如何处理  vi命令如何退出  选哪个折叠屏手机好  type-c输入接口是什么  单片机显存怎么设置最佳  如何使用程序编译 执行的命令  夸克解压什么意思  买的5g手机但是没有5g网络怎么办  i5 6500怎么装win7  如何使用net命令  mac如何使用vi命令行  固态硬盘如何检查  单片机怎么控制闪烁技术  1kb等于多少字节  单片机学习视频怎么调色  显示器的power是什么意思  苹果16最近玩法有哪些  ssd固态硬盘如何安装  ai怎么找链接文件位置教程  怎么关360壁纸广告  单片机程序负数怎么表示  命令指示符如何打开盘符  12306放票时间规律(2025)  python和typescript学哪个  命令行如何运行j*a  mac如何使用vi命令  交管12123协议头不完整是啥意思  j*a怎么创建json数组  如何利用运行命令查看声音启动  如何以管理员身份打开命令提示符  哪些编程软件需要typescript  在遥控器中power是什么意思  m*en repository的作用是什么  如何更新typescript  debian和ubuntu命令一样吗  如何安装固态硬盘win10  如果公司ttm市盈率为负数是什么意思  单片机蓝牙怎么开启设备  vue中datediff函数怎么用  语音聊天软件哪个好 语音聊天软件2025排行榜  animal是什么意思  单片机怎么做组合  怎么在项目中使用typescript  typescript怎么用  如何在命令行执行存储过程 

搜索