新闻中心
VLN-R1— 港大联合上海AI lab推出的具身智能框架
VLN-R1是什么
vln-r1是由香港大学与上海人工智能实验室共同研发的新型具身智能框架,利用大型视觉语言模型(lvlm),将第一人称视角的视频流直接转化为连续的导航动作。该框架依托habitat 3d模拟器构建了vln-ego数据集,并采用长短期记忆采样策略,平衡历史信息和当前观测内容。训练过程分为两个阶段:监督微调(sft)使模型的动作序列文本预测与专家示范保持一致;强化微调(rft)则基于时间衰减奖励(tdr)机制优化未来多步动作的表现。在vln-ce基准测试中,vln-r1展现出卓越性能,验证了lvlm在具身导航中的有效性,同时提升了任务特定推理能力并具备高数据效率。
CA.LA
第一款时尚产品在线设计平台,服装设计系统
94
查看详情
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
VLN-R1的主要功能
- 连续环境导航:可直接处理第一人称视角视频流,使智能体能够在连续的3D环境中自由移动,而不仅限于固定节点。
- 动作生成:能够输出四种基本指令(前进、左转、右转、停止),实现对导航行为的精准控制。
- 数据高效训练:通过监督微调(SFT)与强化微调(RFT)相结合的方式,在有限的数据量下完成高效的模型训练,显著提升导航表现。
- 跨领域适应:借助强化微调(RFT),模型可以在仅有少量新数据的情况下快速适应新的导航任务和环境。
- 任务特定推理:引入时间衰减奖励(TDR)机制,优化对未来多步动作的预测,从而增强长期导航的稳定性与准确性。
VLN-R1的技术原理
- 数据集构建:VLN-Ego数据集由Habitat 3D模拟器生成,包含第一人称视频流及其对应的未来动作预测,为模型提供丰富的训练素材。
- 长短期记忆采样:在处理视频输入时,采用长短期记忆采样策略,动态调节历史帧与实时输入的重要性,确保模型既关注短期变化,又保留长期上下文。
-
监督微调(SFT):通过最小化模型预测文本与专家示范之间的交叉熵损失,使模型的动作序列预测更加贴近
真实操作,提高其对语言指令的理解能力。 - 强化微调(RFT):采用组相对策略优化(GRPO)方法,结合时间衰减奖励(TDR)机制评估和优化未来多步动作的预测效果,进一步提升模型在复杂任务中的表现。
- 大型视觉语言模型(LVLM):依托先进的LVLM(例如Qwen2-VL)处理视觉与语言输入,实现从第一视角视频到导航指令的端到端映射,提升整体系统的泛化能力与适应性。
VLN-R1的项目地址
- 项目官网:https://www.php.cn/link/9eb8eff225298ae9cdc871bff8b16b7d
- GitHub仓库:https://www.php.cn/link/3e2309f10cc986e761d11632be29f3ad
- arXiv技术论文:https://www.php.cn/link/70e57eb7c5b31448a55580c15b574d9c
VLN-R1的应用场景
- 家庭服务机器人:支持家庭机器人根据用户自然语言指令自主导航,执行清洁、取物等任务,提升居家便利程度。
- 工业自动化:协助工厂车间机器人依据人工指令灵活移动,完成物料运输和设备维护,提升生产效率。
- 智能仓储:让仓储机器人根据指令在货架间精准定位并完成货物存取,提高仓储管理效率。
- 医疗保健:应用于医院或养老院场景,使机器人能按医护人员或患者指令进行导航,完成送药、送餐等工作,减轻人力负担。
- 智能交通:帮助自动驾驶车辆在复杂城市道路中依据信号和指令进行导航,提升行驶安全性和灵活性。
以上就是VLN-R1— 港大联合上海AI lab推出的具身智能框架的详细内容,更多请关注其它相关文章!
# 中文网
# 朔州网站推广sem
# php seo设置
# 深圳专业网站建设加盟
# 西藏seo排名选哪家企业
# 网站优化零基础
# 生态社区网站建设
# 医院网站建设用什么软件
# 红色旅游app营销推广
# 营销计划推广表模板
# 长治网络推广人招聘网站
# 解决问题
# git
# 相关文章
# 是由
# 自然语言
# 安装包
# 一键
# 港大
# 未来
# 上海
# qwen
# 模拟器
# ai
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
如何通过命令系统还原
如何通过命令行启动tomcat
rxjs和typescript什么意思
如何显示固态硬盘
如何在一串数字前面去掉四位数的命令
命令不执行如何处理
vi命令如何退出
选哪个折叠屏手机好
type-c输入接口是什么
单片机显存怎么设置最佳
如何使用程序编译 执行的命令
夸克解压什么意思
买的5g手机但是没有5g网络怎么办
i5 6500怎么装win7
如何使用net命令
mac如何使用vi命令行
固态硬盘如何检查
单片机怎么控制闪烁技术
1kb等于多少字节
单片机学习视频怎么调色
显示器的power是什么意思
苹果16最近玩法有哪些
ssd固态硬盘如何安装
ai怎么找链接文件位置教程
怎么关360壁纸广告
单片机程序负数怎么表示
命令指示符如何打开盘符
12306放票时间规律(2025)
python和typescript学哪个
命令行如何运行j*a
mac如何使用vi命令
交管12123协议头不完整是啥意思
j*a怎么创建json数组
如何利用运行命令查看声音启动
如何以管理员身份打开命令提示符
哪些编程软件需要typescript
在遥控器中power是什么意思
m*en repository的作用是什么
如何更新typescript
debian和ubuntu命令一样吗
如何安装固态硬盘win10
如果公司ttm市盈率为负数是什么意思
单片机蓝牙怎么开启设备
vue中datediff函数怎么用
语音聊天软件哪个好 语音聊天软件2025排行榜
animal是什么意思
单片机怎么做组合
怎么在项目中使用typescript
typescript怎么用
如何在命令行执行存储过程


2025-06-27
浏览次数:次
返回列表
真实操作,提高其对语言指令的理解能力。