新闻中心
MineWorld— 微软研究院开源的实时交互式世界模型
mineworld是由微软研究院开源的一个基于《我的世界》(minecraft)的实时交互式世界模型。它利用视觉-动作自回归transformer架构,将游戏场景和动作转化为离散的token id,通过预测下一个token进行训练。模型采用了并行解码算法,实现了每秒4至7帧的生成速度,支持实时互动。mineworld在视频质量、可控性和推理速度方面都优于现有模型,如oasis。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

MineWorld的主要功能包括:
- 高生成质量:通过视觉-动作自回归Transformer,MineWorld能够根据视觉和动作生成连贯且高保真的游戏帧。
- 强可控性:模型在动作跟随能力的基准测试中表现出色,能够精确且一致地根据输入动作生成游戏场景。
- 快速推理速度:利用并行解码算法,模型能够以每秒4至7帧的速度生成图像,支持实时互动。
- 作为游戏代理:在训练过程中,MineWorld同时预测游戏状态和动作,可以作为独立的游戏代理进行自主游戏。
- 实时交互能力:用户可以通过Web演示或本地运行与模型进行实时互动,选择初始帧、控制相机移动并执行游戏动作。
MineWorld的技术原理如下:
Whimsical
Whimsical推出的AI思维导图工具
182
查看详情
-
视觉-动作自回归Transformer:MineWorld通过将游戏场景和玩家动作转化为离散的token序列,实现视觉和动作的联合建模。具体包括:
- 图像标记器(Visual Tokenizer):采用VQ-VAE架构,将游戏场景分割为离散的视觉标记。标记器从预训练的检查点开始,在Minecraft数据集上进行微调,以实现高质量的图像重建。
- 动作标记器(Action Tokenizer):将玩家的连续动作(如鼠标移动)量化为离散的标记,将离散动作(如前进、攻击)归类为不同的类别,每个类别由唯一的标记表示。
- Transformer解码器:采用LLaMA架构,接收交错拼接的视觉标记和动作标记序列作为输入,通过下一个标记预测进行训练。解码器能够同时学习游戏状态的丰富表示以及状态和动作之间的条件关系。
- 并行解码算法:为了实现实时交互,MineWorld开发了一种并行解码算法。算法利用相邻图像标记之间的空间依赖性,同时预测每帧中的空间冗余标记。与传统的自回归解码算法相比,显著提升了生成速度,使模型能够在不同规模下达到每秒4至7帧的生成速度。
- 训练:模型通过下一个标记预测进行训练,学习游戏状态之间的动态演变规律以及动作与状态之间的关联。
-
推理:在推理阶段,模型根据输入的当前游戏状态和动作,生成后续的游戏场景。
并行解码算法的应用使得模型能够快速生成高质量的游戏帧。 - 评估指标:MineWorld提出了新的评估指标,用于评估生成场景的视觉质量和动作跟随能力。例如,通过比较生成场景中预测的动作与输入的真实动作之间的准确性,来量化模型的可控性。
MineWorld的项目地址包括:
- Github仓库:https://www.php.cn/link/299bb6d67f1bf42897291cc8f4aa3a95
- HuggingFace模型库:https://www.php.cn/link/c55da58933dadf65138cee2fe9a4169e
- arXiv技术论文:https://www.php.cn/link/fd7b27cb8f482d541add663d421a0b5d
MineWorld的应用场景包括:
- 具身智能研究:MineWorld提供了一个高保真、可交互的虚拟环境,适合用于具身智能的研究。研究人员可以用模型训练智能体,学习在虚拟环境中执行任务,如物体定位导航和环境探索。
- 强化学习训练:MineWorld的实时交互能力和高生成质量使其成为强化学习训练的理想平台。研究人员可以用模型快速生成大量的训练数据,帮助智能体在模拟环境中学习最优策略。
- 游戏代理开发:由于MineWorld在训练过程中同时预测游戏状态和动作,具备作为游戏代理的潜力。给定初始游戏状态和动作,模型可以迭代生成未来的状态和动作,模拟长期的游戏过程。
- 实时交互式模拟:MineWorld的快速推理速度(每秒4至7帧)能支持与游戏玩家的实时交互。
- 视频生成与编辑:MineWorld能够生成高质量、连贯一致的游戏视频,可用于视频内容创作,例如生成游戏预告片和教学视频。
以上就是MineWorld— 微软研究院开源的实时交互式世界模型的详细内容,更多请关注其它相关文章!
# 安装包
# 怎样开通淘宝店铺网站推广
# 大连seo整站
# 海南seo优化哪里不错
# 营销推广的方案包括
# 商品推广单页网站源码
# 眉山银川网站推广
# 拼多多农产品营销推广方案
# 重庆綦江网站优化费用
# 崇明区推广网站价格对比
# 吉林seo排名怎样收费
# 鼠标
# git
# 过程中
# 一键
# 转化为
# 可以用
# 高质量
# 开源
# 互动
# 微软
# oasis
# llama
# 我的世界
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
如何用adb命令停用系统软件
type-c全能接口是什么意思
苹果电脑如何输入命令
j*a怎么读取char数组
光猫power和pon常亮是什么意思
vs怎么编写typescript
电动车充电器上的power是什么意思
如何查看电脑的固态硬盘
单片机蓝牙怎么开启设备
焊机上power指示灯亮是什么意思
如何通过命令检测u盘启动
vue项目如何用typescript
如何用命令提示符显示隐藏分区
苹果16粉色还有哪些机型
宝马x5仪表盘上边有power是什么意思
ts什么意思
固态硬盘如何安装win10系统安装
企业征信不好如何恢复 企业征信不好怎么恢复步骤
自由服务器如何做动态ip域名解析
光刻机的分类及其优缺点
shell如何执行sql脚本命令行
win7怎么取消360显示的壁纸
typescript怎么写多个构造方法
power在坐标轴中是什么意思
春运抢票最多能抢几趟车
为什么夸克流畅播失败
台达变频器power灯是什么意思
j*a怎么创建json数组
哪些编程软件需用typescript
什么是typescript
nosql数据库的应用场景有哪些
typescript和node学哪个
自己如何加装固态硬盘
typescript学会要多久
春运抢票哪个平台好抢
怎么关360壁纸广告
咋免费领取爱奇艺会员 如何免费领取爱奇艺会员步骤
春运大巴上抢票怎么抢票
系统如何装在固态硬盘
如何winpe cmd命令
市盈率ttm是什么意思
typescript如何做项目
windows 如何连接ftp命令行
市盈率百分位roe是什么意思
春运订票什么时候抢票
typescript是什么软件
如何在命令提示符播放音频
基金市盈率是什么意思
平板键盘nfc功能是什么意思
舆论是什么意思


2025-04-20
浏览次数:次
返回列表
并行解码算法的应用使得模型能够快速生成高质量的游戏帧。