新闻中心
高情商的NPC来了,刚伸出手,它就做好了要配合下一步动作的准备
在虚拟现实、增强现实、游戏和人机交互等领域,经常需要让虚拟人物和屏幕外的玩家互动。这种互动是即时的,要求虚拟人物根据操作者的动作进行动态调整。有些互动还涉及物体,比如和和虚拟人物一起搬动一把椅子,这就需要特别关注操作者手部的精确动作。智能、可交互的虚拟人物的出现,将极大地提升人类玩家与虚拟人物的社交体验,带来全新的娱乐方式。
在该研究中,作者专注于人与虚拟人的互动任务,特别是涉及物体的互动任务,提出了一项名为在线全身动作反应合成的新任务。新任务将基于人类的动作生成虚拟人的反应。以往的研究主要关注人与人的互动,不考虑任务中的物体,生成的身体反应也没有手部动作。此外,以往工作也没有将任务视为在线的推理,在实际情况中虚拟人根据实施情况对下一步进行预判。
为了支持新任务,作者首先构建了两个数据集,分别命名为 HHI 和 CoChair,并提出了一个统一的方法。具体来说,作者首先构建了社交可供性表示。为了做到这一点,他们选择了一个社交可供性载体,再使用 SE (3) 等变神经网络为该载体学习局部坐标系,最后将其社交可供性规范化。此外,作者还提出了一种社交可供性预测的方案,使虚拟人能够基于预测进行决策。
研究结果表明,该方法在HHI和CoCha
ir数据集上能够有效生成高质量的反应动作,并且在一块A100上能够实现每秒25帧的实时推理速度。此外,作者还通过对现有的人类互动数据集Interhuman和Chi3D的验证,证明了该方法的有效性。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

请参考以下论文地址以获取更详细的信息:[https://arxiv.org/pdf/2312.08983.pdf]。希望这对还在寻找解谜方法的玩家们有所帮助。
请访问项目主页https://yunzeliu.github.io/iHuman/,获取更多关于解谜方法的信息。
数据集构建
本文中,作者构建了两个数据集来支持在线全身动作反应合成任务。其中一个是双人交互的数据集HHI,另一个是双人与物体交互的数据集CoChair。这两个数据集为研究者们提供了宝贵的资源,可用于进一步探索全身动作合成领域。HHI数据集记录了双人之间的各种交互动作,而CoChair数据集则记录了双人与物体之间的交互动作。这些数据集的建立为研究者们提供了更多的实验

HHI 数据集是一个大规模的全身动作反应数据集,包含 30 个交互类别、10 对人体骨骼类型和总共 5000 个互动序列。
HHI 数据集有三个特点。第一个特点是包含多人全身互动,包括身体和手部互动。作者认为在多人互动中,手部的互动无法忽视,在握手、拥抱和交接过程中,都通过手部来传递丰富的信息。第二个特点是 HHI 数据集可以区分明确的行为发起者和反应者。例如,在握手、指向方向、问候、交接等情况下,HHI 数据集可以确定动作的发起者,这有助于研究者更好地定义和评估这个问题。第三个特点是 HHI 数据集包含的互动和反应的类型更丰富多样,不仅包括两个人之间 30 种类型互动,还提供了针对同一行动者的多个合理反应。例如,当有人向你打招呼时,你可以点头回应,用一只手回应,或者双手回应。这也是一种自然的特征,但以前的数据集很少关注到这一点并进行讨论。
CoChair 是一个大规模的多人和物体互动数据集,其中包括 8 个不同的椅子,5 种互动模式和 10 对不同的骨架,总共 3000 个序列。CoChair 有两个重要的特点:其一,CoChair 在协作过程中存在信息不对称。每一个行动都有一个(知道携带物的目的地的)执行者 / 发起者和一个(不知道目的地的)反应者。其二,它具有多样的携带模式。数据集包括五种携带模式:单手固定携带、单手移动携带、双手固定携带、双手移动携带和双手灵活携带。

方法
社交可供性载体指编码社交可供性信息的对象或人。当人类与虚拟人互动时,人类通常直接或间接地与虚拟人接触。而当涉及物体时,人类通常会接触物体。
为了模拟互动中的直接或潜在接触信息,需要选择一个载体来同时表征人类、载体本身以及它们之间的关系。在该研究中,载体指人类可能接触的物体或虚拟人模板。
基于此,作者定义了以载体为中心的社交可供性表示。具体而言,给定一个载体,研究者对人类行为进行编码,以获得密集的人 - 载体联合表示。基于这一表示,作者提出了一种社交可供性表示,其中包含人类行为的动作、载体的动态几何特征以及每个时间步骤中的人 - 载体关系。
需要注意的是,社交可供性表示指的是从开始时刻到特定时间步骤的数据流,而不是单帧的表示。这种方法的优势在于将载体的局部区域与人类的行为运动密切关联了起来,形成了便于网络学习的表示。

通过社交可供性表示,作者进一步采用社交可供性规范化来简化表达空间。第一步是学习载体的局部框架。通过 SE (3) 等变网络,学习得到载体的局部坐标系。具体来说,首先将人类的动作转化为每个局部坐标系的动作。接下来,作者从每个点的视角对人类角色的动作进行密集编码,以获得一个密集的以载体为中心的动作表示。这可以被视为将一个 「观察者」 绑定到载体上的每个局部点上,每个 「观察者」 都从第一人称视角对人类的动作进行编码。这种方法的优势在于在对人类,虚拟人以及物体之间的接触产生的信息进行建模的同时,社交可供性规范化简化了社交可供性的分布,并促进了网络学习。

为了预测和虚拟人交互的人类的行为,作者提出了社交可供性预测模块。在真实情况下,虚拟人只能观察到人类行为的历史动态。而作者认为虚拟人应该具备预测人类行为的能力,以便更好地规划自己的动作。例如,当有人抬手并向你走过来时,你可能会认为他们要与你握手,并做好迎接握手的准备。
在训练阶段,虚拟人可以观察到人类的所有动作。在真实世界的预测阶段,虚拟人只能观察到人类行为的过去动态。而提出的预测模块可以预测人类将要采取的动作,以提高虚拟人的感知能力。作者使用一个运动预测模块来预测人类行为者的动作和物体的动作。双人交互中,作者使用了 HumanMAC 作为预测模块。在双人与物体交互中,作者基于 InterDiff 构建了运动预测模块,并添加了一个先验条件,即人 - 物接触是稳定的,以简化对物体运动的预测难度。
实验

定量测试可以看出该研究的方法在所有度量指标上都优于现有方法。为了验证方法中每个设计的有效性,作者在 HHI 数据集上进行了消融实验。可以看出,没有社交可供性规范化时,该方法的表现显著下降。这表明使用社交可供性规范化来简化特征空间复杂性是必要的。没有社交可供性预测,文中的方法失去了预测人类行为者动作的能力,导致了性能下降。为了验证使用局部坐标系的必要性,作者还比较了使用全局坐标系的效果,可以看出局部坐标系显著更好。这也表明使用局部坐标系描述局部几何和潜在接触是有价值的。

从可视化结果可以看到,与以往相比,使用文中方法训练过的虚拟人物的反应更快,并且能够更好地捕捉到局部的手势,在协作中生成更逼真和自然的抓取动作。
更多研究细节,可参见原论文。
VALL-E
VALL-E是一种用于文本到语音生成 (TTS) 的语言建模方法
134
查看详情
以上就是高情商的NPC来了,刚伸出手,它就做好了要配合下一步动作的准备的详细内容,更多请关注其它相关文章!
# 模型
# AI
# seo系统算法分词
# 宁夏企业网络推广营销
# 谷歌官方对seo建议
# 黑龙江一般的网站推广
# 兴宁优化seo
# 海外seo是什么职位
# 郑州seo123
# 的人
# 手部
# 提出了
# 做好了
# 虚拟人
# 伸出手
# 它就
# 来了
# 可供
# 互动
# 传奇推广网站搭建教程
# 莒县seo网络优化
# seo有哪些
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
单片机蜂鸣器响了怎么停
dos命令如何复制目录结构
折叠屏手机信号哪个最强
油烟机上的power是什么意思
type-c接口接地是什么意思
如何进入安卓命令行
typescript中范围如何设定
debug中如何用n命令命名程序文件名
如何打开命令框
如何固态硬盘4k对齐
使用typescript对团队有什么要求
固态硬盘如何外接
广东春运几点抢票
8英寸等于多少厘米
春运抢票需要抢几天
苹果16都有哪些型号
反向春运抢票方式
md5解密是什么意思
如何安装m.2固态硬盘
喇叭上POWER4欧是什么意思
折叠屏手机为什么有黑点
光猫power灯一直闪是什么意思
typescript如何标记私有方法
react怎么用typescript
照相机上面power是什么意思
typescript 如何解决 null
征信不好如何恢复信誉度 征信不好恢复信誉度的方法
hive中datediff函数怎么用 Hive中DATEDIFF函数的使用指南
rxjs和typescript什么意思
焊机上power指示灯亮是什么意思
如何在命令行执行存储过程
vfp 命令窗口如何实现换行
如何安装笔记本固态硬盘
j*a怎么创建json数组
vi命令如何退出
命令行如何运行j*a
折叠屏手机哪个有性价比
manager是什么意思
为什么程序员热爱typescript
typescript书籍哪个好
debian10和ubuntu20哪个好用
阿里云盘修复工具怎么用
一分钟等于多少秒
wps中datediff函数怎么用 WPS中DATEDIFF函数的语法和用法分享
如何打开命令提示符
折叠屏手机为什么这么小
夸克是什么用途
如何用命令下载服务器网站
docs命令如何进入d
vi命令如何退出编辑模式


2024-01-07
浏览次数:次
返回列表