新闻中心

李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

2024-12-19
浏览次数:
返回列表

斯坦福大学研究团队提出全新多模态语言模型,实现逼真3d人体动作生成与理解。该模型突破性地整合了语音、文本和动作三种模态,能够根据语音和文本指令生成自然流畅的动作,并支持动作编辑。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

模型架构图

研究人员指出,利用语言模型统一人类动作的言语和非言语表达至关重要,因为它能自然地与其他模态连接,并具备强大的语义推理和理解能力。 该模型采用两阶段训练:首先进行预训练,对齐不同模态,然后进行下游任务训练,使其遵循各种指令。

预训练流程图

该模型将动作分解为面部、手部、上半身和下半身等不同部位进行token化,再结合文本和语音token化策略,实现多模态输入的统一表示。预训练阶段包含组合动作对齐(空间和时间)和音频-文本对齐两种任务,以学习动作的时空先验和模态间关联。

空间动作对齐示例

时间动作对齐示例

千鹿Pr助手 千鹿Pr助手

智能Pr插件,融入众多AI功能和海量素材

千鹿Pr助手 128 查看详情 千鹿Pr助手

实验结果表明,该模型在伴语手势生成等任务上超越现有SOTA模型,尤其在数据稀缺的情况下优势显著。 它能够根据语音和文本指令生成协调一致的动作,并支持将“绕圈走”等动作替换为其他动作序列,保持动作的自然流畅。

与其他模型效果对比

与其他模型效果对比

此外,该模型还展现了出色的泛化能力和在动作情绪预测任务中的潜力。这项研究为李飞飞教授的“空间智能”研究目标做出了重要贡献。

  • 论文标题:The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion
  • 论文地址:https://www.php.cn/link/c5b3966bd2d4c690da368b3ecbece868
  • 项目页面:https://www.php.cn/link/f9ab9a0f7c56435e35dc4dadf0eb6945

以上就是李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪的详细内容,更多请关注其它相关文章!


# 李飞飞  # 产业  # 句话  # 与其他  # 网易  # 还能  # 模态  # 多模  # 神技  # yy  # git  # 空间智能  # 保山抖音关键词排名价格  # 常德网站建设外包公司  # 黔南seo排名优化好吗  # 聚美优品网站建设  # 山西抖音营销代运营推广  # 火狐seo什么意思  # 网站推广和外贸  # 武汉seo资源  # 公众号seo起名  # seo优化官网收录  # 开源  # 斯坦福大学  # 你该 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 5g手机4g卡怎么没有网络  汽车上power是什么意思  如何提高固态硬盘速度  ssd固态硬盘如何选择  折叠屏手机好不好,耐不耐用  typescript需要学多久  j*a怎么处理json数组  热水器没热水显示power是什么意思  路由器power闪红绿灯闪是什么意思  苹果16粉色还有哪些机型  j*a怎么让数组倒换  春运抢票需要抢几天  单片机显存怎么设置最佳  喇叭上POWER4欧是什么意思  春运抢票软件哪个好  单片机for循环怎么用  单片机的速度怎么求  摄像机的power chg是什么意思中文  苹果16最近玩法有哪些  typescript中范围如何设定  苹果16有哪些bug  丰田type-c接口是什么  满射为什么没有逆映射  grub命令如何进dos  春运抢票哪个平台好抢  开机如何进入命令行模式  typescript多久能学会  望远镜上power是什么意思  数组和J*A怎么打  春运抢票可以抢几张  光刻机分类有哪些品牌的  typescript怎么用  一分钟等于多少秒  j*a map数组怎么取值  春运抢票最快几天能成功  春运高速高铁抢票攻略  固态硬盘如何4k对其  cmd如何定时执行命令  市盈率动亏损是什么意思  命令行如何启动应用程序  adb 命令如何后台运行  干股是什么意思  春运抢票在哪儿抢票  夸克为什么老是投屏失败  固态硬盘如何保存  typescript如何定义变量  固态硬盘装完如何使用  typescript入门要多久  typescript属性只读如何修改  命令不执行如何处理 

搜索