新闻中心

FantasyTalking— 阿里联合北邮推出静态肖像生成可控数字人的框架

2025-04-12
浏览次数:
返回列表

FantasyTalking是什么

fantasytalking 是阿里巴巴 amap 团队和北京邮电大学联合提出的新型框架,用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变换器模型,采用双阶段视听对齐策略,第一阶段通过片段级训练方案建立连贯的全局运动,第二阶段通过唇部追踪掩码在帧级别细化唇部运动,确保与音频信号精确同步。框架引入面部专注的交叉注意力模块来保持面部一致性,通过运动强度调制模块实现对表情和身体运动强度的控制。

Whimsical Whimsical

Whimsical推出的AI思维导图工具

Whimsical 182 查看详情 Whimsical

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

FantasyTalking— 阿里联合北邮推出静态肖像生成可控数字人的框架

FantasyTalking的主要功能

  • 口型同步:能准确识别并同步虚拟角色的口型与输入语音,使角色在说话时的口型与语音内容完全一致,增强了角色的真实感和可信度。
  • 面部动作生成:根据语音内容和情感信息,生成相应的面部动作,如眨眼、皱眉、微笑等,使虚拟角色的表情更加丰富和生动。
  • 全身动作生成:能根据场景和情节需要,生*身的动作和姿态,如行走、奔跑、跳跃等,使虚拟角色在动画中更加自然和流畅。
  • 运动强度控制:通过运动强度调制模块,用户可以显式控制面部表情和身体运动的强度,实现对肖像运动的可控操纵,不仅限于唇部运动。
  • 多种风格支持:支持多种风格的虚拟形象,写实风格、卡通风格,能生成高质量的对话视频。
  • 多种姿态支持:支持生成具有各种身体范围和朝向的逼真说话视频,包括特写肖像、半身、全身以及正面和侧面姿势。

FantasyTalking的技术原理

  • 双阶段视听对齐策略
    • 片段级训练:在第一阶段,通过片段级训练方案,模型会捕捉音频与整个场景(包括参考肖像、上下文对象和背景)之间的弱相关性,建立全局的视听依赖关系,实现整体特征融合。使模型能学习到与音频相关的非语言线索(如眉毛运动、肩膀动作)和强音频同步的唇部动态。
    • 帧级训练:在第二阶段,模型专注于帧级与音频高度相关的视觉特征细化,特别是唇部动作。通过使用唇部追踪掩码,模型能确保唇部运动与音频信号精确对齐,提高生成视频的质量。
  • 身份保持:传统的参考网络方法通常会限制视频中人物和背景的大范围自然变化。FantasyTalking 采用面部专注的交叉注意力模块,集中建模面部区域,通过交叉注意力机制解耦身份保留与动作生成。更轻量级,能解放对背景和人物自然运动的限制,确保在整个生成的视频序列中保持角色的身份特征。
  • 运动强度调节:FantasyTalking 引入了运动强度调制模块,能显式控制面部表情和身体运动的强度。使用户可以对肖像运动进行可控操纵,不仅限于唇部运动。通过调节运动强度,可以生成更加自然和多样化的动画。
  • 基于预训练的视频扩散变换器模型:FantasyTalking 基于 Wan2.1 视频扩散变换器模型,基于时空建模能力,生成高保真、连贯的说话肖像视频。模型能有效捕捉音频信号与唇部运动、面部表情以及身体动作之间的关系,生成高质量的动态肖像。

FantasyTalking的项目地址

  • 项目官网:http://fantasy-amap.github.io/fantasy-talking/
  • Github仓库:http://github.com/Fantasy-AMAP/fantasy-talking
  • arXiv技术论文:http://arxiv.org/pdf/2504.04842

FantasyTalking的应用场景

  • 游戏开发:在游戏开发中,FantasyTalking 可用于生成游戏角色的对话动画和战斗动画。能根据语音内容生成精准的口型同步、丰富的面部表情和自然的全身动作,使游戏角色更加生动逼真,提升游戏的视觉效果和玩家的沉浸感。
  • *制作:在*制作中,可用于生成虚拟角色的表演动画和特效动画。通过 FantasyTalking 可以快速生成具有复杂表情和动作的虚拟角色,减少传统动画制作中的人力和时间成本,为*作品增添更多的创意和想象力。
  • 虚拟现实和增强现实:在虚拟现实(VR)和增强现实(AR)应用中,FantasyTalking 可以生成虚拟角色的交互动画和引导动画。
  • 虚拟主播:FantasyTalking 可以用于生成虚拟主播的动画视频。支持多种风格的虚拟形象,虚拟主播可以用于新闻播报、|直播|带货、在线教育等多种场景,具有较高的实用性和灵活性。
  • 智能教育:在智能教育领域,FantasyTalking 可以生成虚拟教师或虚拟助教的动画视频。

以上就是FantasyTalking— 阿里联合北邮推出静态肖像生成可控数字人的框架的详细内容,更多请关注其它相关文章!


# 阿里巴巴  # 南宁企业型网站平台建设  # 如果不做seo  # 保定网站建设seo  # 关键词排名公司实力乐云seo  # 五莲视频营销推广哪个好  # 铁岭网站建设制作推广  # 延安全网营销推广公司有哪些  # 东莞网站推广营销好做吗  # 荔湾网站关键词优化费用  # 伊川网站优化定制  # git  # 可以用  # 掩码  # 安装包  # 游戏开发  # 一键  # 高质量  # 北邮  # 主播  # 变换器  # talk 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 硬盘和固态硬盘如何区分  manager是什么意思  j*a怎么讲数组打印  笔记本电脑多少钱  如何查看电脑的固态硬盘  12306退票手续费最新规定  如何开发typescript  夸克*免费吗  power在录音笔上是什么意思  春运抢票多久可以买到票  新买的固态硬盘如何查  ai怎么找链接文件位置教程  春运抢票可以抢几张  得物怎样降低手续费 得物如何降低手续费教程  如何进入安卓命令行  shell如何注释所有命令  企业征信不好如何恢复 企业征信不好怎么恢复步骤  vi命令如何退出  如何进入cmd命令行  市盈率292是什么意思  typescript接口怎么选  mysql的datediff函数怎么用  如何使用批处理命令编译vc程序  .asm如何在命令行运行  多少毫安的充电宝可以带上飞机  光刻机的作用及工作原理  市盈率高是什么意思  固态硬盘颗粒如何修理  市盈率和市净率是什么意思  单片机怎么控制内功率  如何判断固态硬盘  怎么用typescript 写js  导航power在汽车上是什么意思  没基础做单片机怎么样  access 如何输入命令  angluar如何命令删除dist  个人征信不好如何恢复 个人征信不良的全面修复指南  苹果怎么没出5g手机  j*a怎么用数组缓存  win7怎么做幻灯片  typescript如何定义变量  1s等于多少ms  迅达热水器显示power是什么意思  单片机怎么连接电路图  液位传感器power是什么意思  咋免费领取爱奇艺会员 如何免费领取爱奇艺会员步骤  ssd固态硬盘如何安装  linux命令行如何使用中文输入法  如何把u盘改成固态硬盘  夸克为什么会变小 

搜索