新闻中心

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

2024-06-09
浏览次数:
返回列表
支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

人类跳舞视频生成是一项引人注目且具有挑战性的可控视频合成任务,旨在根据输入的参考图像和目标姿势序列生成高质量逼真的连续视频。随着视频生成技术的快速发展,特别是生成模型的迭代演化,跳舞视频生成任务取得了前所未有的进展,并展示了广泛的应用潜力。

现有的方法可以大致分为两组。第一组通常基于生成对抗网络(GAN),其利用中间的姿势引导表示来扭曲参考外观,并通过之前扭曲的目标生成合理的视频帧。然而,基于生成对抗网络的方法通常存在训练不稳定和泛化能力差的问题,导致明显的伪影和帧间抖动。

第二组则使用扩散模型(Diffusion model)来合成逼真的视频。这些方法兼具稳定训练和强大迁移能力的优势,相较于基于 GAN 的方法表现更好,典型方法如 Disco、MagicAnimate、Animate Anyone、Champ 等。

尽管基于扩散模型的方法取得了显著进展,但现有的方法仍存在两个限制:一是需要额外的参考网络(ReferenceNet)来编码参考图像特征并将其与 3D-UNet 的主干分支进行表观对齐,导致增加了训练难度和模型参数;二是它们通常采用时序 Transformer 来建模视频帧之间时序依赖关系,但 Transformer 的复杂度随生成的时间长度成二次方的计算关系,限制了生成视频的时序长度。典型方法只能生成 24 帧视频,限制了实际部署的可能性。尽管采用了时序重合的滑动窗口策略可以生成更长的视频,但团队作者发现这种方式容易导致片段重合连接处通常存在不流畅的转换和外貌不一致性的问题。

为了解决这些问题,来自华中科技大学、阿里巴巴、中国科学技术大学的研究团队提出了 UniAnimate 框架,以实现高效且长时间的人类视频生成

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架unianimate

  • 论文地址:https://arxiv.org/abs/2406.01188
  • 项目主页:https://unianimate.github.io/

方法简介

UniAnimate 框架首先将参考图像、姿势指导和噪声视频映射到特征空间中,然后利用统一的视频扩散模型(Unified Video Diffusion Model)同时处理参考图像与视频主干分支表观对齐和视频去噪任务,实现高效特征对齐和连贯的视频生成。

其次,研究团队还提出了一种统一的噪声输入,其支持随机噪声输入和基于第一帧的条件噪声输入,随机噪声输入可以配合参考图像和姿态序列生成一段视频,而基于第一帧的条件噪声输入(First Frame Conditioning)则以视频第一帧作为条件输入延续生成后续的视频。通过这种方式,推理时可以通过把前一个视频片段(segment)的最后一帧当作后一个片段的第一帧来进行生成,并以此类推在一个框架中实现长视频生成。

最后,为了进一步高效处理长序列,研究团队探索了基于状态空间模型(Mamba)的时间建模架构,作为原始的计算密集型时序 Transformer 的一种替代。实验发现基于时序 Mamba 的架构可以取得和时序 Transformer 类似的效果,但是需要的显存开销更小。

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

通过 UniAnimate 框架,用户可以生成高质量的时序连续人类跳舞视频。值得一提的是,通过多次使用 First Frame Conditioning 策略,可以生成持续一分钟的高清视频。与传统方法相比,UniAnimate 具有以下优势:

  • 无需额外的参考网络:UniAnimate 框架通过统一的视频扩散模型,消除了对额外参考网络的依赖,降低了训练难度和模型参数的数量。
  • 引入了参考图像的姿态图作为额外的参考条件,促进网络学习参考姿态和目标姿态之间的对应关系,实现良好的表观对齐。
  • 统一框架内生成长序列视频:通过增加统一的噪声输入,UniAnimate 能够在一个框架内生成长时间的视频,不再受到传统方法的时间限制。
  • 具备高度一致性:UniAnimate 框架通过迭代利用第一帧作为条件生成后续帧的策略,保证了生成视频的平滑过渡效果,使得视频在外观上更加一致和连贯。这一策略也使得用户可以生成多个视频片段,并选取生成结果好的片段的最后一帧作为下一个生成片段的第一帧,方便了用户与模型交互和按需调整生成结果。而利用之前时序重合的滑动窗口策略生成长视频,则无法进行分段选择,因为每一段视频在每一步扩散过程中都相互耦合。

以上这些特点使得 UniAnimate 框架在合成高质量、长时间的人类跳舞视频方面表现出色,为实现更广泛的应用提供了新的可能性。

生成结果示例

1. 基于合成图片进行跳舞视频生成。

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate
2. 基于真实图片进行跳舞视频生成。

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

3. 基于粘土风格图片进行跳舞视频生成。

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

4. 马斯克跳舞。

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI
5. Yann LeCun 跳舞。

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

6. 基于其他跨域图片进行跳舞视频生成。

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate


7. 一分钟跳舞视频生成。支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate
获取原始 MP4 视频和更多高清视频示例请参考论文的项目主页 https://unianimate.github.io/。

实验对比分析

1. 和现有方法在 TikTok 数据集上的定量对比实验。

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

如上表所示,UniAnimate 方法在图片指标如 L1、PSNR、SSIM、LPIPS 上和视频指标 FVD 上都取得了最好的结果,说明了 UniAnimate 可以生成高保真的结果。

2. 和现有方法的定性对比实验。

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

从上述定性对比实验也可以看出,相比于 MagicAnimate、Animate Anyone, UniAnimate 方法可以生成更好的连续结果,没有出现明显的 artifacts,表明了 UniAnimate 的有效性。

3. 剥离实验。

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

从上表的数值结果可以看出,UniAnimate 中用到的参考姿态和统一视频扩散模型对性能提升起到了很关键的作用。

4. 长视频生成策略对比。

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

从上图可以看出之前常用的时序重合滑动窗口策略生成长视频容易导致不连续的过渡,研究团队认为这是因为不同窗口在时序重合部分去噪难度不一致,使得生成结果不同,而直接平均会导致有明显的变形或者扭曲等情况发生,并且这种不一致会进行错误传播。而本文利用的首帧视频延续生成方法则可以生成平滑的过渡。

更多的实验对比结果和分析可以参考原论文。

总而言之,UniAnimate 的示例结果表现和定量对比结果很不错,期待 UniAnimate 在各个领域的应用,如*制作、虚拟现实和游戏产业等,为用户带来更为逼真、精彩的人类形象动画体验。

以上就是支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate的详细内容,更多请关注其它相关文章!


# 视频生成  # git  # follow  # 产业  # 服务最好视频矩阵营销推广厂家  # 中山网络推广和营销  # 网站建设论文毕设  # 公司网站推广技巧  # 888电影网站建设  # 康复医院网站推广服务  # php与网站建设习题  # 网站诊断与优化方案设计  # 哪个网站置顶推广好  # 吴中公司seo推广费用  # 新能源  # 五大  # 取得了  # 提出了  # 都能  # 高质量  # 华纳  # 可以看出  # 南极  # 长时间  # type 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: linux如何打开命令窗口  语音聊天软件哪个好 语音聊天软件2025排行榜  复制 命令如何撤销  征信不好如何恢复信誉度 ‌征信不好恢复信誉度的方法  移动固态硬盘如何使用  市盈率ttm写的亏损是什么意思  硬件如何执行命令  oppo手机nfc功能是什么意思  手机的nfc是什么功能是什么意思  爱奇艺中下载的视频怎么在PPT中播放操作方法  如何查看win10版本命令行  vue中datediff函数怎么用  单片机加热片怎么制作  摄像机的power chg是什么意思中文  固态硬盘如何安装win10系统安装  买的5g手机但是没有5g网络怎么办  为什么夸克无法注销账户  linux如何跳回命令行界面  如何用dos命令分区  固态硬盘如何下载网页  单片机怎么储存和显示  夸克是什么用途  苹果16充电方式有哪些  折叠屏手机为什么没火  nfc近场通讯功能是什么意思  固态硬盘如何外接  壁挂炉power常亮是什么意思  东芝固态硬盘如何保修  j*a数组元素怎么用  三星固态硬盘如何保修  如何清理固态硬盘  typescript能开发什么  阿里云盘修复工具怎么用  交管12123协议头不完整是什么原因  单片机显存怎么设置最佳  怎么用win7系统盘重装系统  光刻机的分类及其优缺点  比亚迪秦nfc功能是什么意思  j*a怎么让数组倒换  typescript如何使用  如何打开win10命令  夸克加载什么要会员  1tb等于多少mb  春运辅助抢票怎么抢  43寸电视长宽多少厘米  ao3镜像网站哪个好  市盈率ttm市盈动静是什么意思  如何退出数据库命令行  typescript入门要多久  折叠屏手机哪款最好 

搜索