新闻中心

生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

2025-01-16
浏览次数:
返回列表

浙江大学和商汤科技的研究人员提出了一种名为stargen的新型时空自回归框架,用于实现可扩展且可控的场景生成。该框架巧妙地结合了空间和时间双重条件机制,将稀疏视图的3d几何信息与视频扩散模型有效融合,从而解决了复杂场景长距离生成中时空一致性难题,显著降低了误差累积。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

AIxiv专栏持续发布学术和技术前沿内容,至今已报道超过2000篇来自全球顶尖高校和企业实验室的论文,为学术交流与传播做出了重要贡献。欢迎投稿或联系我们报道您的优秀成果!投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

StarGen:一种基于时空自回归框架和视频扩散模型的可扩展可控场景生成方法

这项研究的核心在于StarGen框架,它能够生成多视图一致的长视频,并支持稀疏视图插值、图像到视频生成以及布局驱动的场景生成等多种任务。实验结果显示,StarGen在生成质量、一致性以及场景扩展能力方面均超越了现有方法。

图片

  • 论文标题:StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation
  • 论文地址:https://www.php.cn/link/a40cd62dd66ae54c8d86620474d4bdca
  • 项目主页:https://www.php.cn/link/8ef0d9f2c0327a0045e2e92a80cd9f8a

研究背景

近年来,3D重建和生成技术蓬勃发展,并呈现出融合互补的趋势。基于大规模模型的重建方法降低了对密集多视角数据的依赖,而生成模型则有效地用于补全稀疏视角下不可见区域。在生成领域,3D重建技术为2D生成模型向3D生成任务的迁移提供了关键支撑,主要通过两种途径:将2D概率分布蒸馏为3D表示,或基于2D生成图像重建3D表示。

然而,这些大规模模型面临一个共同挑战:有限的计算资源限制了单次推理所能处理的Token数量。虽然时间自回归方法通过关联当前和前一视频片段来生成长视频,但这种方法在较长时间跨度内难以保持时空一致性,误差累积问题会严重影响空间一致性。

相关工作

现有新视角生成方法主要分为三类:重建模型、生成模型以及两者结合的混合方法。

  • 重建模型: 传统方法如NeRF和3D-GS生成高质量新视角,但依赖密集视角输入。基于前馈网络的方法如PixelNeRF和PixelSplat降低了对密集输入的需求,但缺乏生成能力,需要充分的图像覆盖才能获得完整的场景表达。

  • 生成模型: GAN在早期取得了成功,但在全局一致性方面存在不足。扩散模型结合ControlNet等技术可以生成高质量图像并实现精确控制,但在长距离、高质量且多视图一致的视频生成方面受到计算资源限制。

  • 混合方法: ViewCrafter等方法结合重建和生成,但点云作为空间约束会累积误差,且需要训练视频生成模型本身,限制了扩展性和通用性。

StarGen方法

图片 图 1. 系统框架

Perplexity Perplexity

Perplexity是一个ChatGPT和谷歌结合的超级工具,可以让你在浏览互联网时提出问题或获得即时摘要

Perplexity 302 查看详情 Perplexity

StarGen框架包含三个主要部分:时空自回归框架、时空条件视频生成和下游任务实现。

时空自回归框架: 采用滑动窗口方式逐步生成长距离场景,每个窗口的生成依赖于上一窗口的时间条件图像和空间相邻图像。时间条件确保时间连续性,空间条件保证多视图一致性。

图片 图 2. 时空条件视频生成

时空条件视频生成: 利用大型重建模型(LRM)和视频扩散模型(VDM)生成高质量可控视频。空间条件图像的3D几何信息通过多视几何渲染生成特征图,并压缩到VDM潜在空间。时间条件图像通过VAE编码为隐特征,与空间条件特征融合,最终输入VDM进行条件控制生成。

下游任务: StarGen支持稀疏视图插值、图生视频和基于布局的城市生成等任务。

损失函数

StarGen采用三种损失函数:深度损失、潜在损失和扩散损失,分别优化深度图精度、特征空间一致性和生成序列质量。

图片 图 3. 损失函数

实验结果

StarGen在稀疏视图插值、图生视频和基于布局的城市生成任务上均取得了显著成果,在各项指标上优于现有方法。具体结果见论文中的表格和图像。(此处省略论文中的表格和gif图,因为无法直接复制粘贴并保持格式)

消融实验

消融实验验证了空间和时间条件对生成质量和一致性的重要贡献。

总而言之,StarGen框架为可扩展可控的场景生成提供了一种有效方案,在长距离视频生成中取得了突破性进展。

以上就是生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」的详细内容,更多请关注其它相关文章!


# 长距离场景生成  # stargen  # git  # ai  # 工程  # 集团网站建设工作文案  # 线上推广平台招聘网站  # 书籍营销推广策划书  # 网站建设需要哪些工具  # 网站内容优化要求  # 文昌抖音自媒体推广营销  # 驻马店企业网站推广团队  # 北京seo答辩  # 大连庄河英文网站建设  # 淮安网站建设正规公司  # 如何应对  # 越长  # 开源  # 你该  # 降低了  # 句话  # 插值  # 但在  # 高质量  # 神技  # controlnet  # lsp  # 邮箱 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 迅达热水器显示power是什么意思  awk命令如何对两列加分隔符  j*a中怎么截取数组  linux如何打开命令窗口  如何设置从固态硬盘启动  怎么在typescript写原型链  unix时间戳转换公式  ospf中交换机命令如何设置  5g手机怎么没视频通话功能  如何通过dos命令  华硕k20ce怎么装win7  j*a数组怎么保存类  typescript如何标记私有方法  春运抢票技巧攻略  哪些框架支持typescript  react怎么使用 typescript  bugly是什么  play的三人称单数和过去式  新三板市盈率是什么意思  怎么用win7系统盘重装系统  linux环境中如何使用ping命令  bc是什么意思  学typescript需要多久  命令行如何打开文件  夸克网盘是什么都有吗  光刻机分类有哪些品牌的  双十一的哪一天最优惠呢  如何测固态硬盘芯片  电动车充电器上的power是什么意思  春运抢票如何抢连坐的票  如何使用程序编译 执行的命令  typescript适合什么用  市盈率负值是什么意思  苹果16系统有哪些改变  爱玛电动车power模式是什么意思  安卓手机怎么打开5g  如何显示固态硬盘  j*a怎么用json数组  nfc近场通讯功能是什么意思  如何注释typescript  苹果16有哪些自带配件  2025年哪个局域网聊天软件好用  typescript接口有什么用  夸克网盘为什么解析错误  md5解密是什么意思  typescript多久能学会  市盈率为负数是什么意思  导航power在汽车上是什么意思  如何查看网站域名解析  typescript接口怎么选 

搜索