新闻中心

NeurIPS 2025 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频

2024-11-24
浏览次数:
返回列表
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本篇论文的工作已被 NeurlPS(Conference on Neural Information Processing Systems)2025 会议接收为 Oral Presentation (64/15671=0.4%) 。本文主要作者来自同济大学苗夺谦,张奇团队,其余作者来自俄亥俄州州立大学、悉尼科技大学、中科院自动化所、北京安定医院。其中,第一作者龚子璇就读于同济大学计算机学院,研究方向涉及 fMRI 解码和多模态学习。

从大脑信号还原视觉刺激一直是神经科学和计算机科学研究人员们津津乐道的话题。然而,基于非侵入式大脑活动 fMRI(功能性磁共振成像)到视频的重建研究仍然有限,因为解码连续视觉刺激的时空感知是一项艰巨的挑战。为此,本文提出了一种名为 NeuroClips 的创新框架,用于从 fMRI 数据中解码高保真和流畅的视频。
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
  • 论文题目:NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction
  • 论文链接:https://arxiv.org/abs/2410.19452
  • 项目主页:https://github.com/gongzix/NeuroClips

从 fMRI 重建视频具有哪些挑战?

1.fMRI 的低时间分辨率。功能性磁共振成像 fMRI 相比于常用的 EEG 脑电信号而言,具有极高的空间分辨率,可以对全脑进行细致的扫描。但是由于全脑扫描更加耗时,fMRI 拥有较低的时间分辨率,通常 2s 才能完成一次采样,帧率只有 0.5。然而,需要重建视频的时间分辨率是极高的,通常达到 30~60 的帧率。因此 fMRI 的低时间分辨率(0.5fps)和真实视频采样的高时间分辨率(30fps)之间存在严重冲突。

2. 重建视频的低级视觉感知缺乏控制。以往的研究对于视频重建,已经实现了较为精准的语义重建。例如,当采集被试看见一个男人的 fMRI 信号并用于重建,可以获得一段男人的视频。然而,视频更难的点在于物体形状变化,人物动作以及场景的变化。因此过往的研究缺乏对重建视频的低级视觉感知的控制。

为了解决上述挑战,我们主张利用关键帧图像作为过渡视频重建的锚点,与大脑的认知机制相吻合。此外,fMRI 到视频重建考虑低级感知特征,从大脑活动解码低级感知流,如运动和动态场景,以补充关键帧,从而增强高保真帧的重建,生成平滑的视频。我们提出了一种新颖的 fMRI-to-video 重建框架 NeuroClips,引入了两个可训练的组件 —— 感知重建器(Perception Reconstructor)和语义重建器(Semantics Reconstructor),分别用于重建低级感知流和语义关键帧。而在推理过程中,采用一个预先训练好的 T2V 扩散模型,注入关键帧和低级感知流,以实现高保真度、平滑度和一致性的视频重建。该模型不仅在各项指标上实现了 SOTA 性能,还通过使用多 fMRI 融合,开创了长达 6 秒、8 帧率视频重建的探索。

研究方法

NeuroClips 的整体框架如下图所示:
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
                                  图 1:NeuroClips 的整体框架。红色的线代表推理过程。

NeuroClips 包括三个关键组件:感知重建器(PR)从感知层面生成模糊但连续的粗略视频,同时确保其连续帧之间的一致性;语义重建器(SR)从语义层面重建高质量的关键帧图像;推理过程是 fMRI 到视频的重建过程,它使用 T2V 扩散模型,并结合 PR 和 SR 的重建结果,以高保真度、平滑度和一致性重建最终的保真视频。

1、感知重建器(Perception Reconstructor,PR)

将视频按两秒间隔分割成多个片段(即 fMRI 的时间分辨率)。通过在 Stable Diffusion 的 VAE 解码器中添加时间注意力层,获得对齐的 fMRI 模糊嵌入,这些嵌入可以用于生成模糊视频,其缺乏语义内容,但能感知场景的通用动作信息,在位置、形状、场景等感知指标上表现出最先进的水平。

2、语义重建器(Semantics Reconstructor , SR)

语义重构器(SR)的核心目标是重建高质量的关键帧图像,以解决视觉刺激和 fMRI 信号之间的帧率不匹配的问题,从而提高最终视频的保真度。现有愈发成熟的 fMRI 到图像重建研究促进了我们的目标,包括将 fMRI 进行低维处理、关键帧图像与 fMRI 的对齐、重建嵌入生成以及文本模态的重建增强。受到对比学习的启发,我们在NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频之间进行对比学习,通过额外的文本模态来增强重建嵌入NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频。对比损失作为这一过程的训练损失NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频。我们设置混合系数NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频来平衡多个损失。
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
其中,NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频是关键帧图像和 fMRI 对齐采用的结合了 MixCo 和对比损失的双向损失,NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频是重建时与 DALLE・2 相同的扩散先验损失。

3、推理过程(Inference Process)

我们结合模糊的粗略视频(PR 输出)、高质量的关键帧图像(模糊视频第一帧嵌入NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频和 fMRI 嵌入输入到 SR 中的 SDXL unCLIP 生成)和额外的文本模态分别作为NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频Guidance 来重建具有高保真度、平滑度和一致性的最终视频。我们采用 text-to-video(T2V)的扩散模型来帮助重建视频,而由于嵌入的语义仅来自文本模态。我们还需要通过增强来自视频和图像模态的语义来创建 “综合语义” 嵌入,以帮助实现 T2V 扩散模型的可控生成。

4、多 fMRI 融合(Multi-fMRI Fusion)

如何从 fMRI 中重建更长的视频呢?在推理过程中,我们考虑来自两个相邻的 fMRI 样本的两个重建关键帧的语义相似性,如果语义相似,我们就用前一个 fMRI 重建视频的尾帧替换后一个 fMRI 的关键帧,该帧将作为后一个 fMRI 的第一帧来生成视频。如图 2 所示,通过这一策略,我们首次实现了长达 6 秒的连续视频重建。
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
                                   图 2:多 fMRI 融合的可视化。

实验结果

本文使用开源的 fMRI-video 数据集(cc2017 数据集)进行了 fMRI-to-video 的重建实验,通过基于帧的和基于视频的指标进行了定量评估,并进行了全面分析。
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
从 fMRI 重建视频的 Demos

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

neurips 2024 oral | 还原所见!揭秘从脑信号重建高保真流畅视频

Yaara Yaara

使用AI生成一流的文案广告,电子邮件,网站,列表,博客,故事和更多…

Yaara 95 查看详情 Yaara
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
                                      表 1:NeuroClips 重建性能与其他方法的定量比较。

结果如上表所示,NeuroClips 在 7 个指标中的 5 个上显著优于先前的方法,SSIM 性能大幅提升,表明其补充了像素级控制的不足。语义层面的指标也总体上优于先前的方法,证明了 NeuroClips 更好的语义对齐范式。在评估视频平滑度的 ST 级指标上,由于我们引入的模糊的粗略视频( Guidance),NeuroClips 远超 MinD-Video,重建视频更加流畅。

神经科学解释性

此外,为了探究神经层面的可解释性,本文在脑平面上可视化了体素级别的权重以观察整个大脑的关注度。可以观察到,任何任务视觉皮层都占据着重要的位置,以及 SR 和 PR 的不同权重。
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
结论

本文创新性地提出了 NeuroClips,这是一种用于 fMRI-to-video 重建的新颖框架。通过感知重建和语义重建两条路径实现了体素级和语义级的 fMRI 视觉学习。我们可以在不进行额外训练的情况下将它们配置到最新的视频扩散模型中,以生成更高质量、更高帧率和更长的视频。NeuroClips 能够在语义级精度和像素级匹配程度上恢复视频,从而在该领域建立了新的最佳水平,我们还可视化了 NeuroClips 的神经科学可解释性。

以上就是NeurIPS 2025 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频的详细内容,更多请关注其它相关文章!


# git  # 工程  # 华纳  # 模态  # 保时捷  # 同济大学  # 提出了  # 所见  # type  # stable diffusion  # 邮箱  # ai  # 网站关键词优化葳芯hfqjwl  # 郑州网站建设策划方案  # 福州正规seo哪家好  # 坊子区seo优化公司  # 廉江网站建设设计报价  # 乡镇网站建设内容规划  # 焦作整站营销推广优化  # 出售seo客户电话号码  # 网站建设团队名字口号  # 模型网站建设  # 这一  # 实现了  # 高质量  # 所示 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 抖音GMV是什么_抖音GMV是什么意思  混合固态硬盘如何分区  ready是什么意思  苹果16日发售哪些机型  苹果16更新了哪些版本  为什么夸克书架书单没了  折叠屏手机为什么有黑点  苹果16哪些会降价的  光刻机分类有哪些品牌的  东芝固态硬盘如何保修  市盈率是负数是什么意思  ao3镜像网站永久地址入口  市盈率回落是什么意思  固态硬盘 如何分区  360手机壁纸怎么改  mysql的datediff函数怎么用  春运抢票要用抢票软件吗  为什么学typescript  html怎么使用typescript  vfp 命令窗口如何实现换行  苹果16有哪些亮点功能  固态硬盘如何测试好坏  手机如何运行ping命令  市盈率pe是什么意思  焊机上power灯闪是什么意思  输入命令如何换行  广东春运几点抢票  苹果16多有哪些功能  hen是什么意思  春运哪天抢票最好预约  cmd如何定时执行命令  内网和外网区别 内网和外网有什么区别  硬件如何执行命令  如何用命令打开光驱  华为5g手机怎么用4g网络  typescript怎么判断单选按钮  put linux命令如何书写  夸克网盘为什么解析错误  如何用adb命令停用系统软件  如何打开命令提示符  element ui的好处  固态硬盘如何备份  如何管理员打开cmd命令行窗口  笔记本电脑多少钱  如何查看win10版本命令行  羽毛球拍power9是什么意思  如何修改cad中的命令  什么是域名解析地址  如何通过命令行聊天  折叠屏手机哪个卖得最好 

搜索