新闻中心

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

2024-08-11
浏览次数:
返回列表
自从 Sora 发布以来,AI 视频生成领域变得更加「热闹」了起来。过去几个月,我们见证了即梦、Runway Gen-3、Luma AI、快手可灵轮番炸场。

和以往一眼就能识破是 AI 生成的模型不太一样,这批视频大模型可能是我们所见过的「最好的一届」。

然而,视频大语言模型(LLM)惊艳表现的背后离不开庞大且经过精细标注的视频数据集,这需要花费相当高的成本。近期研究领域也涌现了一批无需额外训练的创新方法:采用训练好的图像大语言模型,直接用于视频任务的处理,这样就绕开了「昂贵」的训练过程。

此外,现有大多视频 LLM 存在两个主要缺点:(1)它们只能处理有限帧数的视频输入,这使得模型难以捕捉视频中细微的空间和时间内容;(2)它们缺少时间建模设计,而是简单地将视频特征输入到 LLM 中,完全依赖于 LLM 对运动的建模能力。

针对以上问题,苹果研究人员提出了 SlowFast-LLaVA(简称 SF-LLaVA)。这一模型基于字节团队开发的 LLaVA-NeXT 架构,无需额外微调,开箱即用。研究团队受在动作识别领域大获成功的双流网络的启发,为视频 LLM 设计了一套新颖的 SlowFast 输入机制。

简单来说,SF-LLaVA 将通过两种不同的观察速度(Slow 和 Fast)来理解视频中的细节和运动。

  • 慢速路径:低帧率提取特征,同时尽可能多地保留空间细节(例如每 8 帧保留 24×24 个 token)
  • 快速路径:高帧率运行,但用较大的空间池化步长降低视频的分辨率,以模拟更大的时间上下文,更专注于理解动作的连贯性

这相当于模型拥有两只「眼睛」:一只慢慢看,注意看细节;另一只快速看,注意看动作。这样就解决了大多现有的视频 LLM 的痛点,既能捕捉到详细的空间语义,又能捕捉到更长的时间上下文。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切sota

论文链接:https://arxiv.org/pdf/2407.15841

实验结果显示,SF-LLaVA 在所有基准测试中均以显著的优势超越了现有免训练方法。与精心微调的 SFT 模型相比,SF-LLaVA 能达到相同性能,甚至更好。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

模型架构

如下图所示,SF-LLaVA 遵循标准的免训练视频 LLM 流程。它以视频 V 和问题 Q 作为输入,输出对应的答案 A。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

对于输入,要从每个视频任意大小和长度中均匀采样 N 帧,I = {I_1, I_2, ..., I_N},不需要对选取的视频帧进行特别的组合或排列。以帧为单位视独立提取频特征为 F_v ∈ R^N×H×W,其中 H 和 W 分别是帧特征的高度和宽度。

下一步需要在慢速和快速两个路径中进一步处理 F_v,并将它们结合起来作为有效的视频表示。慢速路径从 F_v 中均匀采样给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA的帧特征,其中给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

此前有研究发现,在空间维度上适当池化可以提高视频生成的效率和鲁棒性。因此,研究团队在 F_v 上应用步长为 σ_h×σ_w 的池化过程,得到最终特征:给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA,其中给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA。慢速路径的整个过程如公式 2 所示。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

快速路径保留 F_v 中的所有帧特征,以尽可能多地捕捉视频的长程时间上下文。具体来说,研究团队使用空间池化步长给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA对 F_v 进行激进的下采样,得到最终特征给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA。研究团队设置给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA,使得快速路径能专注于模拟时间上下文和运动线索。慢速路径的整个过程如公式 3 所示。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

最后,获得聚合的视频特征:给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA,其中 flat 和 [, ] 分别表示展平和连接操作。如表达式所示,给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA不需要任何特殊的 token 来分隔慢速和快速路径。SF-LLaVA 总共使用给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA个视频 token。视频的视觉特征给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA将和文本信息(比如用户提出的问题)将被组合在一起,作为输入数据送入大型语言模型(LLM)进行处理。

SlowFast 流程如公式 4 所示。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI
实验结果

研究团队对 SF-LLaVA 进行了全面的性能评估,将其与当前 SOTA 免训练模型(如 IG-VLM 和 LLoVi)在多个视频问答任务中进行了对比。此外,他们还将其与经过视频数据集监督微调(SFT)的视频 LLM,例如 VideoLLaVA 和 PLLaVA 进行了比较。

开放式视频问答

如下表所示,在开放式视频问答任务中,SF-LLaVA 在所有基准测试中都比现有的免训练方法表现得更好。具体来说,当分别搭载 7B 和 34B 参数规模的 LLM 时,SF-LLaVA 分别在 MSRVTT-QA 上比 IGVLM 高出 2.1% 和 5.0%,在 TGIF-QA 上高出 5.7% 和 1.5%,在 ActivityNet-QA 上高出 2.0% 和 0.8%。

即使与经过微调的 SFT 方法相比,SF-LLaVA 在大多数基准测试中也展现了可比的性能,只有在 ActivityNet-QA 这一基准上,PLLaVA 和 LLaVA-NeXT-VideoDPO 略胜一筹。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

多项选择视频问答

从下表中可见,在所有基准测试中,SF-LLaVA 在多项选择视频问答的表现都优于其他免训练方法。在要求复杂长时序推理的 EgoSchema 数据集中,SF-LLaVA7B 和 34B 的版本相较 IG-VLM 模型的得分分别高出 11.4% 和 2.2%。

虽然 VideoTree 在基准测试中领先,因为它是基于 GPT-4 的专有模型,因而性能远高于开源 LLM。与 SFT 方法相比,SF-LLaVA 34B 模型在 EgoSchema 上也取得了更好的结果,这证实了 SlowFast 设计处理长视频方面的强大能力。
Text Generation 

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

文生视频

如表 3 所示,对于文本生成视频的任务,SF-LLaVA 也显示出了一些优势。SF-LLaVA-34B 在整体表现上超越了所有免训练的基准。尽管在细节取向方面,SF-LLaVA 略逊于 LLaVA-NeXT-Image。基于 SlowFast 设计,SF-LLaVA 可以用更少的视觉 token 覆盖更长的时间上下文,因此在时间理解任务中表现得格外出色。

此外,在文生视频的表现上,SF-LLaVA-34B 也优于大多数 SFT 方法。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

更多细节,请参考原论文。

以上就是给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA的详细内容,更多请关注其它相关文章!


# 排列  # sora  # runway  # 工程  # 测试中  # 装饰网站建设和推广  # 新网站推广方案怎么写  # seo的发展规划  # 什邡学历提升网站推广  # 网络营销推广一起易速达  # 网站结构优化不包括  # 义乌网站建设入门  # 网站优化常见的策略  # 成都 商业网站建设  # 长程  # 日韩  # 将其  # 进行了  # 这一  # 高出  # 所示  # 慢速  # 两只  # 网站优化流程总结分析 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 春运大巴上抢票怎么抢票  电信开通nfc功能是什么意思  如何用好typescript  华为的type-c接口是什么接口  电动车充电器上的power是什么意思  台达变频器power灯是什么意思  免费恢复删除的微信聊天记录软件有哪些  如何用命令提示符显示隐藏分区  苹果16改进了哪些  power在坐标轴中是什么意思  如何打开管理员命令提示符  如何利用固态硬盘  如何显示固态硬盘  苹果16会有哪些更新  夸克po什么意思  element ui的好处  hp固态硬盘如何安装  市盈率回落是什么意思  j*a怎么存放数组中  ospf中交换机命令如何设置  固态硬盘 如何分区  如何发挥固态硬盘性能  access中如何使用常用宏命令  华为5g手机怎么用4g网络  typescript是什么时候出来的  typescript有什么框架  如何用命令下载服务器网站  如何加装固态硬盘  液位传感器power是什么意思  a03怎么根据编号找文链接入口  东芝固态硬盘如何保修  j*a怎么用json数组  5r是多少钱  阿里云盘共享账户怎么用  tft单片机怎么写彩屏  如何用命令连接mysql  oppo手机nfc功能是什么意思  夸克搜题的原理是什么  电脑如何查看固态硬盘  春运抢票多久能知道成功  a股等权市盈率中位数是什么意思  如何修改域名解析  单片机怎么定义字符长度  linux如何查看命令的参数  dos命令 如何将变量 作为路径的一部分  solo交友软件怎么恢复聊天记录  单片机怎么连接电路图  360n4怎么关闭锁屏壁纸  performance是什么意思  2025年国外最佳语音聊天软件排行榜 

搜索