新闻中心
规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B
多模态学习面临的主要挑战之一是需要融合文本、音频、视频等异构的模态,多模态模型需要组合不同来源的信号。然而,这些模态具有不同的特征,很难通过单一模型来组合。例如,视频和文本具有不同的采样率
最近,来自 Google DeepMind 的研究团队将多模态模型解耦成多个独立的、专门的自回归模型,根据各种模态的特征来处理输入。
具体来说,该研究提出了一个名为Mirasol3B的多模态模型。Mirasol3B由时间同步的音频和视频自回归组件以及用于上下文模态的自回归组件组成。这些模态不一定在时间上对齐,但是按照顺序排列
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
论文地址:https://arxiv.org/abs/2311.05698
ECTouch移动商城系统
ECTouch是上海商创网络科技有限公司推出的一套基于 PHP 和 MySQL 数据库构建的开源且易于使用的移动商城网店系统!应用于各种服务器平台的高效、快速和易于管理的网店解决方案,采用稳定的MVC框架开发,完美对接ecshop系统与模板堂众多模板,为中小企业提供最佳的移动电商解决方案。ECTouch程序源代码完全无加密。安装时只需将已集成的文件夹放进指定位置,通过浏览器访问一键安装,无需对已有
0
查看详情
Mirasol3B 在多模态基准测试中达到了 SOTA 水平,优于规模更大的模型。通过学习更紧凑的表征,控制音频 - 视频特征表征的序列长度,并根据时间对应关系进行建模,Mirasol3B 能够有效满足多模态输入的高计算要求。
方法简介
Mirasol3B 是一个音频 - 视频 - 文本多模态模型,其中将自回归建模解耦成时间对齐模态(例如音频、视频)的自回归组件,以及针对非时间对齐的上下文模态(例如文本)的自回归组件。Mirasol3B 使用交叉注意力权重来协调这些组件的学习进程。这种解耦
使得模型内部的参数分布更合理,也为模态(视频和音频)分配了足够的容量,并使得整体模型更加轻量。
根据图1所示,Mirasol3B由两个主要的学习组件组成:自回归组件和输入组合组件。其中,自回归组件旨在处理几乎同步的多模态输入,例如视频和音频,以便及时地进行输入组合


在重写内容时,需要将原始意思保持不变,并将语言改写为中文。 研究提出将时间对齐的模态分割成时间段,在时间段中学习音频-视频联合表征。具体而言,该研究提出了一种名为「Combiner」的模态联合特征学习机制。「Combiner」将同一时间段内的模态特征进行融合,生成更紧凑的表征
「Combiner」从原始的模态输入中提取初级的时空表示,捕捉视频的动态特性,并结合与其共时的音频特征,模型可以在不同的速率接收多模态输入,在处理较长的视频时表现良好。
「Combiner」有效地满足了模态表征既要高效又要信息量丰富的需求。它可以充分涵盖视频与其他同时发生的模态中的事件和活动,并能够用于后续的自回归模型,学习长期依赖关系。

为了处理视频和音频信号,并适应更长的视频 / 音频输入,它们被分割成(在时间上大致同步)的小块,再通过「Combiner」学习联合视听表示。第二个组件处理上下文,或时间上未对齐的信号,如全局文本信息,这些信息通常仍然是连续的。它也是自回归的,并使用组合的潜在空间作为交叉注意力输入。
学习组件包含视频和音频,其参数为3B;而没有音频的组件则为2.9B。其中,大多数参数用于音视频自回归模型。Mirasol3B通常处理128帧的视频,也可以处理更长的视频,例如512帧
由于设计了分区和「Combiner」的模型架构,增加更多帧,或增加块的大小、数目等,只会使参数略有增加,解决了更长视频需要更多参数、更大的内存的问题。
实验及结果
该研究在标准 VideoQA 基准、长视频 VideoQA 基准和音频 + 视频基准上对 Mirasol3B 进行了测试评估。
在 VideoQA 数据集 MSRVTTQA 上的测试结果如下表 1 所示,Mirasol3B 超越了目前的 SOTA 模型,以及规模更大的模型,如 PaLI-X、Flamingo。

在长视频问答方面,该研究在 ActivityNet-QA、NExTQA 数据集上对 Mirasol3B 进行了测试评估,结果如下表 2 所示:

在最后,该研究选择了KineticsSound、VGG-Sound和Epic-Sound进行音频-视频基准测试,并采用开放式生成评估。实验结果如下表3所示:

感兴趣的读者可以阅读论文原文,了解更多研究内容。
以上就是规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B的详细内容,更多请关注其它相关文章!
# 训练
# mira
# 数据
# 腾讯
# 域名权重和seo的区别
# 秦皇岛网站推广如何做
# 关键词排名代理商
# 提出了
# 下表
# 更长
# 更大
# 所示
# 效率高
# 模态
# 多模
# 关键词
# 宁夏seo优化产品
# 网站优化套餐怎么做
# 伊春seo网站优化
# 淄博沂源网站优化软件
# 线上推广营销怎么做最好
# 麻城seo排名
# 网站推广公司大家好
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
关系型数据库和非关系型数据库有哪些
dos命令如何复制目录结构
typescript怎么写react
linux如何查看命令的参数
typescript书籍哪个好
固态硬盘4k如何看
春运抢票软件哪个最好用
如何查看bash内置的命令
课程伴侣登不上怎么办
怎么更新typescript
三星 nfc什么功能是什么意思
爱奇艺fun会员可以几个人用?
交管12123协议头不完整是什么原因
征信信誉不好如何恢复 如何修复不良征信方法
舆论是什么意思
汽车中控导航机power线是什么意思
固态硬盘如何显示
360桌面壁纸怎么弄掉
如何激活固态硬盘
单片机怎么连接电路图
摩托车上power是什么意思
夸克内测有什么好处
宝马x5仪表盘上边有power是什么意思
win7如何打开命令行窗口
比亚迪秦nfc功能是什么意思
迅达热水器显示power是什么意思
单片机的速度怎么求
typescript怎么写多个构造方法
空调控制面板power灯一直亮是什么意思
苹果的type-c接口是什么
对应市盈率是30X是什么意思
双十一哪一天买比较便宜?
ssd固态硬盘如何安装
linux如何用命令修改ip
为什么都用typescript
如何拍屏幕不出条纹详细方法
华为的nfc功能是什么意思
sqlite中datediff函数怎么用 SQLite中DATEDIFF()函数的用法分享
如何进入cmd命令行
j*a怎么用json数组
db2命令中如何去到指定的副本
征信不好如何恢复正常 征信不好要怎么样才能恢复正常教程
hive中datediff函数怎么用 Hive中DATEDIFF函数的使用指南
vb中的datediff函数怎么用 VB中的DateDiff函数:详尽指南
单片机*计步器怎么用
j*a怎么清除数组
远程桌面如何发送命令
今天是农历多少号
苹果16系统多了哪些
npm如何声明命令


2023-11-28
浏览次数:次
返回列表