新闻中心
谷歌推出Mirasol:30亿参数,将多模态理解扩展至长视频
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
11 月 16 日消息,谷歌公司近日发布新闻稿,介绍了小型人工智能模型 mirasol,可以回答
有关视频的问题并创造新的记录。

AI 模型目前很难处理不同的数据流,如果要让 AI 理解视频,需要整合视频、音频和文本等不同模态的信息,这大大增加了难度。
谷歌和谷歌 Deepmind 的研究人员提出了新的方法,将多模态理解扩展到长视频领域。
借助Mirasol AI模型,该团队努力解决两个关键挑战:
- 需要以高频采样同步视频和音频,但要异步处理标题和视频描述。
- 视频和音频会生成大量数据,这会让模型的容量紧张。
在Mirasol中,谷歌采用了合路器和自回归转换器模型
该模型组件将处理时间同步的视频和音频信号,然后将视频拆分成独立的片段
Glarity
Glarity是一款免费开源的AI浏览器扩展,提供YouTube视频总结、网页摘要、写作工具等功能,支持免费的镜像翻译,电子邮件写作辅助,AI问答等功能。
131
查看详情
转换器处理每个片段,并学习每个片段之间的联系,然后使用另一个转换器处理上下文文本,这两个组件交换有关其各自输入的信息。
一个新的转换模块名为Combiner,能够从每个片段中提取通用表示,并通过降维来压缩数据。每个片段包含4到64帧,该模型目前拥有30亿个参数,能够处理128到512帧的视频

在测试中,Mirasol3B 在视频问题分析方面达到了新的基准,体积明显更小,并且可以处理更长的视频。通过使用带有内存的组合器变体,该团队能够进一步降低所需的计算能力18%





本站在此附上 Mirasol 的官方新闻稿,感兴趣的用户可以深入阅读。
以上就是谷歌推出Mirasol:30亿参数,将多模态理解扩展至长视频的详细内容,更多请关注其它相关文章!
# 所需
# 南宫市网站优化
# 四川SEO效果好
# 查重网站建设文案范文
# seo优化课程学什么
# 亚马逊关键词排名查询插件
# 网站个人推广怎么做的
# 网站建设舞蹈视频教学
# 新乡团购网站建设
# 通州区现代网站定制推广
# seo sinh vi n
# 感兴趣
# 谷歌
# 提出了
# 在此
# 很难
# 来袭
# 首款
# 等功能
# 多项
# 多模
# mira
# 人工智能
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
苹果16日发售哪些机型
typescript中范围如何设定
折叠屏手机哪个有性价比
固态硬盘颗粒如何修理
typescript为什么现在才火
市盈率百分位roe是什么意思
路由器上面的power红灯是什么意思
免费恢复删除的微信聊天记录软件有哪些
hive中datediff函数怎么用 Hive中DATEDIFF函数的使用指南
固态硬盘损坏如何修复
楔子是什么意思
忐忑不安是什么意思
typescript如何做项目
华硕k20ce怎么装win7
华为交换机如何复制命令行
j*a怎么用json数组
openwrt有什么用
16苹果有哪些机型
域名解析后为什么要进行域名备案
手机拍电脑屏幕有条纹怎么解决
win10如何开启命令行
苹果16将会带来哪些升级
如何学好typescript
咋免费领取爱奇艺会员 如何免费领取爱奇艺会员步骤
路亚竿上的power是什么意思
如何4k对齐固态硬盘
为什么都做折叠屏手机呢
debian和ubuntu的区别是什么
满射为什么没有逆映射
夸克转存中是什么意思
typescript如何定义常量
苹果16讲解有哪些功能
春运抢票最快几天能成功
如何查看固态硬盘分区
电脑命令如何删除账号
如何使用net命令
课程伴侣电脑怎么登录
如何修改cad中的命令
intel固态硬盘如何安装
2026年将会大爆发的15个新科技
摩托车上power是什么意思
如何注释typescript
夸克搜题的原理是什么
华为的type-c接口是什么接口
.asm如何在命令行运行
什么网址不能域名解析
oppo手机nfc功能是什么意思
闲鱼上面的power是什么意思
对象数组怎么用j*a
如何判断固态硬盘


2023-11-17
浏览次数:次
返回列表