新闻中心

年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布

2025-01-25
浏览次数:
返回列表

字节跳动研究团队的视频理解大模型tarsier迎来了重大升级,推出了第二代模型tarsier2及其技术报告。此前发布的tarsier-7b/34b已成为最强大的开源视频描述模型,仅次于闭源模型gemini-1.5-pro和gpt-4o。那么,tarsier2又有哪些突破呢?

让我们先看看Tarsier2对经典*片段的理解:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

图片《燕子,没有你我怎么活》

图片《曹操盖饭》

Tarsier2不仅精准捕捉人物动作(例如小岳岳追车、下跪,曹操的挥舞动作),还巧妙结合字幕信息,深入分析人物动机、心理,理解人物关系和剧情发展。

图片Tarsier2 视频描述效果合集

Tarsier2在视频描述任务上的表现同样出色,无论是真人还是动画、横屏还是竖屏、多场景还是多镜头,都能精准捕捉核心视觉元素和动态事件,并用简洁的语言进行描述,且很少出现幻觉。其性能已可与GPT-4o媲美。

图片

Tarsier2的“火眼金睛”是如何炼成的?

Tarsier2是一个7B参数的轻量级模型,支持动态分辨率,能够理解长达数十分钟的视频,尤其擅长分析几十秒的短视频片段。其强大的视频理解能力源于精细的预训练和后训练阶段:

预训练阶段:

Tarsier2在4000万个互联网视频-文本数据上进行预训练。团队通过海量收集互联网视频-文本数据,并设计了一套严谨的数据筛选流程(分镜、过滤、合并),确保训练数据的质量。特别值得一提的是,Tarsier2筛选了大量的*剧解说视频,帮助模型理解更深层次的情节信息。

后训练阶段:

Zyro AI Background Remover Zyro AI Background Remover

Zyro推出的AI图片背景移除工具

Zyro AI Background Remover 145 查看详情 Zyro AI Background Remover

后训练分为SFT和DPO两个阶段:

  • SFT (监督微调): 在人工标注的视频描述数据上进行训练,并引入针对每个子事件的具体定位信息,强化模型对时序信息和视觉特征的关注。

图片SFT数据样例

  • DPO (数据增强): 在自动化构造的正负样本上进行DPO训练,正样本来自模型对原始视频的预测,负样本来自模型对经过随机扰动的视频的预测。这种方法提高了描述的准确性和完整性,减少了幻觉。

性能测试:

Tarsier2在19个视频理解公开基准上进行了测试,与10多个最先进的开源模型(Qwen2-VL、InternVL2.5、LLaVA-Video等)和闭源模型(Gemini-1.5, GPT-4o)进行了比较。结果显示,Tarsier2在视频描述、短/长视频问答等通用视频理解任务上表现出色。

图片视频描述质量人工评估结果

图片Tarsier2在广泛的视频理解任务上树立了新的标杆

Tarsier2还在机器人和智能驾驶等下游任务中展现了强大的泛化能力。

图片机器人场景

图片智能驾驶场景

未来展望:

Tarsier2在生成准确详细的视频描述方面超越了现有模型,并在广泛的视频理解任务中树立了新的标杆。 它在多模态融合领域迈出了坚实的一步,未来有望在人工智能发展中发挥更大的作用。

图片

论文地址:https://www.php.cn/link/e3c87529e817b9f8468c02ee8c81ed89 项目仓库:https://www.php.cn/link/b8d889c4e9b34bc7dc7a93a2a9a91070 HuggingFace:https://www.php.cn/link/bdee0997d3fb6be8515a432051fe4e5c

以上就是年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布的详细内容,更多请关注其它相关文章!


# tarsier2  # 产业  # 美图  # 网易  # 互联网  # 开源  # qwen  # gemini  # 智能驾驶  # qq  # git  # 浦城网络seo公司  # 广安网站设计推广  # 天津营销推广要素有哪些  # 绵阳网站关键优化软件  # 谷歌可以做seo吗  # 山东网络营销推广seo  # 太谷专业网站推广  # 外链代码优化seo  # 中国石化泉州网站优化  # 重庆专业企业建设网站  # 之选  # 正式发布  # 进行了  # 哪家  # 年末  # 你该 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 固态硬盘电脑如何设置  cos150度等于多少  typescript是什么时候出来的  如何用好typescript  电动车仪表盘上的power是什么意思  65寸电视长宽多少厘米  固态硬盘如何备份  忐忑不安是什么意思  play的三人称单数和过去式  如何进入 dos 命令行  冰柜power是什么意思这个黄灯怎么不亮  苹果16自带配件有哪些  苹果16粉色还有哪些机型  导航power在汽车上是什么意思  电脑如何查看固态硬盘  新三板市盈率是什么意思  春运抢票准备什么  怎么打印数组j*a  苹果16哪些功能好用  电动车power灯亮是什么意思  路由器上的power按钮是什么意思  如何看固态硬盘型号  make命令如何使用  单片机学习视频怎么调色  萝卜快跑的收费标准是什么  typescript和node学哪个  bugly是什么  什么是域名解析地址  夸克网盘为什么解析错误  typescript中范围如何设定  按键精灵datediff函数怎么用 如何使用按键精灵中的Datediff函数教程  debug中如何用n命令命名程序文件名  linux如何查看命令的参数  市盈率百分位roe是什么意思  市盈率负值是什么意思  夸克转存中是什么意思  vue组件typescript怎么用  春运预约抢票能抢到吗  typescript需要学多久  为什么程序员热爱typescript  j*a中怎么截取数组  单片机面包板怎么插  三星固态硬盘如何安装  debian和ubuntu命令一样吗  typescript干什么的  j*a整形怎么转数组  单片机怎么读取电流值  51单片机贴片怎么*  如何查看固态硬盘速度  如何用固态硬盘做缓存 

搜索