新闻中心

万亿token!史上最大多模态数据集诞生

2024-07-28
浏览次数:
返回列表

开源多模态大模型或将开始腾飞。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

万亿token!史上最大多模态数据集诞生

千鹿Pr助手 千鹿Pr助手

智能Pr插件,融入众多AI功能和海量素材

千鹿Pr助手 128 查看详情 千鹿Pr助手
值此 Llama 3.1 占领各大头条之际,又突然冒出了另一个也非常重要的发布 —— 一个规模空前的开源多模态数据集。

对大模型来说,数据集的重要性无需多言,甚至可以说没有大型数据集就不可能有大模型。现在正是多模态大模型(LMM)发展正盛的时候,规模足够大的优质且开源的多模态数据集已经成为该领域的一大「刚需」。

不过,相比于开源的文本数据集,现有的开源多模态数据集都比较小、多样性也不足,并且来源基本都是 HTML 文档 —— 这就限制了数据的广度和多样性。这无疑限制了开源 LMM 的发展,让开源 LMM 与闭源 LMM 之间的差异变得非常大。

近日,华盛顿大学、Salesforce Research 和斯坦福大学等机构的联合团队填补了这一空白,构建了一个万亿 token 级的交织多模态的开源数据集 MINT-1T(Multimodal INTerle*ed)。毫无疑问,这是目前最大的开源多模态数据集。
万亿token!史上最大多模态数据集诞生
  • 数据集地址:https://github.com/mlfoundations/MINT-1T
  • 论文地址:https://arxiv.org/abs/2406.11271
  • 论文标题:MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

MINT-1T 共包含一万亿文本 token 和三十亿张图像,并且其有 HTML/PDF/ArXiv 等多种不同来源。在 MINT-1T 问世之前,该领域最大的开源数据集是 OBELICS,其包含 1150 亿文本 token 和 3.53 亿张图像,并且来源只有 HTML。图 1 比较了这些数据集。
万亿token!史上最大多模态数据集诞生
数据集的构建

首先,该团队从多样化的来源(包括 HTML、PDF、ArXiv)收集了大量多模态数据,图 2 展示了这些不同来源的多模态文档样本。
万亿token!史上最大多模态数据集诞生
然后,为了提高数据质量和安全性,他们执行了文本质量过滤、图像过滤、安全过滤(包括去除 NSFW 图像和可识别个人身份的信息)以及去重。图 3 简要展示了这些数据过滤过程。
万亿token!史上最大多模态数据集诞生
最终,他们得到的 MINT-1T 数据集包含 9220 亿 HTML token、1060 亿 PDF token 和 90 亿 ArXiv token。值得注意的是,整个数据处理过程耗费了大约 420 万 CPU 小时数。表 1 对比了一些常见的开源或闭源多模态数据集。
万亿token!史上最大多模态数据集诞生
模型实验

该团队也实验了使用该数据集训练多模态模型的效果,并与其它数据集进行了比较。

他们使用的模型架构是 Salesforce 的 XGen-MM,评估的则是模型在数据集上学习之后的上下文学习和多图像推理能力。评估基准包括:视觉描述基准(COCO 和 TextCaps)、视觉问答基准(VQAv2、OK-VQA、TextVQA 和 VizWiz)、多图像推理基准(MMMU 和 Mantis-Eval)。

实验结果

在 HTML 文档上训练

该团队首先对比了 MINT-1T 的 HTML 部分与 OBELICS;因为 OBELICS 是之前领先的多模态数据集并且也是基于 HTML 文档,他们基于这两个数据集分别用 100 亿多模态 token 训练了两个模型,并评估了它们的上下文学习性能。

表 2 给出了在常见基准上的 4-shot 和 8-shot 性能。
万亿token!史上最大多模态数据集诞生
可以看到,对于 VQA(视觉问答)任务,在 MINT-1T HTML 文档上训练的模型表现优于在 OBELICS 训练的模型,但前者在视觉描述任务上表现更差一些。平均而言,OBELICS 比 MINT-1T (HTML) 略好一点。

添加 PDF 和 ArXiv 文档

之后,该团队又在 MINT-1T 全数据集上进行了测试,即同时包含 HTML、PDF 和 ArXiv 文档。他们通常采样了 100 亿多模态 token,其中 50% 来自 HTML、45% 来自 PDF、5% 来自 ArXiv。

结果同样见表 2,可以看到在 MINT-1T 混合数据上训练的模型在大多数基准上都优于在 OBELICS 和 MINT-1T (HTML) 上训练的模型。

而在更为复杂的多模态推理任务上,如表 3 所示,用 MINT-1T 训练的模型在 MMMU 上优于用 OBELICS 训练的模型,但在 Mantis-Eval 基准上不及后者。
万亿token!史上最大多模态数据集诞生
更细粒度的测试和模型架构的影响请参考原论文。

这个超大规模的开源多模态数据集能否成为一系列传奇的起点,最终造就一个类似 Llama 系列模型那样的多模态大模型系列呢?让我们拭目以待吧。

以上就是万亿token!史上最大多模态数据集诞生的详细内容,更多请关注其它相关文章!


# 多模态数据集  # 揭阳企业网站推广收费  # 惠州网站优化企业  # 唐山seo招商  # 多图  # 可以看到  # 腾讯  # 华纳  # 保时捷  # 文档  # 模态  # 开源  # 史上  # 多模  # type  # llama  # git  # mint-1t  # 工程  # 阜新玛瑙的营销推广  # 泰安网站建设哪家专业  # 重庆seo排名扣费吗  # 邵阳网站优化工作怎么样  # 胶州网站建设优化排名  # 石家庄网站优化的关键词  # 宜宾seo网站优化 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 域名批量查询工具有哪些  datediff函数怎么用视频  羽毛球拍power9是什么意思  element ui的好处  如何通过命令行启动tomcat  春运辅助抢票怎么抢  ensp命令如何提示  手机如何ip绑定域名解析  怎么下载360桌面壁纸  ka是什么意思  小屏折叠屏手机有哪些  typescript怎么加号  苹果16粉色还有哪些机型  固态硬盘如何查看盘符  mac如何使用vi命令行  typescript卸载不掉怎么办  tft单片机怎么写彩屏  如何用adb命令停用系统软件  开机如何进入命令行模式  恋爱软件免费聊天不收费的有哪些  东芝固态硬盘如何保修  typescript 如何解决 null  输入命令如何换行  征信不好如何恢复信誉度 ‌征信不好恢复信誉度的方法  如何查看邮件域名解析  如何修改域名解析  如何安装笔记本固态硬盘  单片机for循环怎么用  记录仪power灯亮是什么意思  春运抢票极速版怎么抢票  ospf中交换机命令如何设置  固态硬盘4k如何看  每日推荐电声音乐软件有哪些  typescript怎么传json  8800日元等于多少人民币  服务器系统怎么装  三星相机里power是什么意思  300秒等于多少分钟  摄像机的power chg是什么意思中文  如何查看固态硬盘分区  春运抢票最多能抢几趟车  j*a怎么把数组输出  光刻机的分类及其优缺点  命令行ftp如何创建目录  intel固态硬盘如何安装  夸克的答案为什么不对  单片机怎么发送can 信号  远程桌面如何发送命令  360n7锁屏壁纸怎么固定  笔记本如何使用固态硬盘 

搜索