新闻中心

苹果公司采用自回归语言模型进行图像模型的预训练

2024-01-29
浏览次数:
返回列表

1、背景

在gpt等大模型出现后,语言模型这种transformer+自回归建模的方式,也就是预测next token的预训练任务,取得了非常大的成功。那么,这种自回归建模方式能不能在视觉模型上取得比较好的效果呢?今天介绍的这篇文章,就是apple近期发表的基于transformer+自回归预训练的方式训练视觉模型的文章,下面给大家展开介绍一下这篇工作。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Apple:使用语言模型的自回归方式进行图像模型预训练图片

论文标题:Scalable Pre-training of Large Autoregressive Image Models

下载地址:https://arxiv.org/pdf/2401.08541v1.pdf

开源代码:https://github.com/apple/ml-aim

2、模型结构

模型结构基于Transformer,并采用语言模型中的next token prediction作为优化目标。主要修改有三个方面。首先,与ViT不同,本文采用GPT的单向attention,即每个位置的元素只与前面的元素计算attention。其次,我们引入了更多的上下文信息,以提高模型的语言理解能力。最后,我们优化了模型的参数设置,以进一步提升性能。通过这些改进,我们的模型在语言任务上取得了显著的性能提升。

Apple:使用语言模型的自回归方式进行图像模型预训练图片

在Transformer模型中,引入了一个新的机制,即在输入序列前面加入了多个prefix token。这些token采用了双向attention机制。这一变化的主要目的是为了增强预训练和下游应用之间的一致性。在下游任务中,类似于ViT的双向attention方法被广泛使用。通过在预训练过程中引入prefix双向attention,模型可以更好地适应各种下游任务的需求。这样的改进可以提高模型的性能和泛化能力。

Apple:使用语言模型的自回归方式进行图像模型预训练图片

在模型最终输出MLP层的优化方面,原先的预训练方法通常会丢弃掉MLP层,并在下游任务中使用一个全新的MLP。这是为了避免预训练的MLP过于偏向预训练任务,导致下游任务的效果下降。然而,在本文中,作者提出了一种新的方法。他们对每个patch都使用一个独立的MLP,同时也采用了各个patch的表征与attention融合的方式来代替传统的pooling操作。这样一来,预训练的MLP head在下游任务中的可用性得到了提升。通过这种方法,作者能够更好地保留图像整体的信息,并且避免了过度依赖预训练任务的问题。这对于提高模型的泛化能力和适应性非常有帮助。

在优化目标上,文中尝试了两种方法,第一种是直接拟合patch像素,用MSE进行预测。第二种是提前对图像patch进行tokenize,转换成分类任务,用交叉熵损失。不过在文中后续的消融实验中发现,第二种方法虽然也可以让模型正常训练,但是效果并不如基于像素粒度MSE的效果更好。

刺鸟创客 刺鸟创客

一款专业高效稳定的AI内容创作平台

刺鸟创客 110 查看详情 刺鸟创客

3、实验结果

文中的实验部分详细分析了这种基于自回归的图像模型的效果,以及各个部分对于效果的影响。

首先,随着训练的进行,下游的图像分类任务效果越来越好了,说明这种预训练方式确实能学到良好的图像表征信息。

Apple:使用语言模型的自回归方式进行图像模型预训练图片

在训练数据上,使用小数据集的训练会导致overfitting,而使用DFN-2B虽然最开始验证集loss较大,但是没有明显的过拟合问题。

Apple:使用语言模型的自回归方式进行图像模型预训练图片

对于模型各个模块的设计方式,文中也进行了详细的消融实验分析。

Apple:使用语言模型的自回归方式进行图像模型预训练图片

在最终的效果对比上,AIM取得了非常不错的效果,这也验证了这种自回归的预训练方式在图像上也是可用的,可能会成为后续图像大模型预训练的一种主要方式。

Apple:使用语言模型的自回归方式进行图像模型预训练图片

以上就是苹果公司采用自回归语言模型进行图像模型的预训练的详细内容,更多请关注其它相关文章!


# 图像  # 济南seo找工作  # 佛山网站建设商业  # 温岭专业营销型网站建设  # 好了  # 更好地  # 这一  # 这是  # 结构化  # 采用了  # 取得了  # 参数设置  # 开源  # 苹果公司  # 预训练  # 模型  # 谷歌seo值得做吗  # 排名网站优化在线咨询  # 儋州抖音seo排名  # 增城头条seo费用  # 商业数据网站建设  # 怎样写彩票网站推广文章  # 彭阳网络推广和营销公司 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: solidworks打开IGS文件作图教程  苹果16有哪些自带配件  夸克用的什么服务器  如何修改cad命令  ready是什么意思  春运抢票可以抢几张  小屏折叠屏手机有哪些  苹果16系统多了哪些  如何进入 dos 命令行  净水器上的power是什么意思  typescript是什么时候出来的  j*a数组求和怎么算  datediff快捷函数怎么用  学typescript要求什么  如何加装固态硬盘  typescript多久能学完  得物怎样不扣手续费 如何通过得物不支付手续费  怎么下载360桌面壁纸  点焊机接触器上power是什么意思  如何用命令查看数据库日志文件  iPhone无法打开YouTube原因分析与解决方案  折叠屏手机为什么有黑点  eraser是什么意思  制冰机power1灯亮是什么意思  access 如何输入命令  数组和J*A怎么打  typescript有哪些版本  春运抢票如何快速抢到票  j*a中怎么截取数组  路由器上的power按钮是什么意思  负市盈率是什么意思  手机如何ip绑定域名解析  固态硬盘如何判断大小  单片机怎么读取电流值  NoSQL数据库有哪些特点  typescript怎么写react  命令行如何打开文件  笔记本如何使用固态硬盘  夸克po什么意思  typescript怎么加号  datediff函数怎么用视频  镜像ao3链接入口  折叠屏手机哪款最好  苹果电脑如何输入命令  linux如何安装yum命令  shell如何注释所有命令  如何通过命令行聊天  折叠屏手机选择哪个好  联想手机如何输入命令行  power在坐标轴中是什么意思 

搜索