新闻中心

吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

2024-06-20
浏览次数:
返回列表
吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本研究评估了先进多模态基础模型在 10 个数据集上的多样本上下文学习,揭示了持续的性能提升。批量查询显著降低了每个示例的延迟和推理成本而不牺牲性能。这些发现表明:利用大量演示示例可以快速适应新任务和新领域,而无需传统的微调

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

  • 论文地址:https://arxiv.org/abs/2405.09798
  • 代码地址:https://github.com/stanfordmlgroup/ManyICL

背景介绍

在近期的多模态基础模型(Multimodal Foundation Model)研究中,上下文学习(In-Context Learning, ICL)已被证明是提高模型性能的有效方法之一。

然而,受限于基础模型的上下文长度,尤其是对于需要大量视觉 token 来表示图片的多模态基础模型,已有的相关研究只局限于在上下文中提供少量样本。

令人激动的是,最新的技术进步大大增加了模型的上下文长度,这为探索使用更多示例进行上下文学习提供了可能性。

基于此,斯坦福吴恩达团队的最新研究——ManyICL,主要评估了目前最先进的多模态基础模型在从少样本 (少于 100) 到多样本(最高至 2000)上下文学习中的表现。通过对多个领域和任务的数据集进行测试,团队验证了多样本上下文学习在提高模型性能方面的显著效果,并探讨了批量查询对性能和成本及延迟的影响。
吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务
                           Many-shot ICL与零样本、少样本ICL的比较。

方法概览

本研究选择了三种先进的多模态基础模型:GPT-4o、GPT4 (V)-Turbo 和 Gemini 1.5 Pro。出于 GPT-4o 优越的表现,研究团队在正文中着重讨论 GPT-4o 和 Gemini 1.5 Pro, GPT4 (V)-Turbo 的相关内容请于附录中查看。

数据集方面,研究团队在 10 个跨越不同领域(包括自然影像、医学影像、遥感影像和分子影像等)和任务(包括多分类、多标签分类和细粒度分类)的数据集上进行了广泛的实验。

吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

                                             基准数据集汇总。

为了测试增加示例数量对模型性能的影响,研究团队逐步增加了上下文中提供的示例数量,最高达到近 2000 个示例。同时,考虑到多样本学习的高成本和高延迟,研究团队还探索了批量处理查询的影响。在这里,批量查询指的是在单次 API 调用中处理多个查询。

实验结果

多样本上下文学习性能评估

总体表现:包含近 2000 个示例的多样本上下文学习在所有数据集上均优于少样本学习。随着示例数量的增加,Gemini 1.5 Pro 模型的性能呈现出持续的对数线性提升,而 GPT-4o 的表现则较不稳定。

吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

数据效率:研究测量了模型的上下文学习数据效率,即模型从示例中学习的速度。结果表明,Gemini 1.5 Pro 在绝大部分数据集上显示出比 GPT-4o 更高的上下文学习数据效率,意味着它能够更有效地从示例中学习。

吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI
批量查询的影响

总体表现:在选择最优示例集大小下的零样本和多样本情境中,将多个查询合并为一次请求,不会降低性能。值得注意的是,在零样本场景中,单个查询在许多数据集上表现较差。相比之下,批量查询甚至可以提高性能。

吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

零样本场景下的性能提升:对于某些数据集(如 UCMerced),批量查询在零样本场景下显著提高了性能。研究团队分析认为,这主要归因于领域校准 (domain calibration)、类别校准 (class calibration) 以及自我学习 (self-ICL)。

吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

成本和延迟分析

多样本上下文学习虽然在推理时需要处理更长的输入上下文,但通过批量查询可以显著降低每个示例的延迟和推理成本。例如,在 HAM10000 数据集中,使用 Gemini 1.5 Pro 模型进行 350 个示例的批量查询,延迟从 17.3 秒降至 0.54 秒,成本从每个示例 0.842 美元降至 0.0877 美元。

吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务

结论

研究结果表明,多样本上下文学习能够显著提高多模态基础模型的表现,尤其是 Gemini 1.5 Pro 模型在多个数据集上表现出持续的性能提升,使其能够更有效地适应新任务和新领域,而无需传统的微调。

其次,批量处理查询可以在相似甚至更好的模型表现的同时,降低推理成本和延迟,显示出在实际应用中的巨大潜力。

总的来说,吴恩达团队的这项研究为多模态基础模型的应用开辟了新的路径,特别是在快速适应新任务和领域方面。

以上就是吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务的详细内容,更多请关注其它相关文章!


# 降至  # 银川网站推广策划  # seo推广程序  # 网站关键词排名哪家便宜  # 沧州营销网站建设业务  # 金华如何优化网站设计  # 册亨网站推广价格  # 长沙县靠谱营销推广方法  # 无锡盐城网站优化多少钱  # 潍城企业网站推广多少钱  # seo费用估算  # 斯坦福  # 如何使用  # 入门  # 腾讯  # 都能  # 尤其是  # 的是  # 多个  # 新任务  # 多模  # type  # gemini  # git  # manyicl  # 上下文学习 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: grep命令的是如何实现  如何用dos命令启动u盘  如何测固态硬盘芯片  单片机软件keil怎么运行  东芝固态硬盘如何保修  丰田type-c接口是什么  typescript干什么的  drawing是什么意思  typescript有什么框架  如何查看win10版本命令行  折叠屏手机好不好,耐不耐用  如何通过命令行聊天  如何查看硬盘是固态硬盘  360n7lite怎么设置动态壁纸  苹果手机16新款颜色有哪些  如何把一个命令后台运行  如何右键打开命令窗口  笔记本如何选择固态硬盘  春运抢票在哪儿抢票  如何使用net命令  如何知道固态硬盘  怎么在typescript定义集合  点焊机接触器上power是什么意思  市盈率中的19a是什么意思  壁挂炉power常亮是什么意思  2025年国外最佳语音聊天软件排行榜  夸克文字口令是什么意思  33000日元等于多少人民币  市盈率tt的扣非是什么意思  市盈率当中17A 18E是什么意思  安装固态硬盘如何设置  苹果16最近玩法有哪些  苹果16有哪些亮点功能  哪个品牌有折叠屏手机卖  夸克绑定设备是什么意思  animal是什么意思  如何用dos命令分区  ping命令如何看问题  华为5g手机掉了怎么定位找回  如何学好typescript  固态硬盘电脑如何设置  faq是什么意思  满射和单射定义  类似微信的聊天软件有哪些  如何查看bash内置的命令  春运抢票到哪里抢票啊  cron表达式在线工具有哪些  春运抢票技巧攻略  dos命令如何复制目录结构  得物上怎么样申请退换货 得物上退换货详细指南(包含海外) 

搜索