新闻中心

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

2023-12-03
浏览次数:
返回列表

在图像理解领域,多模态大模型已经充分展示了其卓越的性能。然而,对于工作中经常需要处理的图表理解与生成任务,现有的多模态模型仍有进步的空间。

尽管目前在图表理解领域中,最先进的模型在简单测试集上表现出色,但是由于它们缺乏语言理解和输出能力,因此无法胜任更为复杂的问答任务。另一方面,基于大语言模型训练的多模态大模型的表现也不尽如人意,主要是由于它们缺乏对图表的训练样本。这些问题严重制约了多模态模型在图表理解与生成任务上的持续进步

近期,腾讯联合南洋理工大学、东南大学提出了 ChartLlama。研究团队创建了一个高质量图表数据集,并训练了一个专注于图表理解和生成任务的多模态大型语言模型。ChartLlama 结合了语言处理与图表生成等多重性能,为科研工作者和相关专业人员提供了一个强大的研究工具。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

论文地址:https://arxiv.org/abs/2311.16483

VALL-E VALL-E

VALL-E是一种用于文本到语音生成 (TTS) 的语言建模方法

VALL-E 134 查看详情 VALL-E

主页地址:https://tingxueronghua.github.io/ChartLlama/

ChartLlama团队设计了一种巧妙的多元化数据收集策略,利用GPT-4生成具有特定主题、分布和趋势的数据,以确保数据集的多样性。该团队结合了开源的绘图库和GPT-4的编程能力,编写出精确的图表代码,以生成准确的图形化数据表示。此外,团队还使用GPT-4描述图表内容并生成问答对,为每个图表生成了丰富多样的训练样本,以确保经过训练的模型能够充分理解图表

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

在图表理解领域,传统模型只能完成一些简单的问题,如读取数字等简单的问答任务,无法回答较为复杂的问题。这些模型难以跟随较长的指令,同时在涉及数学运算的问答中,也常常出现运算错误。相比之下,ChartLlama 可以有效地避免这些问题,具体对比如下:

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

除了传统任务外,研究团队还定义了若干新任务,其中包括三个任务涉及到图表生成。该论文提供了相关示例:

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽给定图表和指令,进行图表重建与图表编辑的示例

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

生成图表示例的过程是根据指令和原始数据进行的

ChartLlama 在各种基准数据集上表现出色,达到了最先进的水平,而且所需的训练数据量也较少。它采用了灵活的数据生成和收集方法,大大扩展了图表理解和生成任务中的图表类型和任务种类,为该领域的发展作出了推动

方法概述

ChartLlama 设计了一种灵活的数据收集方法,利用 GPT-4 的强大语言能力和编程能力,创建了丰富的多模态图表数据集。

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

ChartLlama 的数据收集包括三个主要阶段:

  • 图表数据生成:ChartLlama 不仅从传统数据源收集数据,还利用 GPT-4 的能力产生合成数据。通过提供特定的特征,如主题、分布和趋势,从而引导 GPT-4 产生多样化和平衡的图表数据。由于生成的数据包含了已知的数据分布特性,这使得指令数据的构建更加灵活和多样。
  • 图表生成:接着,利用 GPT-4 强大的编程能力,使用开源库(如 Matplotlib)根据已生成的数据和函数文档来编写图表绘制脚本,生成了一系列精心渲染的图表。由于图表的绘制完全是基于开源工具,这种算法可以生成更多类型的图表用于训练。对比已有数据集,例如 ChatQA,只支持三种图表类型, ChartLlama 所构建的数据集支持多达 10 种图表类型,而且可以任意扩展。
  • 指令数据生成:除了图表渲染外,ChartLlama 还进一步利用 GPT-4 来描述图表内容,构造多种多样的问答数据,以确保训练过的模型能全面理解图表。这个全面的指令调整语料库,融合了叙述文本、问题 - 答案对以及图表的源代码或修改后的代码。过往的数据集只支持 1-3 种图表理解任务,而 ChartLlama 支持多达 10 种图表理解与生成任务,能够更好的帮助训练图文大模型理解图标中的信息

使用上述步骤,ChartLlama 已经建立了一个包含多种任务和多种图表类型的数据集。 不同类型的任务和图表在总数据集中所占的比例如下:

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

请参考论文原文以获取更详细的指令和说明

实验结果

无论是传统任务还是新的任务,ChartLlama 都展现了最优越的性能。传统任务包括图表问答、图表总结,以及图表的结构化数据提取。对比 ChartLlama 和此前最先进的模型,结果如下图所示:

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

研究人员还评估了ChartLlama独有的任务能力,包括生成图表代码、总结图表和编辑图表。他们还创建了相应任务的测试集,并与目前最强大的开源图文模型LLaVA-1.5进行了对比。以下是结果:

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

研究团队在各种不同类型的图表中测试了ChartLlama的问答准确率,并将其与之前的SOTA模型Unichart和提出的基线模型进行了比较,结果如下:

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

总的来说,ChartLlama 不仅推动了多模态学习的边界,也为图表的理解和生成提供了更精确和高效的工具。无论是在学术写作还是在企业演示中,ChartLlama 都将使图表的理解和创造变得更加直观和高效,在生成和解读复杂视觉数据方面迈出了重要的一步。

有兴趣的读者可以前往论文原文,以获取更多研究内容

以上就是深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽的详细内容,更多请关注其它相关文章!


# 开源  # llama  # 南洋  # 腾讯  # 巨兽  # 多模  # 模型  # 营口高端网站优化招聘  # 网络营销推广是什么业务  # 江北区建设网站费用查询  # 贵港本地seo方案公司  # seo 首页集权  # 在没学seo之前我对seo的认识  # 无锡广告网站整站优化  # 好玩的网站建设游戏  # 宁夏品牌营销推广方案  # 招聘网站推广知乎  # 首款  # 将于  # 三大  # 是在  # 最先进 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 新版路由器如何设置路由命令  干股是什么意思  硬盘和固态硬盘如何区分  春运抢票极速版怎么抢票  vue组件typescript怎么用  openwrt有什么用  问一下市盈率是什么意思  所有删除的聊天记录都可以恢复吗?  春运抢票准备什么东西  type-c接口接地是什么意思  苹果16有哪些亮点功能  怎么自学typescript  typescript入门要多久  如何创建解压文件命令  摄像机的power chg是什么意思中文  单片机.lib文件怎么打开  恋爱软件免费聊天不收费的有哪些  shell如何注释所有命令  春运预约抢票能抢到吗  固态硬盘如何装入机箱  linux如何调出命令行  华为如何面对苹果16  360n4怎么关闭锁屏壁纸  计数器上power是什么意思  三星固态硬盘如何安装  typescript怎么加号  电脑如何查看固态硬盘  vi命令如何退出  哪里要用typescript  春运抢票到哪里抢票啊  360n5锁屏壁纸怎么设置  新装固态硬盘如何安装  如何管理员打开cmd命令行窗口  drawing是什么意思  摩托车上power是什么意思  笔记本电脑多少钱  苹果16会升级哪些  j*a中怎么截取数组  阿里云盘共享账户怎么用  typescript和node学哪个  固态硬盘如何保存  阿里云盘扩容工具怎么用  如何把u盘改成固态硬盘  夸克的答案为什么不对  js怎么设置typescript  typescript能开发什么  cos150度等于多少  春运抢票哪个城市好抢  酷狗音乐pc版的每日推荐在哪 酷狗音乐PC版每日推荐查找指南  如何判断固态硬盘端口 

搜索