新闻中心

国内最大开源模型发布,无条件免费商用!参数650亿,基于2.6万亿token训练

2023-11-06
浏览次数:
返回列表

国内规模最大的开源大模型来了:

参数650亿、基于2.6-3.2万亿token训练。

排名仅次于“猎鹰”和“羊驼”,性能媲美GPT3.5,现在就能无条件免费商用

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

国内最大开源模型发布,无条件免费商用!参数650亿,基于2.6万亿token训练

它就是来自深圳元象公司的XVERSE。

根据算力、资源限制和具体任务需求的不同,我们能对它进行任何自由修改或蒸馏。

除了规模大,它还具有16k上下文,支持40多种语言,并还有7B、13B两个版本可选。

具体什么来头?

国内规模最大的可商用大模型来了

研究表明,参数量越高,高质量训练数据越多,大模型性能才能不断提升。

而业界普遍共识是达到500到600亿参数门槛,大模型才能“智能涌现” ,在多任务中展现强大性能。

但训练此量级模型成本高昂,技术要求较高,目前主要为闭源付费提供。

在国外开源生态中,Llama2-70B和Falcon-180B等标杆模型为“有条件”开源,设置了月活跃用户数或收入等商用上限,并因缺乏训练数据在中文能力上有明显短板。

在此,为推动国产大模型开源生态与产业应用发展,元象XVERSE公司宣布开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用。13B模型则全面升级,提高“小”模型能力上限。

元象XVERSE创始人姚星表示:“面对研发时间紧、算力持续短缺等挑战,团队在三个月内研发出多款高性能7B、13B模型,并最早为社区献上一个‘大有可为’的65B模型。”

XVERSE-65B底座模型在2.6万亿Tokens的高质量数据上从头训练,上下文窗口扩展至16K,支持中、英、俄、法等40多种语言。

显著提升了三方面能力

一、理解、生成、推理和记忆等基础能力,到模型的多样性、创造性和精度表现,从优异到强大;

二、扩展了工具调用、代码解释、反思修正等能力,为构建智能体(AI Agent)奠定技术基础,提高模型实用性;

三、显著缓解7B、13B中常见且可能很严重的幻觉问题,减少大模型“胡说八道”,提高准确性和专业度。

元象大模型系列均为全自研,涵盖多项关键技术与研发创新:

1、复杂分布式系统设计:

短影AI 短影AI

长视频一键生成精彩短视频

短影AI 170 查看详情 短影AI

借鉴团队研发腾讯围棋AI“绝艺”、王者荣耀AI“绝悟”等大系统上的丰富经验,自研高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台与框架协同等关键技术,打造高效稳定的训练系统, 千卡集群峰值算力利用率达58.5%,位居业界前列。

2、全面提升性能:

65B训练中采用 FlashAttention2加速计算, 3D并行基础上采用虚拟流水线(virtual pipeline)技术,降低较长流水线产生过高气泡率,提升计算推理效率;上下文窗口长度从8K逐步提升到16K,使其不仅能出色完成复杂任务,包括长文理解、长文生成和超长对话,还拓展了工具调用、代码解释及反思修正能力,能更好构建智能体(AI Agent)

3、极致提升训练稳定性:

因计算量庞大,通信拥塞、芯片过热或计算节点故障成为65B训练常态,初期出现过一周最高八次故障的情况。

通过集群基础设施运营、资源调度、训练框架和调度平台协同等持续优化,元象打造出高稳定、低中断、强容错的训练系统,将每周有效训练率提升至98.6%。

此外,在接近1.6万亿Tokens的模型训练中期,损失函数产生了NaN值,可能导致训练中断。

通常情况下,业界一般会在分析后删除与之相关的数据区间。

而团队根据经验判定这是模型自然演化,选择不删除数据,直接跳过相关参数更新,最终 NaN值 问题解决。

后期对参数值、激活值、梯度值等中间状态的进一步分析表明,该问题可能与模型最后一层transformer block激活值的最大值变化有关,并会随最大值的逐渐降低而自行解决。

国内最大开源模型发布,无条件免费商用!参数650亿,基于2.6万亿token训练

性能媲美GPT3.5

为确保业界能对元象大模型性能有全面、客观、长期认知,研究人员参考了一系列权威学术测评,制定了涵盖问答、理解、知识、推理、数学、代码等六个维度的11项主流权威测评标准,将持续使用并迭代。

XVERSE-65B在国内尚无同量级模型可对比,在与国外标杆对比测评中,部分指标超越、综合性能媲美GPT3.5;全面超越开源标杆Llama2-70B 和Falcon-180B;与GPT4仍有差距

国内最大开源模型发布,无条件免费商用!参数650亿,基于2.6万亿token训练

全面升级的XVERSE-13B-2,比同尺寸模型增加大量高质量数据,训练数据高达3.2万亿, 极大提升了“小”模型的能力上限。

它文理兼修,保持了文科优势,问答提升18%,理科长足进步, 代码提升149%、数学提升198%,在测评中全面超越了Llama2、Baichuan2等国内外开源标杆。

国内最大开源模型发布,无条件免费商用!参数650亿,基于2.6万亿token训练

现在,元象大模型可在Github、Hugging Face、魔搭ModelScope等多平台搜索“XVERSE”下载,简单登记后即可无条件免费商用,能满足中小企业、科研机构和个人开发者绝大部分的应用与迭代需求。

元象同时提供模型训练、推理、部署、精调等全方位技术服务,赋能文娱、金融、医疗等各行各业,帮助在智能客服、创意写作、精准推荐等多场景打造行业领先的用户体验。

2025年10月, 腾讯音乐率先宣布与元象大模型建立战略合作 ,共同推出lyraXVERSE加速大模型、全面升级其音乐助手“AI小琴”,未来还将持续探索AI与3D前沿技术。

以上就是国内最大开源模型发布,无条件免费商用!参数650亿,基于2.6万亿token训练的详细内容,更多请关注其它相关文章!


# 开源  # 模型  # 什么博客程序seo最好  # 网站seo选择30火星  # 营销推广红包扫码领现金  # 专业外贸网站优化  # 辽宁seo优化是什么  # 黑河网络营销推广  # 大型网站seo优化视频  # 创新网站推广是什么  # 网站建设用什么平台好  # 多多搜索关键词排名  # 最好用  # 规模最大  # 高性能  # 将于  # 三大  # 腾讯  # 来了  # 高质量  # 国内最大  # ai agent  # llama  # hugging face 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 如何固态硬盘4k对齐  启辰星power标志是什么意思  win10电脑如何使用命令提示符  宵衣旰食是什么意思  选哪个折叠屏手机好  typescript中范围如何设定  typescript为什么能运行  路由器power闪红绿灯闪是什么意思  360n4怎么关闭锁屏壁纸  自由服务器如何做动态ip域名解析  如何使用程序编译 执行的命令  市盈率pe是什么意思  j*a map数组怎么用  阿里云盘扩容工具怎么用  苹果16有哪些自带配件  如何ping测试命令  语音聊天软件哪个好 语音聊天软件2025排行榜  市盈率ttm是什么意思  html怎么使用typescript  服务器系统怎么装  华为如何面对苹果16  折叠屏手机共有哪些  如何选购ssd固态硬盘  市盈率为负值是什么意思  typescript变量是什么  如何用adb命令停用系统软件  笔记本如何选择固态硬盘  电脑命令如何删除账号  平板键盘nfc功能是什么意思  power在录音笔上是什么意思  typescript如何定义常量  1s等于多少ms  固态硬盘如何接主机  春运抢票技巧攻略  市盈率底下 18A 19E 是什么意思  电动车仪表盘上的power是什么意思  双十一哪一天买比较便宜?  夸克是什么用途  手机拍电脑屏幕有条纹怎么解决  如何安装tree命令  折叠屏手机哪款最好  cron表达式在线工具有哪些  冰柜power是什么意思这个黄灯怎么不亮  如何使用ping命令  夸克为什么会变小  咋免费领取爱奇艺会员 如何免费领取爱奇艺会员步骤  联想的固态硬盘如何  估值水平比较中市盈率E是什么意思  driver是什么意思  j*a数组求和怎么算 

搜索