新闻中心
国内最大开源模型发布,无条件免费商用!参数650亿,基于2.6万亿token训练
国内规模最大的开源大模型来了:
参数650亿、基于2.6-3.2万亿token训练。
排名仅次于“猎鹰”和“羊驼”,性能媲美GPT3.5,现在就能无条件免费商用。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
它就是来自深圳元象公司的XVERSE。
根据算力、资源限制和具体任务需求的不同,我们能对它进行任何自由修改或蒸馏。
除了规模大,它还具有16k上下文,支持40多种语言,并还有7B、13B两个版本可选。
具体什么来头?
国内规模最大的可商用大模型来了
研究表明,参数量越高,高质量训练数据越多,大模型性能才能不断提升。
而业界普遍共识是达到500到600亿参数门槛,大模型才能“智能涌现” ,在多任务中展现强大性能。
但训练此量级模型成本高昂,技术要求较高,目前主要为闭源付费提供。
在国外开源生态中,Llama2-70B和Falcon-180B等标杆模型为“有条件”开源,设置了月活跃用户数或收入等商用上限,并因缺乏训练数据在中文能力上有明显短板。
在此,为推动国产大模型开源生态与产业应用发展,元象XVERSE公司宣布开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用。13B模型则全面升级,提高“小”模型能力上限。
元象XVERSE创始人姚星表示:“面对研发时间紧、算力持续短缺等挑战,团队在三个月内研发出多款高性能7B、13B模型,并最早为社区献上一个‘大有可为’的65B模型。”
XVERSE-65B底座模型在2.6万亿Tokens的高质量数据上从头训练,上下文窗口扩展至16K,支持中、英、俄、法等40多种语言。
显著提升了三方面能力:
一、理解、生成、推理和记忆等基础能力,到模型的多样性、创造性和精度表现,从优异到强大;
二、扩展了工具调用、代码解释、反思修正等能力,为构建智能体(AI Agent)奠定技术基础,提高模型实用性;
三、显著缓解7B、13B中常见且可能很严重的幻觉问题,减少大模型“胡说八道”,提高准确性和专业度。
元象大模型系列均为全自研,涵盖多项关键技术与研发创新:
1、复杂分布式系统设计:
短影AI
长视频一键生成精彩短视频
170
查看详情
借鉴团队研发腾讯围棋AI“绝艺”、王者荣耀AI“绝悟”等大系统上的丰富经验,自研高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台与框架协同等关键技术,打造高效稳定的训练系统, 千卡集群峰值算力利用率达58.5%,位居业界前列。
2、全面提升性能:
65B训练中采用 FlashAttention2加速计算, 3D并行基础上采用虚拟流水线(virtual pipeline)技术,降低较长流水线产生过高气泡率,提升计算推理效率;上下文窗口长度从8K逐步提升到16K,使其不仅能出色完成复杂任务,包括长文理解、长文生成和超长对话,还拓展了工具调用、代码解释及反思修正能力,能更好构建智能体(AI Agent)。
3、极致提升训练稳定性:
因计算量庞大,通信拥塞、芯片过热或计算节点故障成为65B训练常态,初期出现过一周最高八次故障的情况。
通过集群基础设施运营、资源调度、训练框架和调度平台协同等持续优化,元象打造出高稳定、低中断、强容错的训练系统,将每周有效训练率提升至98.6%。
此外,在接近1.6万亿Tokens的模型训练中期,损失函数产生了NaN值,可能导致训练中断。
通常情况下,业界一般会在分析后删除与之相关的数据区间。
而团队根据经验判定这是模型自然演化,选择不删除数据,直接跳过相关参数更新,最终 NaN值 问题解决。
后期对参数值、激活值、梯度值等中间状态的进一步分析表明,该问题可能与模型最后一层transformer block激活值的最大值变化有关,并会随最大值的逐渐降低而自行解决。

性能媲美GPT3.5
为确保业界能对元象大模型性能有全面、客观、长期认知,研究人员参考了一系列权威学术测评,制定了涵盖问答、理解、知识、推理、数学、代码等六个维度的11项主流权威测评标准,将持续使用并迭代。
XVERSE-65B在国内尚无同量级模型可对比,在与国外标杆对比测评中,部分指标超越、综合性能媲美GPT3.5;全面超越开源标杆Llama2-70B 和Falcon-180B;与GPT4仍有差距。

全面升级的XVERSE-13B-2,比同尺寸模型增加大量高质量数据,训练数据高达3.2万亿, 极大提升了“小”模型的能力上限。
它文理兼修,保持了文科优势,问答提升18%,理科长足进步, 代码提升149%、数学提升198%,在测评中全面超越了Llama2、Baichuan2等国内外开源标杆。

现在,元象大模型可在Github、Hugging Face、魔搭ModelScope等多平台搜索“XVERSE”下载,简单登记后即可无条件免费商用,能满足中小企业、科研机构和个人开发者绝大部分的应用与迭代需求。
元象同时提供模型训练、推理、部署、精调等全方位技术服务,赋能文娱、金融、医疗等各行各业,帮助在智能客服、创意写作、精准推荐等多场景打造行业领先的用户体验。
2025年10月, 腾讯音乐率先宣布与元象大模型建立战略合作 ,共同推出lyraXVERSE加速大模型、全面升级其音乐助手“AI小琴”,未来还将持续探索AI与3D前沿技术。
以上就是国内最大开源模型发布,无条件免费商用!参数650亿,基于2.6万亿token训练的详细内容,更多请关注其它相关文章!
# 开源
# 模型
# 什么博客程序seo最好
# 网站seo选择30火星
# 营销推广红包扫码领现金
# 专业外贸网站优化
# 辽宁seo优化是什么
# 黑河网络营销推广
# 大型网站seo优化视频
# 创新网站推广是什么
# 网站建设用什么平台好
# 多多搜索关键词排名
# 最好用
# 规模最大
# 高性能
# 将于
# 三大
# 腾讯
# 来了
# 高质量
# 国内最大
# ai agent
# llama
# hugging face
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
如何固态硬盘4k对齐
启辰星power标志是什么意思
win10电脑如何使用命令提示符
宵衣旰食是什么意思
选哪个折叠屏手机好
typescript中范围如何设定
typescript为什么能运行
路由器power闪红绿灯闪是什么意思
360n4怎么关闭锁屏壁纸
自由服务器如何做动态ip域名解析
如何使用程序编译 执行的命令
市盈率pe是什么意思
j*a map数组怎么用
阿里云盘扩容工具怎么用
苹果16有哪些自带配件
如何ping测试命令
语音聊天软件哪个好 语音聊天软件2025排行榜
市盈率ttm是什么意思
html怎么使用typescript
服务器系统怎么装
华为如何面对苹果16
折叠屏手机共有哪些
如何选购ssd固态硬盘
市盈率为负值是什么意思
typescript变量是什么
如何用adb命令停用系统软件
笔记本如何选择固态硬盘
电脑命令如何删除账号
平板键盘nfc功能是什么意思
power在录音笔上是什么意思
typescript如何定义常量
1s等于多少ms
固态硬盘如何接主机
春运抢票技巧攻略
市盈率底下 18A 19E 是什么意思
电动车仪表盘上的power是什么意思
双十一哪一天买比较便宜?
夸克是什么用途
手机拍电脑屏幕有条纹怎么解决
如何安装tree命令
折叠屏手机哪款最好
cron表达式在线工具有哪些
冰柜power是什么意思这个黄灯怎么不亮
如何使用ping命令
夸克为什么会变小
咋免费领取爱奇艺会员 如何免费领取爱奇艺会员步骤
联想的固态硬盘如何
估值水平比较中市盈率E是什么意思
driver是什么意思
j*a数组求和怎么算


2023-11-06
浏览次数:次
返回列表