新闻中心

DeepSeek GRPO或致模型崩溃,Qwen3新范式GSPO能否成新标准?

2025-09-19
浏览次数:
返回列表

大型语言模型的训练一般分为“预训练”和“后训练”两个阶段。“预训练”阶段,开发者借助大规模文本数据集对模型进行训练,使其学会预测句子中的下一个词;“后训练”阶段,则致力于让模型更好地理解和执行人类指令,此阶段似乎是强化学习的一种特殊形式。

用于大语言模型(LLMs)微调的强化学习(RL)算法正不断演进。起初,OpenAI开创了基于人类反馈的强化学习(RLHF)技术来改进ChatGPT。该技术让人类标注员对模型生成的多种响应打分,选出最优答案作为训练参考。不过,这一过程耗时、昂贵且依赖人力,通常需要一支专业的数据标注团队。

DeepSeek用RL技术自动化了这一环节,算法让模型在探索中通过获得“奖励信号”自主学习正确行为,降低了成本,提高了效率。OpenAI在ChatGPT训练中采用了近端策略优化(Proximal Policy Optimization, PPO),而DeepSeek团队提出了组相对策略优化(Group Relative Policy Optimization, GRPO)算法,这也是DeepSeek - R1中的核心技术。

GRPO的核心创新在于消除了对计算密集型价值模型的依赖。它采用群组生成和相对评估机制,对于给定输入提示,系统生成G个不同响应构成群组,奖励模型对群组内所有响应评分,再计算群组内分数的均值和标准差,为每个响应计算相对优势值。优于群组平均水平的响应获正向优势,反之获负向优势。这种设计降低了强化学习训练的内存占用和计算复杂度,让大规模模型训练更高效可行。

Qwen3首次亮相时,其旗舰模型性能就与DeepSeek - R1、o3 - mini、Gemini 2.5 Pro等顶级模型相当。Qwen3系列模型覆盖MoE模型和密集模型,还有众多细分版本,且仍在不断迭代更新,如Qwen3 - 235B - A22B - Instruct - 2507 - FP8在知识数学、编程、人类偏好对齐、Agent能力等测评中表现出色,超过了Kimi - K2、DeepSeek - V3等顶级开源模型以及Claude - Opus4 - Non - thinking等领先闭源模型。

最近,Qwen团队发布论文,揭示了Qwen3模型成功的核心技术细节——组序列策略优化(Group Sequence Policy Optimization, GSPO)算法。有分析指出,使用GRPO训练大语言模型存在严重稳定性问题,会导致模型崩溃。GRPO将重要性采样权重应用于每个token,而非整个生成序列。

在强化学习中,重要性采样用于校正行为策略与目标策略的差异,当两者不一致时,为已有数据样本赋予权重,使样本更能代表目标策略,提升训练稳定性和有效性。但GRPO在每个token生成步骤单独计算重要性权重,在训练目标中应用此类权重时,因每个token比值独立计算,会导致高方差累积,破坏梯度稳定性,引发模型崩溃。同时,这种做法会将高方差噪声引入训练梯度,在长序列上累积,存在“裁剪机制”时,不稳定性问题会加剧。

在专家混合模型(Mixture - of - Experts, MoE)中,GRPO的问题更严重,因为token级别的路由变化会加剧不稳定性,基于GRPO的训练流程通常需依赖“路由重放”等额外策略。Qwen团队通过实验验证了理论分析。在所有实验场景中,新提出的GSPO算法均比GRPO有更高的训练效率。

GoEnhance GoEnhance

全能AI视频制作平台:通过GoEnhance AI让视频创作变得比以往任何时候都更简单。

GoEnhance 347 查看详情 GoEnhance

在CodeForces任务中,GRPO最终得分收敛于2000分以下,而GSPO随训练计算量增加持续提升成绩,展现出更强的“可扩展性”。那么,GSPO是如何解决这些问题的呢?GSPO将重要性采样从token级转移至序列级,其重要性比值基于整个序列的似然度计算。这种采样权重设计缓解了逐token方差的累积问题,提升了训练稳定性。

指数中的因子用于“长度归一化”,若不进行长度归一化,几个token的似然变化就可能导致序列级重要性比值剧烈波动,不同长度生成响应在目标函数中需不同裁剪范围,会增加训练不稳定性。针对专家混合模型(MoE)的专项实验凸显了GSPO的优势。

由于MoE模型具有稀疏激活特性,使用GRPO会加剧训练不稳定性。在使用GRPO训练48层的Qwen3 - 30B - A3B - Base模型时,每次强化学习梯度更新后,相同rollout样本新策略激活的专家约有10%与旧策略不同,这是低效的训练方式。而GSPO无需使用“路由重放”就能稳定收敛,消除了不必要的训练复杂性,保留了MoE架构的全部潜力。

总结来看,GSPO有诸多优势。

它将重要性采样从token级别提升到序列级别,并进行序列长度归一化处理;降低了方差,消除了对“路由技巧”等辅助策略的依赖。

业界普遍认为,在大语言模型后训练阶段引入强化学习对提升推理能力至关重要。大量实验结果证实,GRPO的“逐token重要性采样”方法存在不稳定性和低效性问题。因此,GSPO提出的“序列级重要性采样”很可能成为未来后训练强化学习的新标准。

以上就是DeepSeek GRPO或致模型崩溃,Qwen3新范式GSPO能否成新标准?的详细内容,更多请关注其它相关文章!


# 开源  # 宜昌网络营销推广费用  # 阳泉商城网站建设贵吗  # 宽城满族自治县网站优化  # 高端网站建设公司排名  # 安徽外贸网站推广  # 廊坊教育培训网站建设  # 广东营销推广剪辑招聘网  # seo的基础是链接建设  # 天津综合网站建设差异  # 漳州网站建设招聘  # 中国  # 成新  # 降低了  # 两款  # 来势汹汹  # qwen3  # 这一  # 多模  # 官网  # 群组  # q  # deepseek  # gemini  # 内存占用  # claude  # gpt  # openai  # 路由  # chatgpt  # ai 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 交管12123协议头不完整是啥意思  单片机*计步器怎么用  typescript什么意思  锤子手机怎么不出5g  固态硬盘如何保存  位置控制单片机怎么用的  360手机壁纸怎么改  服务器系统怎么装  老电脑如何装固态硬盘  access中如何使用常用宏命令  j*a怎么存放数组中  春运哪天抢票最好  5G类似微信的聊天软件有哪些  对应市盈率是30X是什么意思  类似微信的聊天软件有哪些  手机如何更改固态硬盘  a03怎么根据编号找文链接入口  萝卜快跑的收费标准是什么  typescript如何定义常量  a股等权市盈率中位数是什么意思  什么叫typescript  单片机串口接收怎么实现  苹果16会升级哪些  夸克投屏为什么那么卡  固态硬盘 如何分区  电动车power灯亮是什么意思  闪光灯power闪烁是什么意思  命令行如何打开打印机  如何用固态硬盘做缓存  爱奇艺vip会员可以同时几个人用?  单片机显存怎么设置最佳  12306退票手续费最新规定  typescript 如何解决 null  苹果16哪些型号好用  如何用命令行连接本地数据库  进口超级维特拉三门版power是什么意思  光猫power和pon常亮是什么意思  vfp 命令窗口如何实现换行  市盈率百分位roe是什么意思  怎么批量烧写单片机  2026年将会大爆发的15个新科技  typescript中范围如何设定  360f4怎么取消百变壁纸  折叠手机屏易坏吗为什么  sqlite中datediff函数怎么用 SQLite中DATEDIFF()函数的用法分享  固态硬盘如何装入机箱  1tb等于多少mb  固态硬盘如何测试  苹果16哪些会降价的  虽千万人吾往矣什么意思 

搜索