新闻中心

DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍

2025-02-19
浏览次数:
返回列表

deepseek v3/r1风靡全网,其底层模型方案和api服务已广泛应用,但价格战和免费竞争也日益激烈。

如何充分利用现有资源,结合专业领域数据进行模型后训练(post-training),以低成本打造高质量的私有模型,从而提升业务竞争力和价值?

拥有近4万GitHub Star的Colossal-AI,现已推出开源大模型后训练工具箱,其核心功能包括:

  • DeepSeek V3/R1 671B参数量模型的低成本监督微调(SFT);
  • 完整的强化学习工具链,涵盖PPO、GRPO、DPO、SimPO等算法;
  • 无缝兼容DeepSeek系列蒸馏模型及HuggingFace开源模型;
  • 支持英伟达GPU、华为昇腾NPU等多种硬件平台;
  • 支持混合精度训练、梯度检查点等加速技术,降低训练成本;
  • 提供灵活的训练配置接口,支持自定义奖励函数和损失函数;
  • 支持多种并行策略,包括数据并行、模型并行、专家并行、ZeRO和Offload等,以适应不同规模的硬件资源。

开源地址:https://www.php.cn/link/b9531e7d2a8f38fe8dcc73f58cae9530

低成本微调DeepSeek V3/R1 671B参数量模型

DeepSeek V3/R1拥有高达6710亿参数,如何低成本地进行微调?只需几个步骤即可完成:

数据集准备

该工具箱使用JSONL格式的数据集,例如:https://www.php.cn/link/b9531e7d2a8f38fe8dcc73f58cae9530/blob/main/applications/ColossalChat/examples/training_scripts/lora_sft_data.jsonl。每行数据为一个对话列表,格式兼容HuggingFace聊天模板,并支持自定义系统提示。

模型权重准备

为获得最佳微调效果,建议使用BF16格式的权重。如已下载FP8权重,可使用DeepSeek官方脚本进行转换:

  • NVIDIA GPU: https://www.php.cn/link/8f4e1425e9f07a29ec859da931ad2f20
  • 华为昇腾NPU: https://www.php.cn/link/80d1a6bf869b86745e1ce10ea0b1b878

使用方法

准备好数据集和模型权重后,使用Colossal-AI提供的一键启动脚本:https://www.php.cn/link/b9531e7d2a8f38fe8dcc73f58cae9530/blob/main/applications/ColossalChat/examples/training_scripts/lora_finetune.py

该脚本与常用的SFT脚本类似,并完全兼容HuggingFace PEFT。启动命令示例:

colossalai run --hostfile path-to-host-file --nprocpernode 8 lorafinetune.py --pretrained path-to-DeepSeek-R1-bf16 --dataset path-to-dataset.jsonl --plugin moe --lr 2e-5 --maxlength 256 -g --ep 8 --pp 3 --batchsize 24 --lorarank 8 --loraalpha 16 --numepochs 2 --warmupsteps 8 --tensorboarddir logs --s*e_dir DeepSeek-R1-bf16-lora

更多参数信息,请运行 python lora_finetune.py --help 查看。训练过程中的学习率、损失函数和梯度范数等信息将通过TensorBoard记录。

LoRA优化硬件资源

通过LoRA等优化技术,该脚本将SFT DeepSeek V3/R1 671B的最低硬件需求降低了近10倍,可在32个Ascend 910B NPU 64GB(ep=8, pp=4)或24个H100/H800 GPU(ep=8, pp=3)上运行。启用CPU offload(--zero_cpu_offload)可进一步降低硬件需求,但会影响训练速度。

Reachout.ai Reachout.ai

一个AI驱动的视频开发平台,专为忙碌的企业家和销售团队打造

Reachout.ai 142 查看详情 Reachout.ai

下图展示了SFT DeepSeek V3/R1 671B模型的损失函数下降曲线:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

资源充足的团队可将并行度扩展至数百甚至数千卡,快速完*参数微调或加速训练。

强化学习微调蒸馏版DeepSeek

Colossal-AI团队验证并实现了DeepSeek论文中的GRPO算法和可验证奖励机制,并使用Qwen2.5-3B-Base模型进行了实验。奖励函数设计如下:

  1. 正确格式:奖励=0
  2. 正确格式,错误结果:奖励=1
  3. 正确格式和结果:奖励=10

Colossal-AI提供了用于验证GRPO的对话模板和设置(https://www.php.cn/link/b9531e7d2a8f38fe8dcc73f58cae9530/blob/main/applications/ColossalChat/conversation_template/Qwen_Qwen2.5-3B.json),一键启动脚本:https://www.php.cn/link/b9531e7d2a8f38fe8dcc73f58cae9530/blob/main/applications/ColossalChat/examples/training_scripts/train_grpo.sh

下图显示了3B参数量模型在训练过程中平均奖励和回复长度的增长情况:

图片

下图展示了模型在训练过程中自我纠正的示例:

图片

Colossal-AI:高效的后训练工具箱

Colossal-AI致力于成为开发者易于使用的后训练工具,帮助用户基于开源模型,低成本快速构建私有模型。

开源地址:https://www.php.cn/link/b9531e7d2a8f38fe8dcc73f58cae9530

以上就是DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍的详细内容,更多请关注其它相关文章!


# 网易  # 怎样优化酒店网站设置  # 建设施工方案网站  # 龙岗关键词排名哪家好  # 赣州网站优化营销  # 汉堡推广营销方案设计  # 广元seo公司选择17火星  # 黔东南网站优化推广  # 中山超级云站推广营销  # 臻牛营销推广机构  # 建瓯公司seo  # 哪家  # 你该  # 美图  # 产业  # 自定义  # 过程中  # 华为  # 一键  # 低成本  # 开源  # qwen  # ai  # 工具  # git  # python  # deepseek 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 市盈率负值是什么意思  oppo手机nfc功能是什么意思  typescript和哪个语音很像  为什么程序员热爱typescript  单片机怎么计算0xf0  计数器上power是什么意思  单片机log怎么看  固态硬盘如何接主机  typescript的文件如何执行  苹果16粉色还有哪些机型  苹果16关闭哪些功能好  如何拍屏幕不出条纹详细方法  typescript参数怎么用  如何打开命令提示符  苹果的type-c接口是什么  市盈率亏损是什么意思  vi命令如何使用方法  云笔记本电脑有什么用  苹果16哪些型号好用  显卡上面TYPE-C是什么接口  mysql的datediff函数怎么用  iphone拍电子屏有横条如何解决  春运高速高铁抢票攻略  华为5g手机怎么选择  苹果16讲解有哪些功能  固态硬盘 如何分区  typescript全局配置放哪里  typescript怎么拼接  typescript在浏览器里怎么用  燃气热水器上的power是什么意思  1s等于多少ms  苹果16送哪些配件  哪个牌子的折叠屏手机好  固态硬盘如何测试  NoSQL数据库有哪些特点  为什么进行域名解析  摄像机的power chg是什么意思中文  rxjs和typescript什么意思  苹果16新增哪些功能  a股等权平均市盈率是什么意思  苹果16颜色有哪些  如何知道固态硬盘  春运抢票极速版怎么抢票  建伍遥控器power是什么意思  折叠屏手机信号哪个最强  摩托车上power是什么意思  12306退票手续费最新规定  nfc功能是什么意思怎么开启  j*a数组对象怎么取  vivo怎么投屏到电视看爱奇艺教程 

搜索