新闻中心
一行代码Post-Train任意长序列!360智脑开源360-LLaMA-Factory
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

<section><code>sequence_parallel_size: 16</code></section>
<section><code>sequence_parallel_size: 16</code></section>
预训练阶段,英伟达的 megatron-lm 凭借丰富高效的并行策略与出色的 gpu 显存优化,成为主流框架,基于它的定制开发往往是最通用的解法, megatron-lm 本身已实现了序列并行(megatron-lm 称之为 context parallelism,其他工作一般称为 sequence parallelism)。
后训练阶段情况相对复杂。后训练算法多样,如 DPO 就有诸多变种,且训练需求灵活多变,不同场景对算法、资源、并行性等要求各异。因此,至今没有一个框架能在并行策略、后训练算法、GPU 显存优化和易用性这四个关键方面做到近乎完美的兼容。虽有框架在部分方面表现尚可,但总体仍存在短板,这也限制了模型在长序列数据后训练上的进一步发展。
Perplexity
Perplexity是一个ChatGPT和谷歌结合的超级工具,可以让你在浏览互联网时提出问题或获得即时摘要
302
查看详情

<section><code># src/llamafactory/model/loader.py</code></section><section><code>sequence_parallel_group = apply_sequence_parallel(model_args)# 序列并行monkey patch,改动attention计算</code></section><section><code>...</code></section><section><code>model.sequence_parallel_group = sequence_parallel_group# 维护模型的序列并行组,不开则为None</code></section>
<section><code># src/llamafactory/data/loader.py</code></section><section><code>@sequence_parallel_decorator</code></section><section><code>def get_dataset(...)</code></section>
<section><code># src/llamafactory/train/sft/trainer.py</code></section><section><code>dist.all_reduce(loss, op=dist.ReduceOp.SUM, group=sp_group)</code></section><section><code>dist.all_reduce(label_num, op=dist.ReduceOp.SUM, group=sp_group)</code></section><section><code>loss /= label_num</code></section><section><code># src/llamafactory/train/dpo/trainer.py</code></section><section><code>dist.all_reduce(policy_chosen_logps, op=dist.ReduceOp.SUM, group=sp_group)</code></section><section><code>dist.all_reduce(policy_rejected_logps, op=dist.ReduceOp.SUM, group=sp_group)</code></section><section><code>dist.all_reduce(reference_chosen_logps, op=dist.ReduceOp.SUM, group=sp_group)</code></section><section><code>dist.all_reduce(reference_rejected_logps, op=dist.ReduceOp.SUM, group=sp_group)</code></section>




表 2:第三方开源模型多尺寸 SFT 长度压测
<section><code>@software{360-llama-factory,</code></section><section><code>author = {Haosheng Zou, Xiaowei Lv, Shousheng Jia and Xiangzheng Zhang},</code></section><section><code>title = {360-LLaMA-Factory},</code></section><section><code>url = {https://github.com/Qihoo360/360-LLaMA-Factory},</code></section><section><code>year = {2025}</code><code>}</code></section>以上就是一行代码Post-Train任意长序列!360智脑开源360-LLaMA-Factory的详细内容,更多请关注其它相关文章!
# 360 智脑
# 工程
# 开源
# type
# llama
# yy
# 底层开发
# 邮箱
# ai
# git
# 寿司推广营销策略分析
# 杭州推广与营销招聘网站
# 平度营销型网站推广
# 扬州大型网站建设
# 涿州律师网站推广
# 解放碑网站推广营销
# 建设优化网站哪个好
# 电脑论坛营销推广策划
# 电商seo是工作职责
# seo云优可可
# 不开
# 就有
# 仅需
# 兼容并包
# 易用
# 数据处理
# 切分
# 神技
# 显存
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
如何拍屏幕不出条纹详细方法
360n7锁屏壁纸怎么固定
win10如何开启命令行
苹果16改掉了哪些
typescript的文件如何执行
焊机上power指示灯亮是什么意思
三菱变频器POWER是什么意思
双十一的哪一天最优惠呢
苹果手机16新款颜色有哪些
j*a怎么处理json数组
如何修改cad中的命令
vue中datediff函数怎么用
怎么在爱奇艺中投屏到电视最新方法
typescript和nodejs哪个好
juice是什么意思
360n6锁屏壁纸怎么设置
命令行如何运行c
夸克高考为什么不靠谱
固态硬盘如何迁移系统
animal是什么意思
如何寻找和修复无法在 AI 中找到文件的问题
单片机蓝牙怎么开启设备
夸克前缀后缀什么意思啊
typescript文件怎么打开
a股等权市盈率中位数是什么意思
typescript中范围如何设定
手机如何更改固态硬盘
单片机是怎么计时的
如何测固态硬盘芯片
j*a怎么用json数组
一天多少分钟
春运抢票可以抢几次啊
如何提高固态硬盘速度
j*a怎么用数组缓存
win10windows资源管理器在哪里打开
得物怎样不扣手续费 如何通过得物不支付手续费
哪里要用typescript
ensp命令如何提示
typescript多久能学完
金色cmyk色值是多少
单片机怎么进行排序操作
春运哪天抢票最好
丰田type-c接口是什么
光刻机的分类及其优缺点
微波炉power中文是什么意思
哪些编程软件需要typescript
每日推荐电声音乐软件有哪些
苹果16有哪些bug
语音聊天软件哪个好 语音聊天软件2025排行榜
苹果16日发售哪些机型


2025-01-10
浏览次数:次
返回列表