新闻中心
Yandex 开源 LLM 训练工具节省高达 20% 的 GPU 资源
yandex跨国科技公司最近推出了yafsdp,这是一种用于训练大型语言模型(llm)的开源方法。yafsdp是目前最有效的公开可用工具,用于增强gpu通信并减少llm训练中的内存使用量,与fsdp相比,其训练速度提升最高可达26%,具体取决于架构和参数数量。通过使用yafsdp,减少llm的训练时间可以节省高达20%的gpu资源。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Yandex是全球人工智能社区
的发展者,将YaFSDP开源提供给全球的LLM开发人员和人工智能爱好者,即是执行此承诺的其中一步。
"目前,我们正在积极尝试各种模型架构和参数大小,以扩展 YaFSDP 的多功能性,"Yandex 高级开发专家、YaFSDP 团队成员 Mikhail Khruschev 指出,"我们很高兴与全球 ML 社区分享我们在 LLM 训练方面的研发成果,希望能为全球研究人员和开发者获得更多的开源工具和更高的效率做出贡献。”
YaFSDP 案例
LLM(机器学习工程师和自主开发)的公司投入了大量的时间和GPU资源(相当于金钱)来训练这些模型。模型越大,其训练所需的时间和费用就越高。
Yandex 的 YaFSDP 优化了学习速度和性能,使全球的 AI 开发人员在训练模型时可以使用更少的计算能力和 GPU 资源。例如,在涉及具有 700 亿个参数之模型的预训练场景中,使用 YaFSDP 可以节省大约 150 个 GPU 的资源,这意味着每月可以节省大约 50 万美元到 150 万美元(取决于虚拟 GPU 提供商或平台)。
易标AI
告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项
135
查看详情
YaFSDP 通过消除 GPU 通信效率低下来提升效能,确保训练时只需必要的处理器内存,并使 GPU 交互不间断。
YaFSDP 的训练效率
YaFSDP+ 是 FSDP 的增强版,在 LLM 训练中最耗通信的阶段(如预训练、对齐和微调)中,其表现优于 FSDP 方法。YaFSDP 在 Llama 2 和 Llama 3 上展示的最终提速表明训练速度显著提高,在 Llama 2 70B 和 Llama 3 70B 上分别达到 21% 和 26%。
Mikhail Khruschev 表示:“YaFSDP 在 130 亿至 700 亿个参数的模型上表现出色,在 300 亿至 700 亿个参数范围内表现尤为惊人。目前,YaFSDP 最适合基于 LLaMA 架构的广泛使用之开源模型。”
YaFSDP 并不是 Yandex 的第一个开源工具。该公司之前曾分享过其他几款在 ML 社区中很受欢迎的工具,包括:
- CatBoost:一种高性能的基于决策树之梯度提升库。
- YTsaurus:分布式存储和处理的大数据平台。
- AQLM:最先进的量化算法之一,用于大型语言模型的极限压缩。由 Yandex Research、HSE 大学、 IST Austria 及 NeuralMagic 共同开发。
- Petals:是一个旨在简化 LLM 训练和微调过程的库,由 Yandex Research、HSE 大学、华盛顿大学、Hugging Face、巴黎-萨克雷高等经济学院和 Yandex 数据分析学院合作开发。
以上就是Yandex 开源 LLM 训练工具节省高达 20% 的 GPU 资源的详细内容,更多请关注其它相关文章!
# git
# hugging face
# llama
# follow
# 产业
# 开发人员
# 西安网站优化推广电话
# 产品商城网站建设
# 潍坊seo网站优化
# 掇刀seo优化介绍
# 原味靴鞋网站推广策划
# 开好
# 对不
# 之争
# 新能源
# 五大
# 都能
# 华纳
# 南极
# 开源
# type
# 免费优化网站平台
# web的seo
# 购买seo关键词排名优化外网
# 网站建设如何推销自己
# seo优化排名参考火星
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
i5 6500怎么装win7
软件命令行参数如何设置
苹果16系统多了哪些
ao3镜像网站哪个好
交管12123协议头不完整是什么原因
国标控制器单片机怎么接线
md5解密是什么意思
苹果16都有哪些型号
苹果16会有哪些更新
如何通过命令行聊天
苹果16都有哪些亮点
油烟机上的power是什么意思
sql isnull函数如何使用
单片机for循环怎么用
单片机软件keil怎么运行
kingston是什么_kingston是什么意思
折叠屏手机哪个有性价比
typescript的文件如何执行
夸克投屏为什么那么卡
夸克链信有什么用
酷我音乐怎么改每日推荐 酷我音乐每日推荐修改方法
debian和ubuntu命令一样吗
固态硬盘如何测试
单片机引脚怎么改成上拉
typescript全局配置放哪里
春运抢票最快几天能成功
如何设置sql命令
vivo手机爱奇艺怎么投屏到电视操作步骤
如何打开win10命令
如何查看win10版本命令行
typescript在浏览器里怎么用
16苹果有哪些机型
咋免费领取爱奇艺会员 如何免费领取爱奇艺会员步骤
自己如何安装固态硬盘
为什么进行域名解析
ready是什么意思
typescript如何做项目
如何创建解压文件命令
excel中datediff函数怎么用
夸克文字口令是什么意思
华为5g手机掉了怎么定位找回
什么网址不能域名解析
春运抢票可以抢几次票
台达plc只有power灯亮是什么意思
春运抢票极速版怎么抢票
j*a中如何创建列表数组
三星固态硬盘如何保修
充电器上的power是什么意思
苹果16哪些型号好
区块链的热闹将何去何从?


2024-06-12
浏览次数:次
返回列表