新闻中心

3140参数Grok-1推理加速3.8倍,PyTorch+HuggingFace版来了

2024-03-25
浏览次数:
返回列表

马斯克说到做到开源grok-1,开源社区一片狂喜。

但基于Grok-1做改动or商用,都还有点难题:

Grok-1使用Rust+JAX构建,对于习惯Python+PyTorch+HuggingFace等主流软件生态的用户上手门槛高。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

3140参数Grok-1推理加速3.8倍,PyTorch+HuggingFace版来了

△图注:Grok登上GitHub热度榜世界第一

Colossal-AI团队最新成果,解大家燃眉之急,提供方便易用的Python+PyTorch+HuggingFace Grok-1,能将推理时延加速近4倍

现在,模型已在HuggingFace、ModelScope上发布。

HuggingFace下载链接:
https://www.php.cn/link/335396ce0d3f6e808c26132f91916eae

ModelScope下载链接:
https://www.php.cn/link/7ae7778c9ae86d2ded133e891995dc9e

性能优化

结合Colossal-AI在AI大模型系统优化领域的丰富积累,已迅速支持对Grok-1的张量并行。

在单台8H800 80GB服务器上,推理性能相比JAX、HuggingFace的auto device map等方法,推理时延加速近4倍

3140参数Grok-1推理加速3.8倍,PyTorch+HuggingFace版来了

使用教程

下载安装Colossal-AI后,启动推理脚本即可。

./run_inference_fast.sh hpcaitech/grok-1

模型权重将会被自动下载和加载,推理结果也能保持对齐。如下图中Grok-1 greedy search的运行测试。

3140参数Grok-1推理加速3.8倍,PyTorch+HuggingFace版来了

更多详情可参考grok-1使用例:
https://www.php.cn/link/e2575ed7d2c481c414c10e688bcbc4cf

庞然大物Grok-1

此次开源,xAI发布了Grok-1的基本模型权重和网络架构。

刺鸟创客 刺鸟创客

一款专业高效稳定的AI内容创作平台

刺鸟创客 110 查看详情 刺鸟创客

具体来说是2025年10月预训练阶段的原始基础模型,没有针对任何特定应用(例如对话)进行微调。

结构上,Grok-1采用了混合专家(MoE)架构,包含8个专家,总参数量为314B(3140亿),处理Token时,其中的两个专家会被激活,激活参数量为86B。

单看这激活的参数量,就已经超过了密集模型Llama 2的70B,对于MoE架构来说,这样的参数量称之为庞然大物也毫不为过。

更多参数信息如下:

  • 窗口长度为8192tokens,精度为bf16
  • Tokenizer vocab大小为131072(2^17),与GPT-4接近;
  • embedding大小为6144(48×128);
  • Transformer层数为64,每层都有一个解码器层,包含多头注意力块和密集块;
  • key value大小为128;
  • 多头注意力块中,有48 个头用于查询,8 个用于KV,KV 大小为 128;
  • 密集块(密集前馈块)扩展因子为8,隐藏层大小为32768

3140参数Grok-1推理加速3.8倍,PyTorch+HuggingFace版来了

在GitHub页面中,官方提示,由于模型规模较大(314B参数),需要有足够GPU和内存的机器才能运行Grok。

这里MoE层的实现效率并不高,选择这种实现方式是为了避免验证模型的正确性时需要自定义内核。

模型的权重文件则是以*的形式提供,文件大小接近300GB。

3140参数Grok-1推理加速3.8倍,PyTorch+HuggingFace版来了

值得一提的是,Grok-1采用的是Apache 2.0 license,商用友好

目前Grok-1在GitHub上的标星已达到43.9k Stars。

量子位了解,Colossal-AI将在近期进一步推出对Grok-1在并行加速、量化降低显存成本等优化,欢迎持续关注。

Colossal-AI开源地址:https://www.php.cn/link/b9531e7d2a8f38fe8dcc73f58cae9530

以上就是3140参数Grok-1推理加速3.8倍,PyTorch+HuggingFace版来了的详细内容,更多请关注其它相关文章!


# 结构化  # 万州seo推广优化  # 快餐店如何营销推广  # 网站推广能提高权重吗  # 石家庄专业seo外包  # 搜狗网站优化怎么样  # 绥化有实力的seo优化  # 优化外贸网站内链的技巧  # 百度优化网站建设  # seo排名优化工具推荐网站  # 舟山营销型网站建设报价  # 都有  # 参数设置  # 模型  # 量为  # 马斯克  # 下载链接  # 庞然大物  # 的是  # 开源  # 来了  # follow  # llama  # grok  # ai 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 春运什么时候开始抢票  bugly是什么  苹果16有哪些改装模式  折叠屏手机共有哪些  远程桌面如何发送命令  为什么要出折叠屏手机  typescript有什么作用  光刻机是干什么用的  关系型数据库和非关系型数据库有哪些  如何查看邮件域名解析  课程伴侣电脑怎么登录  typescript什么意思  html怎么使用typescript  华为5g手机怎么选择  国标控制器单片机怎么接线  台达plc只有power灯亮是什么意思  区块链的热闹将何去何从?  sqlite中datediff函数怎么用 SQLite中DATEDIFF()函数的用法分享  j*a怎么用数组缓存  为什么选择typescript  车子上面nfc功能是什么意思  阿里云盘修复工具怎么用  营收和gmv区别_营收和gmv有什么区别  openwrt有什么用  苹果16系统多了哪些  多少毫安的充电宝可以带上飞机  如何用adb命令停用系统软件  光刻机的作用及工作原理  ssd固态硬盘如何选择  typescript是什么软件  手机nfc功能功能是什么意思  grep命令的是如何实现  j*a怎么创建json数组  typescript全局配置放哪里  折叠屏有哪些手机  typescript哪个最好  如何在固态硬盘上安装win7系统  汽车收音机power是什么意思  汽车的type-c接口是什么  哪些编程软件需要typescript  j*a怎么求数组均值  广东春运几点抢票  春运抢票可以抢几次票  一秒是多少毫秒  微波炉power中文是什么意思  单片机怎么判定高电平  如何学习typescript  市盈率中的19a是什么意思  虽千万人吾往矣什么意思  干股是什么意思 

搜索