新闻中心

Stability AI发布了支持本地运行且无需GPU的稳定代码3B模型

2024-01-17
浏览次数:
返回列表

Stability AI近日发布了其2025年的首款AI模型,名为Stable Code 3B。这个模型拥有30亿参数,专注于辅助代码任务。

无需专用 GPU 即可在笔记本电脑上本地运行,同时仍可提供与 Meta 的 CodeLLaMA 7B 等大型模型具有竞争力的性能。

2025 年底,Stability AI 便开始推动更小、更紧凑、更强大模型的发展,比如用于文本生成的 StableLM Zephyr 3B 模型。

2025年初,Stability AI发布了一款重要的语言模型,名为Stable Code 3B。实际上,它的预览版Stable Code Alpha 3B早在去年八月就已经发布。自那之后,Stability AI一直在不断改进这项技术。这个新版本的Stable Code 3B是专为代码补全而设计的,同时还具备多种附加功能。

与 CodeLLaMA 7b 相比,Stable Code 3B 大小缩小了 60%,但在编程任务上达到了与前者相媲美的性能。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Stability AI发布Stable Code 3B模型,没有GPU也能本地运行

Stable Code 3B 在 MultiPL-E 基准上实现了 SOTA 性能(与类似大小的模型相比),例如 Stable Code 3B 在 Python、C++、J*aScript、J*a、PHP 和 Rust 编程语言上的性能优于 StarCoder。

Stability AI发布Stable Code 3B模型,没有GPU也能本地运行

研究介绍

Stable Code 3B是以Stable LM 3B为基础训练而成,后者训练token数高达4万亿。此外,Stable Code还使用了软件工程中特定的数据进行训练。

Stable Code 3B 提供了更多的特性,即使跨多种语言也表现良好,还兼具其他优势,比如支持 FIM(Fill in the Middle ,一种新的训练技巧)功能,还能扩展上下文大小。基础 Stable Code 在多达 16,384 个 token 序列上进行训练,遵循与 CodeLlama 类似的方法,即采用旋转嵌入(Rotary Embeddings),这种方法可以选择性的允许修改多达 1,000,000 个旋转基(rotary base),进一步将模型的上下文长度扩展到 100k 个 token。

在模型架构方面,Stable Code 3B 模型是一个纯解码器的 transformer,类似于 LLaMA 架构,并进行了以下修改:

Stability AI发布Stable Code 3B模型,没有GPU也能本地运行

  • 位置嵌入:旋转位置嵌入应用于头嵌入维度的前 25%,以提高吞吐量;
  • Tokenizer:使用 GPTNeoX Tokenizer.NeoX 的修改版本,添加特殊 token 来训练 FIM 功能,例如 、 等。

训练

训练数据集

Stable Code 3B 的训练数据集由 HuggingFace Hub 上提供的开源大规模数据集过滤混合组成,包括 Falcon RefinedWeb、CommitPackFT、Github Issues、StarCoder,并进一步用数学领域的数据补充训练。

训练基础设施

  • 硬件:Stable Code 3B 在 Stability AI 集群上使用 256 个 NVIDIA A100 40GB GPU 进行训练。
  • 软件:Stable Code 3B 采用 gpt-neox 的分支,使用 ZeRO-1 在 2D 并行性(数据和张量并行)下进行训练,并依赖 flash-attention、SwiGLU、FlashAttention-2 的旋转嵌入内核。

最后,我们看一下 Stable Code 3B 的性能表现:

Stability AI发布Stable Code 3B模型,没有GPU也能本地运行

Stability AI发布Stable Code 3B模型,没有GPU也能本地运行

关于 Stable Code 3B 更详细的技术报告会在之后发布,大家可以期待一下。

以上就是Stability AI发布了支持本地运行且无需GPU的稳定代码3B模型的详细内容,更多请关注其它相关文章!


# 参数设置  # 养域名关键词排名  # 南充建设公司网站  # 提升关键词排名来巧推网  # 为什么要做营销推广转化  # 揭阳优化网站单价  # seo专员的条件  # 手工馄饨如何推广营销文案  # 苏州企业网站建设及优化  # 网站建设答辩ppt下载  # 铁岭网站SEO优化服务电话  # 是一个  # 模型  # 个月  # 年底  # 将于  # 三大  # 发布了  # 首款  # 软件工程  # 也能  # llama  # 训练 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 春运抢票失败怎么抢  gs是什么意思  春运返程如何抢票成功  固态硬盘如何区分好坏  学typescript有什么用  市盈率为负值是什么意思  mysql的datediff函数怎么用  干股是什么意思  春运哪天抢票最好预约  市盈率百分位roe是什么意思  市盈率高是什么意思  如何查看固态硬盘分区  宝马x5仪表盘上边有power是什么意思  单片机速度怎么看  ao3镜像网站哪个好  考勤机power红灯是什么意思  typescript中怎么引用js文件  高市盈率是什么意思  typescript要用什么工具  typescript多久能学完  广东春运抢票怎么抢不到  阿里云手机云盘怎么用_阿里云盘苹果手机怎么用教程  solidworks打开igs文件看不见要怎么办解决方法  typescript掌握哪些可以做项目  typescript和es6先学哪个  i5 6500怎么装win7  如何安装笔记本固态硬盘  typescript中如何引入本地js  如何通过命令检测u盘启动  5G手机导航怎么旋转  商誉是什么意思  如何激活固态硬盘  j*a 数组怎么循环输出  win10如何打开dos命令窗口大小  喇叭上POWER4欧是什么意思  vs怎么编写typescript  春运预约抢票能抢到吗  夸克网盘是什么都有吗  苹果16更新了哪些软件  如何以命令符运行程序  哪个品牌有折叠屏手机卖  得物上怎么样申请退换货 得物上退换货详细指南(包含海外)  ai如何重复使用上一命令  单片机面包板怎么插  夸克网盘下载为什么要钱  迅达热水器显示power是什么意思  命令行下如何导出数据库  红米手机怎么设置变成5G手机  如何引用typescript中的方法  如何用命令查看本机的操作系统 

搜索