新闻中心
GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
7 月 13 日消息,外媒 Semianalysis 近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型(Mixture of Experts)等具体的参数和信息。

▲ 图源 Semianalysis
外媒表示,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用混合专家模型来进行构建。
IT之家注:混合专家模型(Mixture of Experts)是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。

▲ 图源 Semianalysis
据悉,GPT-4 使用了 16 个混合专家模型 (mixture of experts),每个有 1
110 亿个参数,每次前向传递路由经过两个专家模型。
此外,它有 550 亿个共享注意力参数,使用了包含 13 万亿 tokens 的数据集训练,tokens 不是唯一的,根据迭代次数计算为更多的 tokens。
GPT-4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果,训练成本相当高,外媒表示,8x H100 也无法以每秒 33.33 个 Token 的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以 H100 物理机每小时 1 美元计算,那么一次的训练成本就高达 6300 万美元(约 4.51 亿元人民币)。
对此,OpenAI 选择使用云端的 A100 GPU 训练模型,将最终训练成本降至 2150 万美元(约 1.54 亿元人民币)左右,用稍微更长的时间,降低了训练成本。
以上就是GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型的详细内容,更多请关注其它相关文章!
# OpenAI
# 多项
# 万元
# 亿元
# 将在
# GPT-4
# 使用了
# 汕尾广告网站推广方案
# 洪梅抖音seo服务
# seo叫什么区别
# 查seo排名
# 贵阳网络营销推广专员
# 河北推广营销策划怎么样
# 手机网站优化电话咨询
# 实盘
# 美股
# 新进展
# 上海
# 亚洲
# 推广产品文案网站
# 各地推广神曲的网站叫什么
# 盐城营销型网站建设服务
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
苹果16更新了哪些版本
春运抢票要用抢票软件吗
春运抢票用不用取票码
typescript用在哪里
如何用命令连接mysql
bored是什么意思
adb 命令如何后台运行
typescript怎么拼接
vivo手机爱奇艺怎么投屏到电视操作步骤
单身聊天app有哪些软件 2025最靠谱的单身交友软件推荐
如何辨别固态硬盘坏块
python 如何执行linux命令
如何进入 dos 命令行
系统如何装在固态硬盘
春运抢票失败怎么抢
如何ping测试命令
所有删除的聊天记录都可以恢复吗?
春运什么时候开始抢票
广东春运抢票怎么抢的
市盈率300是什么意思
羽毛球拍power9是什么意思
linux如何用命令修改ip
react怎么使用 typescript
折叠手机屏易坏吗为什么
苹果16配置参数有哪些
春运抢票需要抢几天
单片机怎么加死循环
sql isnull函数如何使用
excel中datediff函数怎么用
市盈率估值1stdv是什么意思
夸克的答案为什么不对
j*a中怎么截取数组
华为的nfc功能是什么意思
新装固态硬盘如何安装
电动车仪表盘上的power是什么意思
grep命令的是如何实现
固态硬盘坏了如何换硬盘
哪些编程软件需用typescript
开机如何进入命令行模式
j*a怎么存放数组中
单片机怎么进行排序操作
mac 如何启动命令行模式
春运抢票哪个城市好抢
wps中datediff函数怎么用 WPS中DATEDIFF函数的语法和用法分享
type-c全能接口是什么意思
春运抢票准备什么东西
自由服务器如何做动态ip域名解析
typescript属性只读如何修改
三星相机里power是什么意思
win10如何打开dos命令窗口大小


2023-07-16
浏览次数:次
返回列表