新闻中心
Transformer模型降维减少,移除90%以上特定层的组件时,LLM性能保持不变
在大型模型时代,Transformer独自支撑起了整个科研领域。自从发布以来,基于Transformer的语言模型在各种任务上展现出了出色的性能,在自然语言建模和推理方面的底层Transformer架构已经成为最先进的技术,在计算机视觉和强化学习等领域也显示出了强大的前景
当前的 Transformer 架构非常庞大,通常需要大量的计算资源来进行训练和推理
这是有意为之的,因为经过更多参数或数据训练的 Transformer 显然比其他模型更有能力。尽管如此,越来越多的工作表明,基于 Transformer 的模型以及神经网络不需要所有拟合参数来保留其学到的假设。
一般来说,在训练模型时大规模过度参数化似乎有帮助,但这些模型在推理之前可以进行大幅剪枝;研究表明,神经网络通常可以去除90%以上的权重,而性能不会有明显下降。这种现象促使研究者开始转向研究有助于模型推理的剪枝策略
来自麻省理工学院和微软的研究人员在一篇名为《真相就在其中:通过层选择性排名减少提高语言模型的推理能力》的论文中提出了一个令人惊讶的发现。他们发现,在Transformer模型的特定层进行精细的剪枝可以显著提高模型在某些任务上的性能
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
- 论文地址:https://arxiv.org/pdf/2312.13558.pdf
- 论文主页:https://pratyushasharma.github.io/laser/
研究中将这种简单的干预措施称为LASER(LAyer SElective Rank reduction,层选择性降秩)。它通过奇异值分解有选择地减少Transformer模型中特定层的学习权重矩阵的高阶分量,从而显著提高LLM的性能。这种操作可以在模型训练完成后进行,而且无需额外的参数或数据
在操作过程中,权重的减少是通过对模型特定的权重矩阵和层进行执行的。研究还发现,许多类似的矩阵都能够显著地减少权重,并且在删除超过90%的组件之前,通常不会观察到性能下降
研究还发现,减少这些因素可以显著提高准确率。有趣的是,这一发现不仅适用于自然语言,对于强化学习也能提升性能
此外,这项研究试图推断出存储在高阶组件中的内容,以便通过删除来提高性能。研究发现,在使用LASE
R回答问题之后,原始模型主要使用高频词(如“the”、“of”等)作出回应。这些词与正确答案的语义类型甚至不相符,也就是说在没有干预的情况下,这些成分会导致模型生成一些不相关的高频词汇
然而,通过进行一定程度的降秩后,模型的回答可以转变为正确的。
为了理解这一点,该研究还探索了其余组件各自编码的内容,他们仅使用其高阶奇异向量来近似权重矩阵。结果发现这些组件描述了与正确答案相同语义类别的不同响应或通用高频词。
这些结果表明,当嘈杂的高阶分量与低阶分量组合时,它们相互冲突的响应会产生一种平均答案,这可能是不正确的。图 1 直观地展示了 Transformer 架构和 LASER 遵循的程序。在这里,特定层的多层感知器(MLP)的权重矩阵被替换为其低秩近似。
LASER 概览
研究者对LASER干预进行了详细介绍。单步LASER干预是通过三个参数(τ、ℓ和ρ)来定义的。这些参数共同描述了要被低秩近似替代的矩阵以及近似的程度。研究者根据参数类型对待干预的矩阵进行分类
研究者关注的重点是矩阵 W = {W_q, W_k, W_v, W_o, U_in, U_out},该矩阵由多层感知机(MLP)和注意力层中的矩阵组成。层数表示研究者干预的层级,其中第一层的索引是0。例如,Llama-2有32个层级,因此表示为 ℓ ∈ {0, 1, 2,・・・31}
最终,ρ ∈ [0, 1) 描述了在做低秩近似时应该保留最大秩的哪一部分。例如设
,则该矩阵的最大秩为 d。研究者将它替换为⌊ρ・d⌋- 近似。
以下是需要 在下图1中,展示了一个LASER的示例。图中的符号τ = U_in和ℓ = L表示在第L层的Transformer块中更新MLP的第一层权重矩阵。还有一个参数用于控制rank-k近似中的k值

LASER 可以限制网络中某些信息的流动,并出乎意料地产生显著的性能优势。这些干预也可以很容易组合起来,比如以任何顺序来应用一组干预
。
LASER 方法只是对这类干预进行简单的搜索,并修改以带来最大收益。不过,还有很多其他方法可以将这些干预组合起来,这是研究者未来工作的方向。
实验结果
在实验部分,研究者使用了在 PILE 数据集上预训练的 GPT-J 模型,该模型的层数为 27,参数为 60 亿。然后在 CounterFact 数据集上评估模型的行为,该数据集包含(主题、关系和答案)三元组的样本,每个问题提供了三个释义 prompt。
首先,我们对 GPT-J 模型在 CounterFact 数据集上进行了分析。图 2 展示了在 Transformer 架构中,将不同数量的降秩应用于每个矩阵后,对数据集分类损失的影响。每个 Transformer 层由一个两层的小型 MLP 组成,输入和输出矩阵分别显示。不同颜色表示移除组件的不同百分比

关于提升释义的准确度和稳健性,如上图 2 和下表 1 所示,研究者发现,当在单层上进行降秩时,GPT-J 模型在 CounterFact 数据集上的事实准确度从 13.1% 增加到了 24.0%。需要注意一点,这些改进只是降秩的结果,并不涉及对模型的任何进一步训练或微调。

哪些事实在进行降秩恢复时会得到恢复?研究者发现,通过降秩恢复得到的事实很可能在数据集中出现的次数非常少,如图3所示

高阶组件存储什么呢?研究者使用高阶组件近似最终的权重矩阵(而不像 LASER 那样使用低阶组件来近似),如下图 5 (a) 所示。当使用不同数量的高阶组件来近似矩阵时,他们测量了真实答案相对于预测答案的平均余弦相似度,如下图 5 (b) 所示。

研究者最终对他们发现的三种不同的LLM在多项语言理解任务上的普适性进行了评估。对于每个任务,他们使用生成准确度、分类准确度和损失三个指标来评估模型的性能。根据表1的结果显示,即使矩阵的秩降低很大,也不会导致模型准确度下降,反而能提升模型的性能
以上就是Transformer模型降维减少,移除90%以上特定层的组件时,LLM性能保持不变的详细内容,更多请关注其它相关文章!
# ai
# llama
# 移除
# 高阶
# 所示
# 模型
# 中国游戏十大关键词排名
# 临沂网站建设的论坛
# 网络营销软件免费推广
# 智能seo营销
# 淘宝营销推广工具免费版
# 黑帽seo 营销
# 威县网站建设价格大全图
# 白山seo查询如何做
# 宣传柳州美食网站推广
# 台州网站建设背景介绍图
# 将于
# 三大
# 出了
# 进行了
# 自然语言
# 低阶
# 这是
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
折叠手机屏易坏吗为什么
j*a数组怎么取元素
建伍遥控器power是什么意思
今天是农历多少号
如何检测固态硬盘温度
汽车中控导航机power线是什么意思
手机拍显示屏有条纹怎么去除
如何测试固态硬盘速度
电脑5G怎么上传手机
市盈率是什么意思高好还是低好
华为交换机 配置 如何复制命令行
dos命令 如何将变量 作为路径的一部分
element ui的好处
python和typescript学哪个
苹果16最近玩法有哪些
vue中datediff函数怎么用
征信信用不好如何恢复 征信信用不好如何恢复指南
哪些框架支持typescript
没网环境如何安装typescript
typescript能干什么
如何打开win10命令
如何卸载typescript
折叠屏手机选择哪个好
苹果16颜色有哪些
交管12123协议头不完整怎么弄
12306退票手续费最新规定
双十一哪一天买比较便宜?
meet是什么意思
新版路由器如何设置路由命令
如何操作fixup命令
命令行ftp如何创建目录
苹果16主打颜色有哪些
苹果手机16有哪些功能
typescript怎么解析vue TypeScript在vue中的使用最新解读
url解码什么意思
react怎么使用 typescript
输入命令如何换行
2026年将会大爆发的15个新科技
typescript怎么写多个构造方法
typescript为什么现在才火
命令行如何运行j*a
市盈率中1stdv是什么意思
video是什么意思
所有删除的聊天记录都可以恢复吗?
单身聊天app有哪些软件 2025最靠谱的单身交友软件推荐
单片机加热片怎么制作
路由器上的power按钮是什么意思
微信最多可以加多少好友
进口超级维特拉三门版power是什么意思
多少毫安的充电宝可以带上飞机


2023-12-28
浏览次数:次
返回列表