新闻中心

减少Transformer秩数以提高性能,同时保持移除特定层90%以上组件LLM不减少

2024-01-13
浏览次数:
返回列表

麻省理工学院和微软进行了联合研究,发现不需要额外的训练即可提升大型语言模型的任务性能,并减小其大小

在大型模型时代,Transformer以其独特的能力支撑起整个科研领域。自推出以来,基于Transformer的语言模型(LLM)在各种任务中展现出卓越的性能。Transformer的底层架构已成为自然语言建模和推理的最先进技术,并在计算机视觉和强化学习等领域展现出强大的前景

然而,当前 Transformer 架构非常庞大,通常需要大量计算资源来进行训练和推理。 

这样重写:这样做是有意义的,因为经过更多参数或数据训练的Transformer显然比其他模型更有能力。然而,越来越多的研究表明,基于Transformer的模型和神经网络不需要保留所有适应参数来保持其学习到的假设

一般而言,在训练模型时,过度参数化似乎很有帮助,但这些模型在推理之前可以进行大幅剪枝。有研究表明,神经网络通常可以去除90%以上的权重,而性能不会有任何显著下降。这一现象引发了研究者对于有助于模型推理的剪枝策略的研究兴趣

来自 MIT、微软的研究者在论文《 The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction 》中提出了一个令人惊讶的发现,即在 Transformer 模型的特定层上进行仔细的剪枝可以显著提高模型在某些任务的性能。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

给Transformer降降秩,移除特定层90%以上组件LLM性能不减

  • 请点击以下链接查看论文:https://arxiv.org/pdf/2312.13558.pdf

  • 论文主页:https://pratyushasharma.github.io/laser/

该研究将这种简单的干预措施称为LASER(层选择性降秩),通过奇异值分解有选择地减少Transformer模型中特定层的学习权重矩阵的高阶分量,从而显著提高LLM的性能。这种操作可以在模型训练完成后进行,无需额外的参数或数据

在操作过程中,权重的减少是在模型特定的权重矩阵和层中进行的。这项研究还发现,许多类似的矩阵都可以显著减少权重,并且通常在删除超过90%的组件之前不会观察到性能下降

该研究还发现这些减少可以显著提高准确率,这一发现似乎不仅限于自然语言,在强化学习中也发现了性能提升。

此外,该研究尝试推断出高阶组件中存储的内容是什么,以便进行删除从而提高性能。该研究发现经过 LASER 回答正确的问题,但在干预之前,原始模型主要用高频词 (如 “the”、“of” 等) 来回应,这些词甚至与正确答案的语义类型都不相同,也就是说这些成分在未经干预的情况下会导致模型生成一些不相干的高频词汇。

然而,通过进行一定程度的降秩后,模型的回答可以转变为正确的。

为了理解这一点,该研究还探索了其余组件各自编码的内容,他们仅使用其高阶奇异向量来近似权重矩阵。结果发现这些组件描述了与正确答案相同语义类别的不同响应或通用高频词。

这些结果表明,当嘈杂的高阶分量与低阶分量组合时,它们相互冲突的响应会产生一种平均答案,这可能是不正确的。图 1 直观地展示了 Transformer 架构和 LASER 遵循的程序。在这里,特定层的多层感知器(MLP)的权重矩阵被替换为其低秩近似。

激光概览

对LASER干预进行了详细介绍。单步LASER干预通过三元组(τ, ℓ, ρ)来定义,其中包含参数τ、层数ℓ和降秩ρ。这些值共同描述了要被它们的低秩近似所替代的矩阵,以及近似的程度。研究者根据参数类型对他们将要干预的矩阵类型进行分类

研究者重点关注 W = {W_q, W_k, W_v, W_o, U_in, U_out} 中的矩阵,它由 MLP 和注意力层中的矩阵组成。层数表示了研究者干预的层(第一层从 0 开始索引)。例如 Llama-2 有 32 层,因此 ℓ ∈ {0, 1, 2,・・・31}。

VALL-E VALL-E

VALL-E是一种用于文本到语音生成 (TTS) 的语言建模方法

VALL-E 134 查看详情 VALL-E

最终,ρ ∈ [0, 1) 描述了在做低秩近似时应该保留最大秩的哪一部分。例如设给Transformer降降秩,移除特定层90%以上组件LLM性能不减,则该矩阵的最大秩为 d。研究者将它替换为⌊ρ・d⌋- 近似。

下图 1 为 LASER 示例,该图中,τ = U_in 和ℓ = L 表示在 L^th 层的 Transformer 块中来更新 MLP 第一层的权重矩阵。另一个参数控制 rank-k 近似中的 k。

给Transformer降降秩,移除特定层90%以上组件LLM性能不减

LASER 可以限制网络中某些信息的流动,并出乎意料地产生显著的性能优势。这些干预也可以很容易组合起来,比如以任何顺序来应用一组干预给Transformer降降秩,移除特定层90%以上组件LLM性能不减

LASER 方法只是对这类干预进行简单的搜索,并修改以带来最大收益。不过,还有很多其他方法可以将这些干预组合起来,这是研究者未来工作的方向。

为了保持原意不变,需要将内容重新写成中文。而不需要出现原句

在实验部分,研究者使用了在 PILE 数据集上预训练的 GPT-J 模型,该模型的层数为 27,参数为 60 亿。然后在 CounterFact 数据集上评估模型的行为,该数据集包含(主题、关系和答案)三元组的样本,每个问题提供了三个释义 prompt。

首先是 CounterFact 数据集上对 GPT-J 模型的分析。下图 2 展示了在 Transformer 架构中为每个矩阵应用不同数量降秩的结果对数据集分类损失的影响。其中每个 Transformer 层都由一个两层的小型 MLP 组成,输入和输出矩阵分别显示。不同的颜色表示移除组件的不同百分比。

给Transformer降降秩,移除特定层90%以上组件LLM性能不减

关于提升释义的准确度和稳健性,如上图 2 和下表 1 所示,研究者发现,当在单层上进行降秩时,GPT-J 模型在 CounterFact 数据集上的事实准确度从 13.1% 增加到了 24.0%。需要注意一点,这些改进只是降秩的结果,并不涉及对模型的任何进一步训练或微调。

给Transformer降降秩,移除特定层90%以上组件LLM性能不减

哪些事实会通过降秩恢复在数据集中成为研究者关注的问题。研究者发现,通过降秩恢复的事实在数据中很少出现,如图 3 所示

给Transformer降降秩,移除特定层90%以上组件LLM性能不减

高阶组件存储了什么?研究者使用高阶组件来近似最终的权重矩阵,与LASER不同,它们不使用低阶组件来进行近似,如图5(a)所示。在使用不同数量的高阶组件来近似矩阵时,他们测量了真实答案与预测答案之间的平均余弦相似度,如图5(b)所示

给Transformer降降秩,移除特定层90%以上组件LLM性能不减

最后,研究者评估了自身发现对 3 种不同的 LLM 在多项语言理解任务上的普遍性。对于每项任务,他们通过生成准确度、分类准确度和损失三种指标来评估模型的性能。如上表 1 所示,即使降秩很大也不会导致模型准确度下降,却可以提升模型性能。

以上就是减少Transformer秩数以提高性能,同时保持移除特定层90%以上组件LLM不减少的详细内容,更多请关注其它相关文章!


# laser  # llama  # type  # 移除  # 工程  # 不需要  # SEO优化课程展板背景  # 曲靖哪有商城网站建设  # 装修网站建设策划方案  # 河北矩阵seo  # 在线seo原创文章检测  # 三大  # 自然语言  # 低阶  # 这一  # 如图  # 开源  # 所示  # 高阶  # 网站建设行业简历  # 站如何进行seo  # 抖音推广模式营销  # 唐山如何建设网站  # 朽木青海seo 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 税负是什么意思  如何退出数据库命令行  显示器上power键是什么意思  市盈率为负数是什么意思  5r是多少钱  汽车的type-c接口是什么  空调控制面板power灯一直亮是什么意思  固态硬盘如何下载网页  命令行ftp如何创建目录  如何选购ssd固态硬盘  performance是什么意思  苹果16要升级哪些功能  db2命令中如何去到指定的副本  excel中datediff函数怎么用  轩逸e-power挡位b是什么意思  如何修改cad中的命令  固态硬盘4k如何看  typescript接口怎么选  酷狗音乐pc版的每日推荐在哪 酷狗音乐PC版每日推荐查找指南  linux如何打开命令窗口  春运预约抢票能抢到吗  羽毛球拍power9是什么意思  如何用命令查看数据库日志文件  苹果16有哪些变化尺寸  如何进入 dos 命令行  苹果16自带配件有哪些  juice是什么意思  市盈率高是什么意思  折叠屏手机哪款最好  恋爱软件免费聊天不收费的有哪些  满射和单射定义  vi命令如何退出  如何检测固态硬盘温度  如何更新苹果ios16  望远镜上power是什么意思  硬件如何执行命令  linux如何查看命令的参数  夸克的答案为什么不对  cos150度等于多少  电动车power灯亮是什么意思  如何打开管理员命令提示符  摩托车上power是什么意思  如何以管理员身份打开命令提示符  51单片机贴片怎么*  喇叭上标的power30w是什么意思  哪些编程软件需用typescript  如何创建解压文件命令  夸克为什么老是投屏失败  如何知道固态硬盘  typescript为什么现在才火 

搜索