新闻中心

神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!

2024-07-02
浏览次数:
返回列表
神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者均来自北京航空航天大学人工智能学院和复杂关键软件环境全国重点实验室黄雷副教授团队。一作倪云昊为研一学生,二作郭宇芯为大三学生,三作贾俊龙为研二学生,通讯作者为黄雷副教授(主页:https://huangleibuaa.github.io/)

神经网络通常由三部分组成:线性层、非线性层(激活函数)和标准化层。线性层是网络参数的主要存在位置,非线性层提升神经网络的表达能力,而标准化层(Normalization)主要用于稳定和加速神经网络训练,很少有工作研究它们的表达能力,例如,以Batch Normalization为例,它在预测阶段可以认为是线性变换,从表达上并未引入非线性。因此研究人员普遍认为Normalization并不能够提升模型的表达能力。

然而,最近由北京航空航天大学人工智能学院黄雷老师团队发表在ICML2025上的论文《On the Nonlinearity of Layer Normalization》指出,层标准化(Layer Normlization,LN)以及其计算退化版本RMSNorm具有非线性表达能力,并详细讨论了LN的万能近似分类能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!

  • 论文地址:https://arxiv.org/abs/2406.01255

该论文对LN的非线性进行了数学证明。并且提出了仅含线性层和LN的简单神经网络LN-Net,在足够深的情况下,理论上,可以任意分类给定的样本和样本类别。这一发现打破了人们将各种Normalization视为不具有拟合能力的线性变换的惯性认知,而非线性层和标准化层也不再是互不相交的神经网络模块。

目前,随着transformer的广泛使用,LN作为其中的固定组成部分,已经成为了一种普遍使用的技术,该研究在未来可能为神经网络架构提供新的理论依据,在这个方向上,具有开创性意义。

LN非线性的数学发现

对于非线性研究,文章并没有直接讨论LN本身的分析性质,而是更具有实用意义地探究了LN与数据之间的交互。

作者首先提出了统计量SSR(Sum of Squares Ratio),描述两个类别下样本的线性可分性。当对样本进行线性变换时,SSR也会发生变化。因此,定义样本在所有线性变换下对应的最小的SSR为LSSR。文章指出,当LSSR越小时,样本之间的线性可分性越强。

然而,当对样本施加的线性变化替换为“线性变换-LN-线性变换”的结构时,发现得到的新的SSR有可能低于LSSR,这验证了LN的非线性表达——如果LN是线性的,那么“线性变换-LN-线性变换”也是线性的,得到的新SSR不可能会低于LSSR。

LN在分类问题中的任意可分性

为了进一步研究,作者将LN拆分为两个步骤:中心化(centering)和尺度缩放(scaling)。中心化从数学上是一个线性变换,因此LN的非线性主要存在于尺度缩放操作当中(文章中也称之为球面投影,是RMSNorm执行的操作)。作者以最为简单的线性不可分的异或数据为例,通过线性变换和球面投影将这四个点进行了正确分类。

神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI
更一般地,作者提出了使用LN和线性层对任意数目样本进行正确分类的算法,探究了LN-Net的万能近似能力。

神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!

通过构造算法步骤,将神经网络的逐层变换转换为同类样本合并问题,将万能近似分类问题转换为样例归并问题,并指出——对于任意标签的m个样本,都可以构造一个O(m)层的LN-Net,对这m个样本进行正确分类。这一构造方法为计算神经网络的VC维也提供了新的思路。作者指出,在此基础上,可以推断出有L个层标准化层的LN-Net,VC维至少有L+2。 

神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!

LN非线性加强与实际应用

作者在证明了LN非线性的基础上,为进一步加强LN的非线性以便于实际应用,提出了分组层标准化技术(LN-G)。作者在数学上从海森矩阵的角度预测分组能强化LN的非线性,并从实验上初步探测了LN-G的表达能力。

作者指出,在CIFAR-10随机标签数据集上,对于通常的线性层模型,其准确率不超过20%;而使用线性层和LN-G构成的神经网络(不引入传统的激活函数作为非线性单元)能够取得55.85%的准确率。
神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!
作者进一步探究了LN-G在无激活函数的卷积神经网络的分类效果,并实验上证明了这种没有激活函数的神经网络的确有着强大的拟合能力。此外,作者类比MLP上GN作用于整个样本上(将单个样本拉伸成一维向量,再进行GN),提出了LN-G-Position。在没有非线性层的ResNet网络上使用LN-G-Position方法在CIFAR-10数据集上能够取得86.66%的准确率,体现了LN-G-Position强大的表达能力。
神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!
作者接下来在Transformer上进行了实验探究,将原本的LN替换为LN-G,根据实验结果发现了分组层标准化能有效性提升Transformer网络的性能,证明了真实网络中,该理论的可行性。

结论与展望

作者在《On the Nonlinearity of Layer Normalization》论文中,理论上首次证明了仅含有线性层和LN的模型的万能分类能力以及给定特定深度的模型的VC维下界,这里面最重要的意义是将传统深度神经网络的表达能力的分析朝广泛使用的现代真实网络迈出了一大步,这一点可能为未来的神经网络结构设计提供新的思路。

以上就是神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!的详细内容,更多请关注其它相关文章!


# 工程  # 证明了  # 转换为  # 理论上  # 能为  # 为例  # 进行了  # 这一  # 自定义  # 提出了  # type  # git  # icml2024  # 神经网络  # 仪表板  # 虹口区网站优化排名  # 如何选择网站建设推广  # 伊川网站建设推广电话  # 沈阳网站推广哪家价格低  # 仁怀seo效果最好  # seo快速排名极光方法  # aso推广营销网站  # 个关键词排名优化  # 产品经理seo是什么  # 梁平区网络营销线上推广 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: typescript有什么作用  如何进入cmd命令行  抖音GMV是什么_抖音GMV是什么意思  主板如何禁用固态硬盘  vs怎么编写typescript  为什么ai老是说链接面板中缺少某些文件  苹果16都有哪些亮点  光刻机分类有哪些品牌的  春运抢票如何快速抢到票  楔子是什么意思  a股等权平均市盈率是什么意思  苹果16系统有哪些改变  vs如何输入命令行参数  电脑命令如何删除账号  j*a map数组怎么取值  如何管理员打开cmd命令行窗口  为什么要用typescript6  平仓是什么意思?  服务器系统怎么装  如何用命令查看数据库日志文件  按键精灵datediff函数怎么用 如何使用按键精灵中的Datediff函数教程  如何安装台式机固态硬盘  typescript中如何引入本地js  苹果16如何预购  怎么用typescript 写js  typescript能开发什么  如何判断固态硬盘  如何修改cad中的命令  苹果16更新了哪些版本  typescript能干什么  mysql的datediff函数怎么用  皓影混动仪表盘上power是什么意思  平板键盘nfc功能是什么意思  苹果16关闭哪些功能好  一天多少分钟  j*a 数组怎么循环输出  焊机上power灯闪是什么意思  混合固态硬盘如何分区  夸克为什么会变小  春运抢票到哪里抢票啊  夸克绑定设备是什么意思  折叠屏手机哪个牌子性价比高  typescript的语法格式是什么  如何安装m.2固态硬盘  8英寸等于多少厘米  手机拍显示屏有条纹怎么去除  课程伴侣登不上怎么办  固态硬盘如何接主机  新网站如何填写域名解析  1s等于多少ms 

搜索