资源预览内容
第1页 / 共26页
第2页 / 共26页
第3页 / 共26页
第4页 / 共26页
第5页 / 共26页
第6页 / 共26页
第7页 / 共26页
第8页 / 共26页
第9页 / 共26页
第10页 / 共26页
亲,该文档总共26页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
217.神经网络中激活函数的真正意义?一个激活函数需要具有哪些必要的属性?还有哪些属是好的属性但不必要的?Hengkai Guo,本题解析来源:https:/www.zhihu.com/question/67366051说说我对一个好的激活函数的理解吧,有些地方可能不太严谨,欢迎讨论。(部分参考了Activation function。)1. 非线性:即导数不是常数。这个条件前面很多答主都提到了,是多层神经网络的基础,保证多层网络不退化成单层线性网络。这也是激活函数的意义所在。2. 几乎处处可微:可微性保证了在优化中梯度的可计算性。传统的激活函数如sigmoid等满足处处可微。对于分段线性函数比如ReLU,只满足几乎处处可微(即仅在有限个点处不可微)。对于SGD算法来说,由于几乎不可能收敛到梯度接近零的位置,有限的不可微点对于优化结果不会有很大影响1。3. 计算简单:正如题主所说,非线性函数有很多。极端的说,一个多层神经网络也可以作为一个非线性函数,类似于Network In Network2中把它当做卷积操作的做法。但激活函数在神经网络前向的计算次数与神经元的个数成正比,因此简单的非线性函数自然更适合用作激活函数。这也是ReLU之流比其它使用Exp等操作的激活函数更受欢迎的其中一个原因。4. 非饱和性(saturation):饱和指的是在某些区间梯度接近于零(即梯度消失),使得参数无法继续更新的问题。最经典的例子是Sigmoid,它的导数在x为比较大的正值和比较小的负值时都会接近于0。更极端的例子是阶跃函数,由于它在几乎所有位置的梯度都为0,因此处处饱和,无法作为激活函数。ReLU在x0时导数恒为1,因此对于再大的正值也不会饱和。但同时对于x0时为线性。这个性质也让初始化参数范围的推导更为简单54。额外提一句,这种恒等变换的性质也被其他一些网络结构设计所借鉴,比如CNN中的ResNet6和RNN中的LSTM。8. 参数少:大部分激活函数都是没有参数的。像PReLU带单个参数会略微增加网络的大小。还有一个例外是Maxout7,尽管本身没有参数,但在同样输出通道数下k路Maxout需要的输入通道数是其它函数的k倍,这意味着神经元数目也需要变为k倍;但如果不考虑维持输出通道数的情况下,该激活函数又能将参数个数减少为原来的k倍。9. 归一化(normalization):这个是最近才出来的概念,对应的激活函数是SELU8,主要思想是使样本分布自动归一化到零均值、单位方差的分布,从而稳定训练。在这之前,这种归一化的思想也被用于网络结构的设计,比如Batch Normalization9。参考文献:1 Goodfellow I, Bengio Y, Courville A. Deep learningM. MIT press, 2016.2 Lin M, Chen Q, Yan S. Network in networkJ. arXiv preprint arXiv:1312.4400, 2013.3 Maas A L, Hannun A Y, Ng A Y. Rectifier nonlinearities improve neural network acoustic modelsC/Proc. ICML. 2013, 30(1).4 He K, Zhang X, Ren S, et al. Delvingdeep into rectifiers: Surpassing human-level performance on imagenetclassificationC/Proceedings of the IEEE international conference oncomputer vision. 2015: 1026-1034.5 Glorot X, Bengio Y. Understanding thedifficulty of training deep feedforward neural networksC/Proceedingsof the Thirteenth International Conference on Artificial Intelligenceand Statistics. 2010: 249-256.6 He K, Zhang X, Ren S, et al. Deepresidual learning for image recognitionC/Proceedings of the IEEEconference on computer vision and pattern recognition. 2016: 770-778.7 Goodfellow I J, Warde-Farley D, Mirza M, et al. Maxout networksJ. arXiv preprint arXiv:1302.4389, 2013.8 Klambauer G, Unterthiner T, Mayr A, et al. Self-Normalizing Neural NetworksJ. arXiv preprint arXiv:1706.02515, 2017.9 Ioffe S, Szegedy C. Batchnormalization: Accelerating deep network training by reducing internalcovariate shiftC/International Conference on Machine Learning. 2015:448-456.218.梯度下降法的神经网络容易收敛到局部最优,为什么应用广泛?李振华,https:/www.zhihu.com/question/68109802/answer/262143638深度神经网络“容易收敛到局部最优”,很可能是一种想象,实际情况是,我们可能从来没有找到过“局部最优”,更别说全局最优了。很多人都有一种看法,就是“局部最优是神经网络优化的主要难点”。这来源于一维优化问题的直观想象。在单变量的情形下,优化问题最直观的困难就是有很多局部极值,如<span "font-size:14px;line-height:34px;&
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号