小言_互联网的博客

各种激活函数

407人阅读  评论(0)


Sigmod、tanh、Relu、maxout

1. 激活函数简介

作用:引入非线性因素,为网络提供非线性建模能力

如果没有激活函数,则网络就仅能表达线性映射,此时即使有再多的隐藏层,其整个网络跟单层神经网络也是等价的。

也可以认为:只有加入了激活函数,深度神经网络才具备了分层的非线性映射学习能力。

性质:
可微性: 当优化方法是基于梯度的时候,这个性质是必须的。
单调性: 当激活函数是单调的时候,单层网络能够保证是凸函数。
输出值的范围: 当激活函数输出值是 有限 的时候,基于梯度的优化方法会更加 稳定,因为特征的表示受有限权值的影响更显著;当激活函数的输出是 无限 的时候,模型的训练会更加高效,不过在这种情况小,一般需要更小的learning rate。

非线性建模的原因:
我们面对线性可分的数据集的时候,简单的用线性分类器即可解决分类问题。
但是现实生活中的数据往往不是线性可分的,面对这样的数据,一般有两个方法:

(1)引入非线性函数
激活函数是如何引入非线性因素的呢?
在神经网络中,为了避免单纯的线性组合,我们在每一层的输出后面都添加一个激活函数(sigmoid、tanh、ReLu等等)。

(2)线性变换:
就是把当前特征空间通过一定的线性映射转换到另一个空间,让数据能够更好的被分类。

2. Sigmod



使用范围最广的一类激活函数,指数函数形状,在物理意义上最接近生物神经元。

作用:
(1)概率输出:(0,1)
(2)输入的归一化,代表:Sigmod的交叉熵损失函数

性质:
连续,光滑,严格单调,以(0,0.5)为中心对称,是一个非常良好的阈值函数。

取值分析:
当x趋近负无穷时,y趋近于0;趋近于正无穷时,y趋近于1;x=0时,y=0.5。当然,在x超出[-6,6]的范围后,函数值基本上没有变化,值非常接近,在应用中一般不考虑。

求导方便:
导数表示为本身的函数:f′(x)=f(x)(1−f(x))f′(x)=f(x)(1−f(x)),计算方便,节省时间。

缺陷(明显的饱和性):
从图中可以看出,两侧导数逐渐趋近于0.

满足这种性质的称为软饱和激活函数。

导致的问题(梯度消失):
sigmoid 的软饱和性,使得深度神经网络在二三十年里一直难以有效的训练,是阻碍神经网络发展的重要原因。
具体来说,由于在后向传递过程中,sigmoid向下传导的梯度包含了一个 f′(x)f′(x) 因子(sigmoid关于输入的导数),因此一旦输入落入饱和区,f′(x)f′(x) 就会变得接近于0,导致了向底层传递的梯度也变得非常小。----越乘越小!
此时,网络参数很难得到有效训练。这种现象被称为梯度消失。一般来说, sigmoid 网络在 5 层之内就会产生梯度消失现象。

偏移现象:
此外,sigmoid函数的输出均大于0,使得输出不是0均值,这称为偏移现象,
这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。
(疑问?偏移现象将对神经网络模型产生什么样的影响?)

代码实现

import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.family']='SimHei'
plt.rcParams['font.sans-serif']=['SimHei']

#更改字体,正确显示中文
import matplotlib
matplotlib.rcParams['font.family']='SimHei'
matplotlib.rcParams['font.sans-serif']=['SimHei']

x=np.linspace(-10,10,100)
y=1/(1+np.exp(-x))
plt.xlabel("x")
plt.ylabel("y")
plt.title("sigmoid function and its derivative image")
plt.plot(x,y,color='r',label="sigmoid")
y=np.exp(-x)/pow((1+np.exp(-x)),2)
plt.plot(x,y,color='b',label="derivative")
plt.legend()#将plot标签里面的图注印上去

plt.show()

结果:

3 tanh



与sigmod相比,tanh的输出均值是0,使得其收敛速度比sigmoid快,减少迭代次数。

图中可以看出,tanh也具有软饱和性,会造成梯度消失。

代码实现

import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.family']='SimHei'
plt.rcParams['font.sans-serif']=['SimHei']

#更改字体,正确显示中文
import matplotlib
matplotlib.rcParams['font.family']='SimHei'
matplotlib.rcParams['font.sans-serif']=['SimHei']

x=np.linspace(-10,10,100)
y=(1-np.exp(-2*x))/(1+np.exp(-2*x))
plt.xlabel('x')
plt.ylabel('y')
plt.title("Tanh function and its derivative image")
plt.plot(x,y,color='r',label='Tanh')
y=1-pow((1-np.exp(-2*x))/(1+np.exp(-2*x)),2)
plt.plot(x,y,color='b',label='derivative')
plt.legend()

plt.show()

结果:

4 ReLU, P-ReLU, Leaky-ReLU



Rectified Linear Units:线性整流函数。

取值分析:
当x<0,ReLU硬饱和;
当x>0,ReLU不存在饱和问题,能够在x>0时保持梯度不衰减,从而解决梯度消失问题。这让我们能够直接以监督的方式训练深度神经网络,而无需依赖无监督的逐层预训练(?最后一句不太明白)。

缺陷(神经元死亡):
然而,随着训练的推进,部分输入会落入硬饱和区,导致对应权重无法更新。这种现象被称为“神经元死亡”。训练的时候很"脆弱"。

偏移现象:
与sigmoid类似,ReLU的输出均值也大于0,偏移现象和 神经元死亡会共同影响网络的收敛性。

针对在x<0的硬饱和问题,我们对ReLU做出相应的改进,使得 :

ai是(1,+∞)区间内的固定参数。

而P-ReLU认为,α也可以作为一个参数来学习,原文献建议初始化a为0.25,不采用正则。

代码实现

一定要注意,分段函数的取值,x与y一定要对应起来!

import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.family']='SimHei'
plt.rcParams['font.sans-serif']=['SimHei']

#更改字体,正确显示中文
import matplotlib
matplotlib.rcParams['font.family']='SimHei'
matplotlib.rcParams['font.sans-serif']=['SimHei']

x=np.linspace(-2,2,100)
y=x*(x>0)
plt.xlabel('x')
plt.ylabel('y')
plt.title("Relu function and its derivative image")
plt.plot(x,y,color='r',label="Relu")

x=np.linspace(-2,0)
y=np.linspace(0,0)
plt.plot(x,y,color='b')

x=np.linspace(0,2)
y=np.linspace(1,1)
plt.plot(x,y,color='b',label="derivative")

plt.legend()

plt.show()

结果:

5 ELU



融合了sigmod和ReLU。
左侧:具有软饱和性;
右侧:无饱和性。

右侧线性部分使得ELU能够缓解梯度消失,
而左侧软饱和能够让ELU对输入变化或噪声更鲁棒。

ELU的输出均值接近于0,所以收敛速度更快。

在 ImageNet上,
不加 Batch Normalization 30 层以上的 ReLU 网络会无法收敛,
PReLU网络在MSRA的Fan-in (caffe )初始化下会发散,
而 ELU 网络在Fan-in/Fan-out下都能收敛。

6 Maxout(参考)


Maxout模型实际上也是一种新型的激活函数,在前馈式神经网络中,Maxout的输出即取该层的最大值,在卷积神经网络中,一个Maxout feature map可以是由多个feature map取最值得到。
maxout的拟合能力是非常强的,它可以拟合任意的的凸函数。但是它同dropout一样需要人为设定一个k值。

6.1 示例1

为了便于理解,假设有一个在第i层有2个节点第(i+1)层有1个节点构成的神经网络。



此时网络形式上就变成上面的样子,用公式表现出来就是:
z1 = W1.X+b1;
z2 = W2.X+b2;
z3 = W3.X+b3;
z4 = W4.X+b4;
z5 = W4.X+b5;
out = max(z1,z2,z3,z4,z5);

也就是说第(i+1)层的激活值计算了5次,可我们明明只需要1个激活值,那么我们该怎么办?其实上面的叙述中已经给出了答案,取这5者的最大值来作为最终的结果。

总结:
maxout明显增加了网络的计算量,使得应用maxout的层的参数个数成k倍增加,原本只需要1组就可以,采用maxout之后就需要k倍了。

6.2 示例2

再叙述一个稍微复杂点的应用maxout的网络,网络图如下:

对上图做个说明,第i层有3个节点,红点表示,而第(i+1)层有4个结点,用彩色点表示,此时在第(i+1)层采用maxout(k=3)。我们看到第(i+1)层的每个节点的激活值都有3个值,3次计算的最大值才是对应点的最终激活值。我举这个例子主要是为了说明,决定结点的激活值的时候并不是以层为单位,仍然以节点为单位

7 激活函数表

8 参考链接

[1] https://www.cnblogs.com/missidiot/p/9378079.html
[2] https://www.cnblogs.com/junjie_x/p/8419604.html
[3] https://blog.csdn.net/weixin_43077261/article/details/97285284


转载:https://blog.csdn.net/ttzm0728/article/details/100929995
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场