umich cv-5-1 神经网络训练1-JZTXT

这节课中介绍了训练神经网络的第一部分，包括激活函数的选择，权重初始化，数据预处理以及正则化方法

训练神经网络1

激活函数

这部分主要讨论我们之前提到的几种激活函数的利弊：

首先我们看sigmoid函数，这种激活函数有着激活函数中常见的优点与缺点：

优点方面，它可以使数据分布在0-1之间，可以很好地表示神经元的饱和放电现象
缺点方面
我们考虑使用这个激活函数进行梯度的反向传播：

我们可以看到在x = 10或者x = -10时，传播的梯度都会接近于0，导致后面的所有梯度均变为0，这就会导致梯度消失，我们的神经网络无法学习
同时，sigmoid激活函数的输出并不是以0为中心：

我们知道w梯度的反向传播的值于x相关，所以当x一直为正时，w梯度将取决于w的正负，所以梯度很可能会在正负之间横跳，这样也不利于神经网络的学习，但是在小数据集上还是可以使用，并且小哥指出这一点其实不是特别关键
最后，就是exp()这种非线性操作从底层来说很花费时间(相对于线性操作来说)
之后我们再来看看其它激活函数：
tanh它的优缺点与sigmoid函数大致相同：

然后是最常用的relu激活函数：

relu函数有很多优异的性质，比如不会导致饱和杀死梯度，计算开销低速度快，神经网络收敛的也快
但是还有一个人们一直担心的问题就是：

小于0的数据永远不会被激活无法学习
因此人们又想出来了很多relu的变体：
leaky relu在小于0的区域加入一个线性函数，更进一步地，可以把小于0区域函数的系数作为一个可学习的参数加入神经网络，通过反向传播来更新优化

elu 相对于leaky relu添加了鲁棒性，但是计算开销增大

selu 对深度神经网络的效果很好甚至可以不用batch normalization就可以训练深层神经网络而其中的参数是固定的，是通过91页的数学推导得出的结果(震惊小哥一万年)

最后再放上不同激活函数数据的统计以及小哥的建议：

数据预处理

数据的预处理最常见的就是从均值与标准差入手：

当然也有少数使用PCA降维与数据白化：

它们的基本思想都是减少模型的敏感性，使其更容易优化收敛：

举个例子，Alexnet VGG ResNet都采用了不同的数据预处理方法，Alexnet减去整个图像的均值，VGG减去每个通道的均值，而Resnet减去每个通道的均值再除以每个通道的标准差

权重初始化

在训练神经网络时，我们面临的问题就是如何进行权重矩阵的初始化
首先一个基础的想法就是都初始化为0矩阵，但是这样会导致所有的输出都是0，梯度都一样，无法学习
其次我们会想全0不行，那随机生成一些随机数应该可以了吧，我们可以使用python中randn函数，利用高斯分布生成随机数，但是这样的方法只使用于小的神经网络，不适用于更深的神经网络，为什么呢？

我们把在不同层的数据分布图画出来，可以看到：

std系数小的时候，数据在深层会集中在0，std大的时候就会出现之前的过饱和现象，杀死梯度，这两种情况都会导致神经网络无法学习

针对上述问题，人们想出来了Xavier initialization，把之前的std改为除以输入维度开根号，这是针对全连接层，卷积层是卷积核的平方乘以输入维度再开根号，我们可以看到效果很好，基本维持住了数据的形状

这里的原理主要就是我们想要使输入方差等于输出方差，这一点可以利用基本的概率论知识进行推导，建立在相互独立以及均值为0的假设上：

但是上述神经网络中我们采用的是tanh激活函数，假如我们使用relu激活函数，那么均值为0的假设就不成立，这时候人们推导出针对relu的Kaiming initialization：

上面提到了全连接层还有卷积层，还没有提到残差网络，针对残差网络比较特殊，如果我们使用上述初始化，使得输入与输出的方差相等的话，由于残差块还要加上一个x，所以方差是一定会增大的，这里我们可以把第一个卷积层采用kaiming initialization初始化，第二个卷积层直接初始化为0，这样我们残差块的输入与输出的方差就相等了：