深度学习专项课程（4）（第二周）

2019-07-15 2019-07-15

学习

8 分钟读完 (大约 1217 个字) 0次访问

本周介绍了一些经典的网络结构。

经典网络

LeNet

AlexNet

VGG16

残差网络

非常深的网络是很难训练的，因为存在梯度消失和梯度爆炸的问题。这节课我们学习跳远连接，它可以从网络的某一层获取激活值，然后迅速反馈给另外一层，甚至是神经网络的更深层。使用跳远连接我们可以构建训练深度网络的残差网络。

残差网络是由残差块构成的，下图是一个残差块的结构。

忽略上图中蓝色的箭头线，那么这两层的激活值传递过程如下：

$$
\large
z^{[l+1]}=W^{[l+1]} a{[l]} + b^{[l+1]} \\
a^{[l+1]}=g(z{[l+1]}) \\
z^{[l+2]}=W^{[l+2]} a{[l+1]} + b^{[l+2]} \\

$$
加上蓝色的箭头线后，传递过程变成了下面的样子（只有最后一个公式有变化）：
$$
\large
a^{[l+2]}=g(z{[l+2]} + a^{[l]})
$$

这就相当于激活值$a$走了一个捷径，或者说是进行了跳远连接。

在下图中将一个普通的网络进行跳远连接，这样就形成了一个残差网络。

残差网络 为什么有用呢？

上面有两个神经网络，我们在其中一个的末尾衔接上一个残差块。再将最后一个激活值的传递公式写出。由于正则化等的使用，$W^{[l+2]}$ 和 $b^{[l+2]}$ 可能会接近于 0 。这样的话 $a^{[l+2]}$ 就等于 $g(a^{[l]})$(这里使用 ReLU 激活函数) ，因为这里$a^{[l]}$ 为非负值，所以就可得到 $a^{[l+2]}=a^{[l]}$。

结果表明，残差块学习这个恒等函数残差块并不难，这意味着即使给网络增加了两层，但它的效率也不会降低。虽然多了两层，但所做的也只是将$a^{[l]}$的值赋给$a^{[l+2]}$。
但我们的目的并不只是保持网络的效率不变，我们还要提高它的表现。想象一下，如果这两层网络学习到了有用的东西，那么它就可以表现得比恒等函数更好。