RNN系列

基于固定窗口的NN语音模型和RNN语言模型

Bengio等人利用神经网络来表示语言模型，在语言模型的训练过程中可以得到单词的分布式表示，具体的神经概率语言模型图如下：

该网络的主要思想是用前$n−1$个词的向量来估计当前词的概率，具体公式为：

$\hat{y} =softmax(W_2*tanh(W_1+b_1)+W_3+b_3)$

可以看出传统语言模型在估计概率的时候需要固定$n$的大小，否则无法统计概率$P(w_i|w_{i−(n−1)},…,w_{i−1})$。而 RNN 的最大优势在于可以统计 $P(w_i|w_1,…,w_{i−1})$ 的概率。

RNN语言模型中非常关键的一点是每个时刻采用的 $W$ 矩阵都是一个，所以参数规模不会随着依赖上下文的长度增加而指数增长。

RNN 中的BP

多变量链式法则

如果对于函数 $f(x, y)$, 每个变量都是 $t$ 的函数，即 $x(t)$, $y(t)$, 那么

$\frac{d}{dt}f(x(t), y(t))=\frac{\partial f}{\partial x}\frac{\partial x}{\partial t} + \frac{\partial f}{\partial y}\frac{\partial y}{\partial t}$

对于 RNN 来说，$W_h$ 出现在每一个时刻，所以在计算时应该对每一次的梯度求和。

如果只考虑最后两个时刻$t$和$t-1$，那么：

$\frac{\partial J^{(t)}}{\partial W_h}=\sum^t _{i=t-1}|_{(i)}=\frac{\partial J^{(t)}}{\partial\theta^{(t)}}\frac{\partial \theta^{(t)}}{\partial h^{(t)}}(\frac{\partial h^{(t)}}{\partial z^{(t)}}\frac{\partial z^{(t)}}{\partial W_h}+\frac{\partial h^{(t)}}{\partial h^{(t-1)}}\frac{\partial h^{(t-1)}}{\partial z^{(t-1)}}\frac{\partial z^{(t-1)}}{\partial W_h})$

记 $\gamma^{(t)}=\frac{\partial J^{(t)}}{\partial h^{(t)}}$，考虑到梯度可以按时间展开，那么有 $\gamma^{(t-1)}=\frac{\partial J^{(t)}}{\partial h^{(t-1)}}$，所以上述式子可以简写为

$\frac{\partial J^{(t)}}{\partial W_h}=\sum^t _{i=t-1}|_{(i)}=\gamma^{(t)} \frac{\partial h^{(t)}}{\partial z^{(t)}}\frac{\partial z^{(t)}}{\partial W_h} + \gamma^{(t-1)} \frac{\partial h^{(t-1)}}{\partial z^{(t-1)}}\frac{\partial z^{(t-1)}}{\partial W_h}$

而由 $\frac{\partial h^{(t)}}{\partial h^{(t-1)}}$ 可以看出，这一项会带来梯度弥散或者梯度爆炸
上面的公式是为了详细说明下面的图：

梯度问题解决办法

梯度爆炸：当梯度超过一个阈值的时候，将梯度裁剪到一个合适的值
梯度弥散：使用 GRU 或者 LSTM

Q: 使用 $l2$ 正则会有助于改善梯度弥散吗？A: 不会，$l2$ 会让权重变为0，使情况更糟。

Q: 对于一个拥有2个隐层的NN来说，增加隐层个数会有助于改善梯度弥散吗？
A: 不会，梯度弥散就是因为层数太多引起的。

LSTM

通过更改 RNN 单元结构，使得从 $c_t$ 到 $c_{t-1}$ 的反向传播与 $W$ 无关