机器学习&&深度学习——循环神经网络RNN

👨‍🎓作者简介：一位即将上大四，正专攻机器学习的保研er
🌌上期文章：机器学习&&深度学习—语言模型和数据集
📚订阅专栏：机器学习&&深度学习
希望文章对你们有所帮助

循环神经网络RNN

引入

在之前介绍了n元语法模型，其中单词xt在时间步t的概率仅取决于前n-1个单词。对于时间步t-(n-1)之前的打你，若我们想将其可能产生的影响合并到xt上，需要增加n，模型参数的数量也会指数增长，因为词表V需要存储|V|ⁿ个数字，因此我们不如使用隐变量：
$P(x_t|x_{t-1},...,x_1)≈P(x_t|h_{t-1})$

无隐状态的神经网络

对于只有单隐藏层的多层感知机，其隐藏层输出为：
$H=φ(XW_{xh}+b_h)$

有隐状态的循环神经网络

有了隐状态后，情况就完全不同了。与多层感知机不同的是，我们在这里保存了前一个时间步的隐藏变量：
$H_{t-1}$

具有循环神经网络的字符级语言模型

设小批量大小为1，批量中的文本序列为“machine”。使用字符级语言模型，将文本次元化为字符而不是单词，如下图演示，使用当前的和先前的字符预测下一个字符：

在训练过程中，我们对每个时间步的输出层的输出进行softmax操作，然后利用交叉熵损失计算模型输出和标签之间的误差。
在实践中，我们使用的批量大小是n＞1，每个词元都由一个d维向量表示，因此，我们在时间步t的输入是一个n×d的矩阵。

困惑度

让我们讨论如何度量语言模型的质量，这将在后续部分中用于评估基于循环神经网络的模型。
我们可以通过一个序列中所有的n个词元的交叉熵损失的平均值来衡量：
$\frac{1}{n}\sum_{t=1}^n-logP(x_t|x_{t-1},...,x_1)$

小结

1、对隐状态使用循环计算的神经网络称为循环神经网络（RNN）
2、循环神经网络的隐状态可以捕获直到当前时间步序列的历史信息
3、循环神经网络模型的参数数量不会随着时间步的增加而增加
4、我们可以使用循环神经网络创建字符级语言模型
5、我们可以使用困惑度来评价语言模型的质量