首页 1 2 3 4 5 6 7

rnn神经网络层次_详解循环神经网络(Recurrent Neural Network)

今天的学习资料是这篇文章，写的非常详细，有理论有代码，本文是补充一些小细节，可以二者结合看效果更好：

https://zybuluo.com/hanbingtao/note/541458

在文末有关于 RNN 的文章汇总，之前写的大多是概览式的模型结构，公式，和一些应用，今天主要放在训练算法的推导。

本文结构：模型

训练算法

基于 RNN 的语言模型例子

代码实现

1. 模型和全连接网络的区别

更细致到向量级的连接图

为什么循环神经网络可以往前看任意多个输入值

循环神经网络种类繁多，今天只看最基本的循环神经网络，这个基础攻克下来，理解拓展形式也不是问题。

首先看它和全连接网络的区别：

下图是一个全连接网络：

它的隐藏层的值只取决于输入的 x

而 RNN 的隐藏层的值 s 不仅仅取决于当前这次的输入 x，还取决于上一次隐藏层的值 s：

这个过程画成简图是这个样子：

其中，t 是时刻， x 是输入层， s 是隐藏层， o 是输出层，矩阵 W 就是隐藏层上一次的值作为这一次的输入的权重。

上面的简图还不能够说明细节，来看一下更细致到向量级的连接图：

Elman network

Elman and Jordan networks are also known as "simple recurrent networks" (SRN).

其中各变量含义：

输出层是一个全连接层，它的每个节点都和隐藏层的每个节点相连，

隐藏层是循环层。

为什么循环神经网络可以往前看任意多个输入值呢？

来看下面的公式，即 RNN 的输出层 o 和隐藏层 s 的计算方法：

如果反复把式 2 带入到式 1，将得到：

这就是原因。

2. 训练算法

RNN 的训练算法为：BPTT

BPTT 的基本原理和 BP 算法是一样的，同样是三步：前向计算每个神经元的输出值；

反向计算每个神经元的误差项值，它是误差函数E对神经元j的加权输入的偏导数；

计算每个权重的梯度。

最后再用随机梯度下降算法更新权重。

下面详细解析各步骤：

1. 前向计算

计算隐藏层 S 以及它的矩阵形式：

注意下图中，各变量的维度，标在右下角了，

s 的上标代表时刻，下标代表这个向量的第几个元素。

2. 误差项的计算

BTPP 算法就是将第 l 层 t 时刻的误差值沿两个方向传播：一个方向是，传递到上一层网络，这部分只和权重矩阵 U 有关；(就相当于把全连接网络旋转90度来看)

另一个是方向是，沿时间线传递到初始时刻，这部分只和权重矩阵 W 有关。

如下图所示：

所以，就是要求这两个方向的误差项的公式：

学习资料中式 3 就是将误差项沿时间反向传播的算法，求到了任意时刻k的误差项

下面是具体的推导过程：

主要就是用了链锁反应和 Jacobian 矩阵

其中 s 和 net 的关系如下，有助于理解求导公式：

学习资料中式 4 就是将误差项传递到上一层算法：

这一步和普通的全连接层的算法是完全一样的，具体的推导过程如下：

其中 net 的 l 层和 l－1 层的关系如下：

BPTT 算法的最后一步：计算每个权重的梯度

学习资料中式 6 就是计算循环层权重矩阵 W 的梯度的公式：

具体的推导过程如下：

和权重矩阵 W 的梯度计算方式一样，可以得到误差函数在 t 时刻对权重矩阵 U 的梯度：

3. 基于 RNN 的语言模型例子

我们要用 RNN 做这样一件事情，每输入一个词，循环神经网络就输出截止到目前为止，下一个最可能的词，如下图所示：

首先，要把词表达为向量的形式：建立一个包含所有词的词典，每个词在词典里面有一个唯一的编号。

任意一个词都可以用一个N维的one-hot向量来表示。

这种向量化方法，我们就得到了一个高维、稀疏的向量，这之后需要使用一些降维方法，将高维的稀疏向量转变为低维的稠密向量。

为了输出 “最可能” 的词，所以需要计算词典中每个词是当前词的下一个词的概率，再选择概率最大的那一个。

因此，神经网络的输出向量也是一个 N 维向量，向量中的每个元素对应着词典中相应的词是下一个词的概率：

为了让神经网络输出概率，就要用到 softmax 层作为输出层。

softmax函数的定义：

因为和概率的特征是一样的，所以可以把它们看做是概率。

例：

计算过程为：

含义就是：

模型预测下一个词是词典中第一个词的概率是 0.03，是词典中第二个词的概率是 0.09。

语言模型如何训练？

把语料转换成语言模型的训练数据集，即对输入 x 和标签 y 进行向量化，y 也是一个 one-hot 向量

接下来，对概率进行建模，一般用交叉熵误差函数作为优化目标。

交叉熵误差函数，其定义如下：

用上面例子就是：

计算过程如下：

有了模型，优化目标，梯度表达式，就可以用梯度下降算法进行训练了。

4. 代码实现

RNN 的 Python 实现代码可以在学习资料中找到。

关于神经网络，写过的文章汇总：

VR Interaction Framework插件的使用

随着VR技术越来越成熟，Unity版本的不断更新，SteamVR和VRTK等旧版本插件不再完美适配最新版本的Unity编辑器，编辑器和插件经常各种报错，推荐使用VRIF进行VR开发，该框架可以轻松创建自己的交互对象

php html wxml,微信开发之WXML、WXSS 和JS的详细介绍

这篇文章主要介绍了微信小程序 WXML、WXSS 和JS介绍及详解的相关资料,需要的朋友可以参考下前几天折腾了下。然后列出一些实验结果，供大家参考。使用开发工具模拟的和真机差异还是比较大的。也建议大家还是真机调试比较靠谱。 1. WX

sql(1):数据的统计

一、相同id个数统计 select count(*),id from ta WHERE group by (id) 二、按天统计数据个数

Elasticsearch7.17 二:mapping映射和高级语法查询DSL

文章目录 mapp

python第五章_Python学习（第五章）

#记录所有的名片字典 card_list =[]defshow_menu():""""显示信息""" print("*"*50)print("欢迎使用【名片管理系统】V1.0")print("")print("1. 新增名片")print("2. 显示

[转载]Dynamic Programming Algorithm (DPA) for Edit-Distance

转自：http://www.csse.monash.edu.au/~

Spring Boot微服务从yml文件中加载配置(使用@Value和@ConfigurationProperties)

记录：398 场景：在Spring Boot的微服务中从application.yml等yml文件中加载自定义配置内容。使用@Value直接加

2021-07-18

暑期实训《研究生管理系统》2021.7.18 第三周第4次更新成果维护接口文档如下一、专利 1.增加专利 url: localhost:8081/student/insertPatent 传入参数： stu_id

新手Ruby的“变量设置”

所在前面的话：作为一个小蒟蒻，能力有限，如有不妥，请大佬指导一下。（那就开始吧） 1 简介（啰嗦一下） /* Ruby是一种纯粹的面向对象编程语言。它由日本的松本行弘（まつもとゆきひろ/Yukihiro

Ubuntu 下 Node.js 等热更新失败的解决方案

Ubuntu下Node.js热更新失败做了一段时间的前端，也写了一段时间的小程序，期间一直使用HMR功能（热更新），非常方便，只要代码有改动就会自动编译，不用手动build。但是突然有一天热更新失败了，使

rnn神经网络 层次_详解循环神经网络(Recurrent Neural Network)

rnn神经网络层次_详解循环神经网络(Recurrent Neural Network)