(关注AI新视野,私信发送‘资料’二字,免费获取50G人工智能视频教程!)

递归神经网络的图解指南:直观理解

如果你想学习机器学习,理解递归神经网络这一强大技术非常重要。如果你使用智能手机或经常上网,你很有可能已经使用过应用了RNN的应用程序。递归神经网络用于语音识别,语言翻译,股票预测; 甚至用于图像识别来描述图片中的内容。

网上已经有许多关于递归神经网络的指南,本文通过分享插图以及解释我是如何理解它的。我将避免所有数学公式,而是专注于RNN背后的直觉。在这篇文章的最后,希望你应该对RNN有一个很好的理解,并有所启发。

序列数据

RNN是神经网络,擅长建模序列数据。要理解这意味着什么,让做一个实验。假设你拍摄一张移动的球在时间上的静态快照。

此时你想预测球的移动方向。因此,当你只有在屏幕上看到的信息时,你将如何做呢?可以继续猜测,你提出的任何答案都是随机的猜测。如果不知道球的位置,就没有足够的数据来预测球的位置。

如果你连续记录球的位置的许多快照,你将有足够的信息来做出更好的预测。

所以这是一个序列,一个特定的顺序,一个跟着另一个。有了这些信息,您现在可以看到球向右移动。

序列数据有多种形式。音频是一种自然序列, 你可以将音频频谱图分成块并将其输入RNN。

音频频谱图切成块

文本是另一种形式的序列。你可以将文本分成一系列字符或一系列单词。

顺序记忆

RNN擅长处理预测的序列数据,其通过顺序记忆的概念来做到这一点。下面邀请你说出你脑海中的字母。

这很简单吧,如果你学过这个特定序列,它应该很快被脑海反馈出来。

现在尝试反向说字母。

我敢打赌,这要困难得多。除非你之前练过这个特定的序列,否则你可能会遇到困难。

下面从字母F开始。

首先,你会在前几个字母上挣扎,但是在你的大脑拿起模式后,剩下的就会自然而然。顺序记忆是一种使大脑更容易识别序列模式的机制。

递归神经网络

就像人一样,RNN也有顺序记忆的这个抽象概念,但是RNN如何复制这个概念呢?那么,来看一个传统的神经网络,也称为前馈神经网络。它有输入层,隐藏层和输出层。

前馈神经网络

如何使得一个前馈神经网络,以便能够使用以前的信息来影响以后的信息呢?如果在神经网络中添加一个可以传递先前信息的循环怎么办?

递归神经网络

下图基本上就是一个递归的神经网络, RNN具有循环机制,其充当高速公路以允许信息从一个步骤流到下一个步骤。

将隐藏状态传递给下一个步骤

此信息是隐藏状态,它是先前输入的表示。让通过一个RNN用例来更好地理解它是如何工作的。

假设想要构建一个聊天机器人。假设聊天机器人可以根据用户输入的文本对意图进行分类。

对用户输入的文本进行分类

解决这个问题。首先,将使用RNN对文本序列进行编码。然后,将RNN输出馈送到前馈神经网络,该网络将对意图进行分类。

好的,所以用户输入:

What time is it?

首先,将句子分解为单个单词, RNN按先后顺序工作,所以一次只能输入一个字。

将一个句子分成单词序列

第一步是将"What"输入RNN。RNN编码" What"并产生输出。

对于下一步,提供单词"time"和上一步中的隐藏状态。RNN现在有关于"What"和"time"这两个词的信息。

重复这个过程,直到最后一步。你可以通过最后一步看到RNN编码了前面步骤中所有单词的信息。

由于最终输出是从序列的其余部分创建的,因此应该能够获取最终输出并将其传递给前馈层以对意图进行分类。

对于那些喜欢查看代码的人来说,下面的python代码展示了上述流程。

RNN控制流的伪代码

首先,初始化网络层和初始隐藏状态。隐藏状态的形状和维度将取决于你的递归神经网络的形状和维度。然后循环输入,将单词和隐藏状态传递给RNN。RNN返回输出和修改的隐藏状态。你继续循环,直到你说不出话来。最后,将输出传递给前馈层,然后返回预测。就是这样!进行递归神经网络的正向传递的控制流程是for循环。

梯度消失

你可能已经注意到隐藏状态中奇怪的颜色分布, 这是为了说明RNN被称为短期记忆的问题。

RNN的最终隐藏状态

短期记忆是由梯度消失问题引起的,这在其他神经网络架构中也很普遍。由于RNN处理更多步骤,因此难以保留先前步骤中的信息。正如你所看到的,在最后的时间步骤中,"what"和"time"这个词的信息几乎不存在。短期记忆和消失梯度是由于反向传播的性质——反向传播是用于训练和优化神经网络的算法。为了理解这是为什么,让来看看反向传播对深度前馈神经网络的影响。

训练神经网络有三个主要步骤。首先,它进行前向传递并进行预测。其次,它使用损失函数将预测与基础事实进行比较。损失函数输出一个错误值,该错误值是对网络执行得有多糟糕的估计。最后,它使用该误差值进行反向传播,计算网络中每个节点的梯度。

梯度是用于调整网络内部权重的值,以便网络学习。梯度越大,调整越大,反之亦然。这就是问题所在。在进行反向传播时,图层中的每个节点都会根据梯度效果计算它在其前面的图层中的渐变。因此,如果在它之前对层的调整很小,那么对当前层的调整将更小。

这会导致梯度在向后传播时呈指数级收缩。由于梯度极小,内部权重几乎没有调整,因此较早的层无法进行任何学习。这就是梯度消失问题。

梯度向后传播时收缩

让看看这如何适用于递归神经网络。你可以将递归神经网络中的每个时间步骤视为一个层。为了训练一个递归神经网络,你使用了一种称为反向传播的反向传播方法。梯度值在每个时间步长传播时将呈指数级收缩。

随着时间的推移,梯度会收缩

同样,梯度用于在神经网络权重中进行调整,从而允许其学习。小渐变意味着小的调整。这导致早期层不学习。

由于梯度消失,RNN不会跨时间步骤学习远程依赖性。这意味着在尝试预测用户的意图时,有可能不考虑"what"和"time"这个词。然后网络必须用" is it?"做出最好的猜测。这很模糊,即使是人类也很难。因此,无法在较早的时间步骤上学习会导致网络只具有短期记忆。

LSTM和GRU

那么RNN会受到短期记忆的影响,那么如何应对呢?为了减轻短期记忆,创建了两个专门的递归神经网络。一种叫做长短期记忆或简称LSTM。另一个是门控循环单位或GRU。LSTM和GRU本质上就像RNN一样,但它们能够使用称为"门"的机制来学习长期依赖性。这些门是不同的张量操作,可以学习添加或删除隐藏状态的信息。由于这种能力,短期记忆对他们来说不是一个问题。

欢迎关注,下篇将通过动态图的方式演示LSTM和GRU的原理!

相关推荐