神经网络基础 5 5 循环神经网络 长短期记忆架构和原理

小夏 科技 更新 2024-02-01

LSTM的架构和工作

LSTM 架构有一个由四个组成的神经网络,称为细胞不同存储块的链式结构。

信息由单元保留,内存操作由门完成。 有三个门——遗忘门、输入门和输出门。

遗忘之门

在单位状态中不再有用的信息将通过遗忘门删除。 两个输入 XT(特定时间的输入)和 HT-1(前一个单元输出)被馈送到栅极,并与权重矩阵相乘,然后是偏移量。 结果是通过一个提供二进制输出的激活函数。 如果对于特定单元格状态,输出为 0,则忘记该消息,而对于输出 1,则保留该消息以供将来使用。 被遗忘之门的方程式是:

f_t=σ(w_f·[h,x_t]+b_f)

w f 表示与遗忘门关联的权重矩阵。

H T-1, X T] 表示当前输入和先前隐藏状态的级联。

BF 是带有被遗忘门的偏差。

是 sigmoid 激活函数。

进门

通过输入门来向单元状态添加有用的信息。 首先,使用 sigmoid 函数对信息进行调节,类似于使用带有输入 HT-1 和 XT 的遗忘门来过滤要记住的值。 然后,使用 tanh 函数创建一个向量,该向量给出从 -1 到 +1 的输出,其中包含所有可能的值 ht-1 和 xt。 最后,将向量的值乘以审核值以获得有用的信息。 输入门的公式为:

i_t=σ(w_i·[h,x_t]+b_i)

ĉ_t=tanh(w_c·[h,x_t]+b_c)

我们将之前的状态乘以 ft,忽略我们之前选择忽略的信息。 接下来,我们将其包含在 *ct 中。 这表示更新的候选值,根据我们选择更新每个状态值的数量进行调整。

c_t=f_t⊙c_+i_t⊙

表示元素乘法。

Tanh 是 Tanh 激活函数。

输出门

从当前电池状态中提取有用信息作为输出的任务由输出门完成。 首先,通过在单元上应用 tanh 函数来生成向量。 然后,使用 sigmoid 函数调整信息,并使用输入 ht-1 和 xt 按要记住的值进行过滤。 最后,将矢量和调制的值相乘,并作为输出发送到下一个单元格和输入。 输出门的公式为:

o_t=σ(w_o·[h,x_t]+b_o)

相似文章

    神经网络基础 5 3 递归神经网络 自然语言处理 (NLP) 简介。

    什么是自然语言处理 NLP NLP 代表 自然语言处理。它是人工智能的一个分支,具有机器理解和处理人类语言的能力。人类语言可以是文本或音频格式。NLP的历史 自然语言处理始于 年,当时 Alan Mathison Turing 发表了一篇名为 计算机器与智能 的文章。基于人工智能。它谈到了自然语言的...

    神经网络基础 5 4 递归神经网络 什么是长短期记忆 (LTSM)。

    长短期记忆 LTSM 是由 Hochreiter Schmidhuber 设计的递归神经网络的改进版本。LSTM 非常适合顺序任务,并且擅长捕获长期相关性。它的应用扩展到涉及时间序列和序列的任务。LSTM 的优势在于它能够掌握顺序依赖关系,这对于解决机器翻译和语音识别等复杂问题至关重要。本文深入介绍...

    Transformer 神经网络中的革命性架构

    一 引言。在人工智能领域,神经网络已成为处理复杂任务的主流方法。其中,Transformer架构以其独特的特点在自然语言处理 NLP 计算机视觉 CV 等多个领域取得了显著的成功。本文将详细介绍变压器的基本原理 发展历史 应用场景以及优缺点,以帮助读者更好地理解和应用这一重要模型。二 变压器的基本原...

    LSTM神经网络是记忆长期短期信息的关键

    LSTM的全称是Long Short Term Memory,顾名思义,它具有记忆长短期信息的能力。该网络是在RNN网络的基础上添加的RNN 循环神经网络 的进一步扩展和改进 门 控制不同时刻信息流入和流出的 门 的概念。LSTM的基本原理。LSTM神经网络的最初设计是为了解决传统RNNN网络在处理...

    RNN与其他神经网络有何不同?

    RNN 循环神经网络 是一种使用循环连接来处理顺序数据的神经网络。具体来说,它适用于涉及序列的任务,例如自然语言处理 语音识别和时间序列分析。RNN 具有内部存储器,允许它们保留先前输入的信息,并使用它来根据整个序列的上下文做出 或决策。RNN 与其他神经网络之间的主要区别在于它们处理顺序数据的能力...