长短期记忆 (LTSM) 是由 Hochreiter &Schmidhuber 设计的递归神经网络的改进版本。 LSTM 非常适合顺序任务,并且擅长捕获长期相关性。 它的应用扩展到涉及时间序列和序列的任务。 LSTM 的优势在于它能够掌握顺序依赖关系,这对于解决机器翻译和语音识别等复杂问题至关重要。 本文深入介绍了 LSTM,包括 LSTM 模型、架构、它们的工作原理以及它们在各种应用中发挥的关键作用。
什么是LSTM?
传统的 RNN 具有随时间推移而流逝的单一隐藏状态,这使得网络难以学习长期依赖关系。 LSTM通过引入存储单元解决了这个问题,存储单元是一个可以长时间保存信息的容器。 LSTM 网络能够学习序列数据中的长期相关性,这使其成为语言翻译、语音识别和时间序列等任务的理想选择**。 LSTM 还可以与其他神经网络架构结合使用,例如用于图像和分析的卷积神经网络 (CNNS)。
存储单元由三个门控制:输入门、遗忘门和输出门。 这些门决定了向存储单元添加哪些信息,从存储单元中删除哪些信息,以及从存储单元输出哪些信息。 输入门控制将哪些信息添加到存储单元中。 “遗忘门”控制从存储单元中删除哪些信息。 输出门控制从存储单元输出的信息。 这使得 LSTM 网络能够在信息流经网络时有选择地保留或丢弃信息,从而学习长期依赖关系。
双向 LSTM
双向 LSTM (BI-LSTM BLSTM) 是一种能够处理前向和后向序列数据的递归神经网络 (RNN)。 这使得 BI-LSTM 能够学习序列数据中比传统 LSTM 更长范围的依赖关系,传统 LSTM 只能在一个方向上处理序列数据。
BI-LSTM 由两个 LSTM 网络组成,一个向前处理输入序列,另一个反向处理输入序列。 然后将两个 LSTM 网络的输出组合在一起以产生最终输出。
BI-LSTM 已被证明可以在各种任务上提供最先进的结果,包括机器翻译、语音识别和文本摘要。
LSTM 可以堆叠以创建深度 LSTM 网络,这些网络可以学习序列数据中更复杂的模式。 每个 LSTM 层在输入数据中捕获不同级别的抽象和时间依赖性。
ltsm vs rnn