搜索
首页科技周边人工智能探究RNN、LSTM和GRU的概念、区别和优劣

探究RNN、LSTM和GRU的概念、区别和优劣

Jan 22, 2024 pm 07:51 PM
人工智能机器学习人工神经网络

探究RNN、LSTM和GRU的概念、区别和优劣

在时间序列数据中,观察之间存在依赖关系,因此它们不是相互独立的。然而,传统的神经网络将每个观察看作是独立的,这限制了模型对时间序列数据的建模能力。为了解决这个问题,循环神经网络(RNN)被引入,它引入了记忆的概念,通过在网络中建立数据点之间的依赖关系来捕捉时间序列数据的动态特性。通过循环连接,RNN可以将之前的信息传递到当前观察中,从而更好地预测未来的值。这使得RNN成为处理时间序列数据任务的强大工具。

但是RNN是如何实现这种记忆的呢?

RNN通过神经网络中的反馈回路实现记忆,这是RNN与传统神经网络的主要区别。反馈回路允许信息在层内传递,而前馈神经网络的信息仅在层之间传递。因此,有了不同类型的RNN:

  • 循环神经网络(RNN)
  • 长短期记忆网络(LSTM)
  • 门控循环单元网络(GRU)

本文将介绍RNN、LSTM和GRU的概念和异同点,以及它们的一些优点和缺点。

循环神经网络(RNN)

通过反馈回路,一个RNN单元的输出也被同一单元用作输入。因此,每个RNN都有两个输入:过去和现在。使用过去的信息会产生短期记忆。

为了更好地理解,可以展开RNN单元的反馈循环。展开单元格的长度等于输入序列的时间步数。

可以看到过去的观察结果是如何作为隐藏状态通过展开的网络传递的。在每个单元格中,当前时间步的输入、前一时间步的隐藏状态和偏置组合,然后通过激活函数限制以确定当前时间的隐藏状态步。

RNN可用于一对一、一对多、多对一和多对多预测。

RNN的优点

由于其短期记忆,RNN可以处理顺序数据并识别历史数据中的模式。此外,RNN能够处理不同长度的输入。

RNN的缺点

RNN存在梯度下降消失的问题。在这种情况下,用于在反向传播期间更新权重的梯度变得非常小。将权重与接近于零的梯度相乘会阻止网络学习新的权重。停止学习会导致RNN忘记在较长序列中看到的内容。梯度下降消失的问题随着网络层数的增加而增加。

由于RNN仅保留最近的信息,所以该模型在考虑过去的观察时会出现问题。因此,RNN只有短期记忆而没有长期记忆。

此外,由于RNN使用反向传播及时更新权重,网络也会遭受梯度爆炸的影响,如果使用ReLu激活函数,则会受到死亡ReLu单元的影响。前者可能会导致收敛问题,而后者会导致停止学习。

长短期记忆(LSTM)

LSTM是一种特殊类型的RNN,它解决了RNN会梯度消失的问题。

LSTM的关键是单元状态,它从单元的输入传递到输出。单元状态允许信息沿着整个链流动,仅通过三个门进行较小的线性动作。因此,单元状态代表LSTM的长期记忆。这三个门分别称为遗忘门、输入门和输出门。这些门用作过滤器并控制信息流并确定保留或忽略哪些信息。

遗忘门决定了应该保留多少长期记忆。为此,使用了一个sigmoid函数来说明单元状态的重要性。输出在0和1之间变化,0即不保留任何信息;1则保留单元状态的所有信息。

输入门决定将哪些信息添加到单元状态,从而添加到长期记忆中。

输出门决定单元状态的哪些部分构建输出。因此,输出门负责短期记忆。

总的来说,状态通过遗忘门和输入门更新。

LSTM的优点

LSTM的优点类似于RNN,主要优点是它们可以捕获序列的长期和短期模式。因此,它们是最常用的RNN。

LSTM的缺点

由于结构更复杂,LSTM的计算成本更高,从而导致训练时间更长。

由于LSTM还使用时间反向传播算法来更新权重,因此LSTM存在反向传播的缺点,如死亡ReLu单元、梯度爆炸等。

门控循环单元(GRU)

与LSTM类似,GRU解决了简单RNN的梯度消失问题。然而,与LSTM的不同之处在于GRU使用较少的门并且没有单独的内部存储器,即单元状态。因此,GRU完全依赖隐藏状态作为记忆,从而导致更简单的架构。

重置门负责短期记忆,因为它决定保留和忽略多少过去的信息。

更新门负责长期记忆,可与LSTM的遗忘门相媲美。

当前时间步的隐藏状态是基于两个步骤确定的:

首先,确定候选隐藏状态。候选状态是当前输入和前一时间步的隐藏状态以及激活函数的组合。前一个隐藏状态对候选隐藏状态的影响由重置门控制。

第二步,将候选隐藏状态与上一时间步的隐藏状态相结合,生成当前隐藏状态。先前的隐藏状态和候选隐藏状态如何组合由更新门决定。

如果更新门给出的值为0,则完全忽略先前的隐藏状态,当前隐藏状态等于候选隐藏状态。如果更新门给出的值为1,则相反。

GRU的优势

由于与LSTM相比有着更简单的架构,GRU的计算效率更高,训练速度更快,只需要更少的内存。

此外,GRU已被证明对于较小的序列更有效。

GRU的缺点

由于GRU没有单独的隐藏状态和细胞状态,因此它们可能无法像LSTM那样考虑过去的观察结果。

与RNN和LSTM类似,GRU也可能遭受反向传播及时更新权重的缺点,即死亡ReLu单元、梯度爆炸。

以上是探究RNN、LSTM和GRU的概念、区别和优劣的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:网易伏羲。如有侵权,请联系admin@php.cn删除
如何使用Huggingface Smollm建立个人AI助手如何使用Huggingface Smollm建立个人AI助手Apr 18, 2025 am 11:52 AM

利用“设备” AI的力量:建立个人聊天机器人CLI 在最近的过去,个人AI助手的概念似乎是科幻小说。 想象一下科技爱好者亚历克斯(Alex)梦见一个聪明的本地AI同伴 - 不依赖

通过斯坦福大学激动人心的新计划,精神健康的AI专心分析通过斯坦福大学激动人心的新计划,精神健康的AI专心分析Apr 18, 2025 am 11:49 AM

他们的首届AI4MH发射于2025年4月15日举行,著名的精神科医生兼神经科学家汤姆·因斯尔(Tom Insel)博士曾担任开幕式演讲者。 Insel博士因其在心理健康研究和技术方面的杰出工作而闻名

2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争Apr 18, 2025 am 11:44 AM

恩格伯特说:“我们要确保WNBA仍然是每个人,球员,粉丝和公司合作伙伴,感到安全,重视和授权的空间。” anno

Python内置数据结构的综合指南 - 分析VidhyaPython内置数据结构的综合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介绍 Python擅长使用编程语言,尤其是在数据科学和生成AI中。 在处理大型数据集时,有效的数据操作(存储,管理和访问)至关重要。 我们以前涵盖了数字和ST

与替代方案相比,Openai新型号的第一印象与替代方案相比,Openai新型号的第一印象Apr 18, 2025 am 11:41 AM

潜水之前,一个重要的警告:AI性能是非确定性的,并且特定于高度用法。简而言之,您的里程可能会有所不同。不要将此文章(或任何其他)文章作为最后一句话 - 目的是在您自己的情况下测试这些模型

AI投资组合|如何为AI职业建立投资组合?AI投资组合|如何为AI职业建立投资组合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投资组合:初学者和专业人士指南 创建引人注目的投资组合对于确保在人工智能(AI)和机器学习(ML)中的角色至关重要。 本指南为建立投资组合提供了建议

代理AI对安全操作可能意味着什么代理AI对安全操作可能意味着什么Apr 18, 2025 am 11:36 AM

结果?倦怠,效率低下以及检测和作用之间的差距扩大。这一切都不应该令任何从事网络安全工作的人感到震惊。 不过,代理AI的承诺已成为一个潜在的转折点。这个新课

Google与Openai:AI为学生打架Google与Openai:AI为学生打架Apr 18, 2025 am 11:31 AM

直接影响与长期伙伴关系? 两周前,Openai提出了强大的短期优惠,在2025年5月底之前授予美国和加拿大大学生免费访问Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热工具

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。