强化学习的定义、分类和算法框架-人工智能-PHP中文网

首页

科技周边

人工智能

强化学习的定义、分类和算法框架

PHPz

Jan 24, 2024 am 09:30 AM

机器学习

强化学习的定义、分类和算法框架

强化学习（RL）是一种介于有监督学习和无监督学习之间的机器学习算法。它通过不断试错和学习来解决问题。在训练过程中，强化学习会采取一系列决策，并根据执行的操作获得奖励或惩罚。其目标是最大化总奖励。强化学习具有自主学习和适应能力，能够在动态环境下做出优化决策。与传统的监督学习相比，强化学习更适用于没有明确标签的问题，并且可以在长期决策问题中取得良好的效果。

强化学习的核心是根据代理执行的操作来强制执行行为，代理根据行动对总体目标的积极影响来获得奖励。

强化学习算法主要有两种类型：

基于模型与无模型学习算法

基于模型的算法

基于模型的算法使用转换和奖励函数来估计最优策略。在基于模型的强化学习中，代理可以访问环境模型，即从一种状态到另一种状态所需执行的操作、附加的概率和相应的奖励。它们允许强化学习代理通过提前思考来提前计划。

无模型算法

无模型算法是在对环境动态的了解非常有限的情况下找到最优策略。没有任何过渡或奖励来判断最佳政策。直接根据经验估计最优策略，即只有代理与环境之间的交互，没有任何奖励函数的提示。

无模型强化学习应该应用于环境信息不完整的场景，如自动驾驶汽车，在这种情况下，无模型算法优于其他技术。

强化学习最常用的算法框架

马尔可夫决策过程(MDP)

马尔可夫决策过程是一种强化学习算法，它为我们提供了一种形式化顺序决策的方法。这种形式化是强化学习解决的问题的基础。马尔可夫决策过程(MDP)中涉及的组件是一个称为代理的决策制定者，它与其所在的环境进行交互。

在每个时间戳中，代理将获得环境状态的一些表示。给定此表示，代理选择要执行的操作。然后环境会转变为某种新状态，并且代理会因其先前的操作而获得奖励。关于马尔可夫决策过程需要注意的重要一点是，它不担心即时奖励，而是旨在最大化整个轨迹的总奖励。

贝尔曼方程

贝尔曼方程是一类强化学习算法，特别适用于确定性环境。给定状态的值是通过代理所处的状态下可采取的最大行动来确定的。代理的目的是选择将使价值最大化的行动。

因此，它需要增加状态中最佳动作奖励，并添加一个随着时间的推移减少其奖励的折扣因子。每次代理采取行动时，它都会返回到下一个状态。

该方程式不是对多个时间步求和，而是简化了价值函数的计算，使我们能够通过将复杂问题分解为更小的递归子问题来找到最佳解决方案。

Q-Learning

Q-Learning结合了价值函数，质量根据给定当前状态和代理拥有的最佳可能策略的预期未来值分配给状态-动作对作为Q。一旦代理学习了这个Q函数，它就会寻找在特定状态下产生最高质量的最佳可能动作。

通过最优Q函数就可以通过应用强化学习算法来确定最优策略，以找到使每个状态的值最大化的动作。

以上是强化学习的定义、分类和算法框架的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：网易伏羲。如有侵权，请联系admin@php.cn删除

最新的最佳及时工程技术的年度汇编Apr 10, 2025 am 11:22 AM

对于那些可能是我专栏新手的人，我广泛探讨了AI的最新进展，包括体现AI，AI推理，AI中的高科技突破，及时的工程，AI培训，AI，AI RE RE等主题

欧洲的AI大陆行动计划：Gigafactories，Data Labs和Green AIApr 10, 2025 am 11:21 AM

欧洲雄心勃勃的AI大陆行动计划旨在将欧盟确立为人工智能的全球领导者。一个关键要素是建立了AI Gigafactories网络，每个网络都有大约100,000个高级AI芯片 - 2倍的自动化合物的四倍

微软对AI代理申请的统一方法：企业的明显胜利微软最近公告的新AI代理能力清晰而统一的演讲给人留下了深刻的印象。与许多技术公告陷入困境不同

向员工出售AI策略：Shopify首席执行官的宣言Apr 10, 2025 am 11:19 AM

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。这不是短暂的趋势。这是整合到P中的新操作范式

IBM启动具有完整AI集成的Z17大型机Apr 10, 2025 am 11:18 AM

IBM的Z17大型机：集成AI用于增强业务运营上个月，在IBM的纽约总部，我收到了Z17功能的预览。以Z16的成功为基础（于2022年推出并证明持续的收入增长

5 Chatgpt提示取决于别人并完全相信自己Apr 10, 2025 am 11:17 AM

解锁不可动摇的信心，消除了对外部验证的需求！这五个CHATGPT提示将指导您完全自力更生和自我感知的变革转变。只需复制，粘贴和自定义包围

AI与您的思想危险相似Apr 10, 2025 am 11:16 AM

人工智能安全与研究公司 Anthropic 最近的一项[研究]开始揭示这些复杂过程的真相，展现出一种令人不安地与我们自身认知领域相似的复杂性。自然智能和人工智能可能比我们想象的更相似。窥探内部：Anthropic 可解释性研究 Anthropic 进行的研究的新发现代表了机制可解释性领域的重大进展，该领域旨在反向工程 AI 的内部计算——不仅仅观察 AI 做了什么，而是理解它在人工神经元层面如何做到这一点。想象一下，试图通过绘制当有人看到特定物体或思考特定想法时哪些神经元会放电来理解大脑。A