增强学习(RL):深入深入探究代理 - 环境相互作用
>
基本和高级强化学习(RL)模型与科幻AI相似,通常超过当前的大语言模型。 本文探讨了RL如何使代理商征服超级马里奥的具有挑战性的水平。
最初,代理缺乏游戏知识:控制,进步力学,障碍和胜利条件。 它通过强化学习算法在没有人类干预的情况下自主学习所有这些。
RL的优势在于解决问题,而没有预定义的解决方案或明确的编程,通常具有最小的数据要求。这使其在各个领域的影响力很大:
>自动驾驶汽车:
rl代理商根据实时交通和道路规则学习最佳驾驶策略。
- 机器人:机器人通过RL训练在动态环境中掌握复杂任务。
-
游戏AI: RL技术使AI代理能够在GO和Starcraft II等游戏中制定复杂的策略。
RL是一个迅速发展的领域,具有巨大的潜力。 预计未来的应用在资源管理,医疗保健和个性化教育中。 本教程介绍了RL基础知识,解释了诸如代理,环境,行动,国家,奖励等的核心概念。-
代理和环境:猫的观点
考虑训练猫,鲍勃,以使用刮擦帖子而不是家具。鲍勃是学习者和决策者的
代理人
。 房间是>环境
,提出挑战(家具)和目标(刮擦柱)。
RL环境被归类为:
> iNCETE:>一个简化的房间,例如基于网格的游戏,限制了鲍勃的运动和房间变化。
连续:
>一个现实世界的房间为家具安排和鲍勃的行动提供了近乎无限的可能性。
-
我们的房间示例是A 静态
环境(家具保持固定)。 - 动态环境,例如超级马里奥级别,随着时间的流逝而变化,增加了学习复杂性。
>行动和状态:定义可能性
状态空间包括所有可能的代理 - 环境配置。 大小取决于环境类型:
有限:
离散环境的状态数量有限(例如,棋盘游戏)。
无限:
连续环境具有无限的状态空间(例如机器人,现实世界情景)。
-
动作空间代表所有可能的代理操作。 同样,大小取决于环境:
-
离散:有限的动作(例如,向上,向下,左,右)。>
>- 连续:更广泛的动作范围(例如,任何方向,跳跃)。>
每个动作都将环境转变为新状态。
奖励,时间步骤和情节:测量进度
奖励激励代理。 在国际象棋中,捕捉一块是积极的。接受支票是负数。 对于鲍勃(Bob),请奖励积极的动作(使用刮擦帖子),而水喷水会惩罚负面动作(刮擦家具)。
时间步骤测量代理商的学习旅程。 每个步骤都涉及行动,从而产生新的状态和奖励。>
情节包括一系列时间步长,以默认状态开始,并在实现目标或代理失败时结束。>
探索与剥削:平衡行为
代理必须平衡
探索(尝试新的动作)和剥削(使用已知的最佳动作)。 策略包括:
epsilon-greedy:- 随机探索概率(Epsilon);否则,利用最著名的动作。>
Boltzmann探索:>概率上有利于预期奖励更高的动作。-
>增强学习算法:基于模型的与模型
RL算法指导代理商的决策。 存在两个主要类别:
基于模型的RL
代理建立了计划行动的内部模型。对于复杂的环境来说,这是样本效率但具有挑战性的。 一个示例是Dyna-Q,结合了基于模型的学习和无模型学习。
无模型的RL
代理在没有明确模型的情况下直接从经验中学习。这更简单,但样品效率较低。 示例包括:
Q-Learning:
学习Q值(预期的未来奖励)对国家行动对。
>sarsa:- 类似于Q学习,但是根据采取的实际下一步操作更新值。>
策略梯度方法:- 直接学习策略映射状态。>
>深Q-networks(DQN):将Q学习与高维状态空间的深神经网络结合在一起。
算法选择取决于环境复杂性和资源可用性。>
Q学习:详细的外观-
Q学习是一种无模型算法教学代理的最佳策略。 Q桌子存储每个州行动对的Q值。 该代理商根据Epsilon-Greedy政策选择行动,平衡探索和剥削。 使用合并当前Q值,奖励和下一个状态的最大Q值的公式更新Q值。 诸如伽马(折现因子)和alpha(学习率)之类的参数控制学习过程。与体育馆的python中的
增强学习
体育馆为RL实验提供了各种环境。 以下代码片段演示了与突破环境的互动循环:>
此代码生成一个可视化代理操作的gif。 请注意,如果没有学习算法,这些动作是随机的。import gymnasium as gym
env = gym.make("ALE/Breakout-v5", render_mode="rgb_array")
# ... (interaction loop and GIF creation code as in the original article) ...
>
结论
增强学习是一种具有广泛应用的强大技术。 该教程涵盖了基本概念,并为进一步探索提供了一个起点。 原始文章中列出了其他资源。
>
以上是强化学习:带有python示例的介绍的详细内容。更多信息请关注PHP中文网其他相关文章!