强化学习：带有python示例的介绍-人工智能-PHP中文网

首页

科技周边

人工智能

强化学习：带有python示例的介绍

William Shakespeare

Mar 07, 2025 am 10:00 AM

增强学习（RL）：深入深入探究代理 - 环境相互作用

基本和高级强化学习（RL）模型与科幻AI相似，通常超过当前的大语言模型。本文探讨了RL如何使代理商征服超级马里奥的具有挑战性的水平。

Reinforcement Learning: An Introduction With Python Examples

最初，代理缺乏游戏知识：控制，进步力学，障碍和胜利条件。它通过强化学习算法在没有人类干预的情况下自主学习所有这些。 RL的优势在于解决问题，而没有预定义的解决方案或明确的编程，通常具有最小的数据要求。这使其在各个领域的影响力很大：

>自动驾驶汽车： rl代理商根据实时交通和道路规则学习最佳驾驶策略。

机器人：机器人通过RL训练在动态环境中掌握复杂任务。
游戏AI： RL技术使AI代理能够在GO和Starcraft II等游戏中制定复杂的策略。
代理和环境：猫的观点 考虑训练猫，鲍勃，以使用刮擦帖子而不是家具。鲍勃是学习者和决策者的

。房间是

>环境

，提出挑战（家具）和目标（刮擦柱）。

RL环境被归类为：

> iNCETE：>一个简化的房间，例如基于网格的游戏，限制了鲍勃的运动和房间变化。

连续：

>一个现实世界的房间为家具安排和鲍勃的行动提供了近乎无限的可能性。

我们的房间示例是A 静态
动态环境，例如超级马里奥级别，随着时间的流逝而变化，增加了学习复杂性。

状态空间包括所有可能的代理 - 环境配置。大小取决于环境类型：

有限：

离散环境的状态数量有限（例如，棋盘游戏）。

无限：

连续环境具有无限的状态空间（例如机器人，现实世界情景）。

动作空间代表所有可能的代理操作。同样，大小取决于环境：

离散：有限的动作（例如，向上，向下，左，右）。>
连续：更广泛的动作范围（例如，任何方向，跳跃）。>

奖励，时间步骤和情节：测量进度

激励代理。在国际象棋中，捕捉一块是积极的。接受支票是负数。对于鲍勃（Bob），请奖励积极的动作（使用刮擦帖子），而水喷水会惩罚负面动作（刮擦家具）。

测量代理商的学习旅程。每个步骤都涉及行动，从而产生新的状态和奖励。>

包括一系列时间步长，以默认状态开始，并在实现目标或代理失败时结束。> 探索与剥削：平衡行为

代理必须平衡

（尝试新的动作）和剥削（使用已知的最佳动作）。策略包括：

随机探索概率（Epsilon）;否则，利用最著名的动作。>
>增强学习算法：基于模型的与模型

代理建立了计划行动的内部模型。对于复杂的环境来说，这是样本效率但具有挑战性的。一个示例是Dyna-Q，结合了基于模型的学习和无模型学习。

无模型的RL

代理在没有明确模型的情况下直接从经验中学习。这更简单，但样品效率较低。示例包括：

Q-Learning：

类似于Q学习，但是根据采取的实际下一步操作更新值。>
直接学习策略映射状态。>

将Q学习与高维状态空间的深神经网络结合在一起。算法选择取决于环境复杂性和资源可用性。> Q学习：详细的外观

Q学习是一种无模型算法教学代理的最佳策略。 Q桌子存储每个州行动对的Q值。该代理商根据Epsilon-Greedy政策选择行动，平衡探索和剥削。使用合并当前Q值，奖励和下一个状态的最大Q值的公式更新Q值。诸如伽马（折现因子）和alpha（学习率）之类的参数控制学习过程。与体育馆的python中的

增强学习

体育馆为RL实验提供了各种环境。以下代码片段演示了与突破环境的互动循环：>

此代码生成一个可视化代理操作的gif。请注意，如果没有学习算法，这些动作是随机的。

import gymnasium as gym
env = gym.make("ALE/Breakout-v5", render_mode="rgb_array")
# ... (interaction loop and GIF creation code as in the original article) ...

结论

增强学习是一种具有广泛应用的强大技术。该教程涵盖了基本概念，并为进一步探索提供了一个起点。原始文章中列出了其他资源。

以上是强化学习：带有python示例的介绍的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

从摩擦到流：AI如何重塑法律工作May 09, 2025 am 11:29 AM

法律技术革命正在获得动力，促使法律专业人员积极采用AI解决方案。对于那些旨在保持竞争力的人来说，被动抵抗不再是可行的选择。为什么技术采用至关重要？法律专业人员

这就是AI对您的看法，对您的了解May 09, 2025 am 11:24 AM

许多人认为与AI的互动是匿名的，与人类交流形成了鲜明的对比。但是，AI在每次聊天期间都会积极介绍用户。每个单词的每个提示都经过分析和分类。让我们探索AI Revo的这一关键方面

建立蓬勃发展的AI-Ready企业文化的7个步骤May 09, 2025 am 11:23 AM

成功的人工智能战略，离不开强大的企业文化支撑。正如彼得·德鲁克所言，企业运作依赖于人，人工智能的成功也同样如此。对于积极拥抱人工智能的组织而言，构建适应AI的企业文化至关重要，它甚至决定着AI战略的成败。西蒙诺咨询公司（West Monroe）近期发布了构建蓬勃发展的AI友好型企业文化的实用指南，以下是一些关键要点： 1. 明确AI的成功模式：首先，要对AI如何赋能业务有清晰的愿景。理想的AI运作文化，能够实现人与AI系统之间工作流程的自然融合。AI擅长某些任务，而人类则擅长创造力、判

Netflix New Scroll，Meta AI的游戏规则改变者，Neuralink价值85亿美元May 09, 2025 am 11:22 AM

Meta升级AI助手应用，可穿戴式AI时代来临！这款旨在与ChatGPT竞争的应用，提供文本、语音交互、图像生成和网络搜索等标准AI功能，但现在首次增加了地理位置功能。这意味着Meta AI在回答你的问题时，知道你的位置和正在查看的内容。它利用你的兴趣、位置、个人资料和活动信息，提供最新的情境信息，这在以前是无法实现的。该应用还支持实时翻译，这彻底改变了Ray-Ban眼镜上的AI体验，使其实用性大大提升。对外国电影征收关税是对媒体和文化的赤裸裸的权力行使。如果实施，这将加速向AI和虚拟制作的

今天采取这些步骤以保护自己免受AI网络犯罪的侵害May 09, 2025 am 11:19 AM

人工智能正在彻底改变网络犯罪领域，这迫使我们必须学习新的防御技巧。网络罪犯日益利用深度伪造和智能网络攻击等强大的人工智能技术进行欺诈和破坏，其规模前所未有。据报道，87%的全球企业在过去一年中都成为人工智能网络犯罪的目标。那么，我们该如何避免成为这波智能犯罪的受害者呢？让我们探讨如何在个人和组织层面识别风险并采取防护措施。网络罪犯如何利用人工智能随着技术的进步，犯罪分子不断寻找新的方法来攻击个人、企业和政府。人工智能的广泛应用可能是最新的一个方面，但其潜在危害是前所未有的。特别是，人工智