增强学习(RL):深入深入探究代理 - 环境相互作用
>基本和高级强化学习(RL)模型与科幻AI相似,通常超过当前的大语言模型。 本文探讨了RL如何使代理商征服超级马里奥的具有挑战性的水平。
>自动驾驶汽车:
- 机器人:机器人通过RL训练在动态环境中掌握复杂任务。
-
游戏AI:
RL技术使AI代理能够在GO和Starcraft II等游戏中制定复杂的策略。 RL是一个迅速发展的领域,具有巨大的潜力。 预计未来的应用在资源管理,医疗保健和个性化教育中。 本教程介绍了RL基础知识,解释了诸如代理,环境,行动,国家,奖励等的核心概念。 -
代理和环境:猫的观点
考虑训练猫,鲍勃,以使用刮擦帖子而不是家具。鲍勃是学习者和决策者的 代理人
>环境
,提出挑战(家具)和目标(刮擦柱)。RL环境被归类为:
> iNCETE:>一个简化的房间,例如基于网格的游戏,限制了鲍勃的运动和房间变化。
连续:
>一个现实世界的房间为家具安排和鲍勃的行动提供了近乎无限的可能性。- 我们的房间示例是A 静态 环境(家具保持固定)。
- 动态环境,例如超级马里奥级别,随着时间的流逝而变化,增加了学习复杂性。 >行动和状态:定义可能性
状态空间包括所有可能的代理 - 环境配置。 大小取决于环境类型:
有限:
离散环境的状态数量有限(例如,棋盘游戏)。无限:
连续环境具有无限的状态空间(例如机器人,现实世界情景)。- 动作空间代表所有可能的代理操作。 同样,大小取决于环境:
-
离散:有限的动作(例如,向上,向下,左,右)。
> > - 连续:
更广泛的动作范围(例如,任何方向,跳跃)。> 每个动作都将环境转变为新状态。 - 随机探索概率(Epsilon);否则,利用最著名的动作。> Boltzmann探索:>概率上有利于预期奖励更高的动作。
- >增强学习算法:基于模型的与模型 RL算法指导代理商的决策。 存在两个主要类别:
- 类似于Q学习,但是根据采取的实际下一步操作更新值。> 策略梯度方法:
- 直接学习策略映射状态。> >深Q-networks(DQN):
-
Q学习是一种无模型算法教学代理的最佳策略。 Q桌子存储每个州行动对的Q值。 该代理商根据Epsilon-Greedy政策选择行动,平衡探索和剥削。 使用合并当前Q值,奖励和下一个状态的最大Q值的公式更新Q值。 诸如伽马(折现因子)和alpha(学习率)之类的参数控制学习过程。与体育馆的python中的
增强学习
体育馆为RL实验提供了各种环境。 以下代码片段演示了与突破环境的互动循环:> import gymnasium as gym env = gym.make("ALE/Breakout-v5", render_mode="rgb_array") # ... (interaction loop and GIF creation code as in the original article) ...
>结论
增强学习是一种具有广泛应用的强大技术。 该教程涵盖了基本概念,并为进一步探索提供了一个起点。 原始文章中列出了其他资源。
>
奖励,时间步骤和情节:测量进度
奖励激励代理。 在国际象棋中,捕捉一块是积极的。接受支票是负数。 对于鲍勃(Bob),请奖励积极的动作(使用刮擦帖子),而水喷水会惩罚负面动作(刮擦家具)。
时间步骤测量代理商的学习旅程。 每个步骤都涉及行动,从而产生新的状态和奖励。>
情节包括一系列时间步长,以默认状态开始,并在实现目标或代理失败时结束。> 探索与剥削:平衡行为
代理必须平衡
探索(尝试新的动作)和剥削(使用已知的最佳动作)。 策略包括:
- epsilon-greedy:
代理建立了计划行动的内部模型。对于复杂的环境来说,这是样本效率但具有挑战性的。 一个示例是Dyna-Q,结合了基于模型的学习和无模型学习。
无模型的RL
代理在没有明确模型的情况下直接从经验中学习。这更简单,但样品效率较低。 示例包括:
Q-Learning:
学习Q值(预期的未来奖励)对国家行动对。>
- sarsa:
以上是强化学习:带有python示例的介绍的详细内容。更多信息请关注PHP中文网其他相关文章!

法律技术革命正在获得动力,促使法律专业人员积极采用AI解决方案。 对于那些旨在保持竞争力的人来说,被动抵抗不再是可行的选择。 为什么技术采用至关重要? 法律专业人员

许多人认为与AI的互动是匿名的,与人类交流形成了鲜明的对比。 但是,AI在每次聊天期间都会积极介绍用户。 每个单词的每个提示都经过分析和分类。让我们探索AI Revo的这一关键方面

成功的人工智能战略,离不开强大的企业文化支撑。正如彼得·德鲁克所言,企业运作依赖于人,人工智能的成功也同样如此。 对于积极拥抱人工智能的组织而言,构建适应AI的企业文化至关重要,它甚至决定着AI战略的成败。 西蒙诺咨询公司(West Monroe)近期发布了构建蓬勃发展的AI友好型企业文化的实用指南,以下是一些关键要点: 1. 明确AI的成功模式: 首先,要对AI如何赋能业务有清晰的愿景。理想的AI运作文化,能够实现人与AI系统之间工作流程的自然融合。AI擅长某些任务,而人类则擅长创造力、判

Meta升级AI助手应用,可穿戴式AI时代来临!这款旨在与ChatGPT竞争的应用,提供文本、语音交互、图像生成和网络搜索等标准AI功能,但现在首次增加了地理位置功能。这意味着Meta AI在回答你的问题时,知道你的位置和正在查看的内容。它利用你的兴趣、位置、个人资料和活动信息,提供最新的情境信息,这在以前是无法实现的。该应用还支持实时翻译,这彻底改变了Ray-Ban眼镜上的AI体验,使其实用性大大提升。 对外国电影征收关税是对媒体和文化的赤裸裸的权力行使。如果实施,这将加速向AI和虚拟制作的

人工智能正在彻底改变网络犯罪领域,这迫使我们必须学习新的防御技巧。网络罪犯日益利用深度伪造和智能网络攻击等强大的人工智能技术进行欺诈和破坏,其规模前所未有。据报道,87%的全球企业在过去一年中都成为人工智能网络犯罪的目标。 那么,我们该如何避免成为这波智能犯罪的受害者呢?让我们探讨如何在个人和组织层面识别风险并采取防护措施。 网络罪犯如何利用人工智能 随着技术的进步,犯罪分子不断寻找新的方法来攻击个人、企业和政府。人工智能的广泛应用可能是最新的一个方面,但其潜在危害是前所未有的。 特别是,人工智

最好将人工智能(AI)与人类智力(NI)之间的复杂关系理解为反馈循环。 人类创建AI,对人类活动产生的数据进行培训,以增强或复制人类能力。 这个AI

Anthropic最近的声明强调了关于尖端AI模型缺乏了解,引发了专家之间的激烈辩论。 这是一个真正的技术危机,还是仅仅是通往更秘密的道路上的临时障碍

印度是一个多元化的国家,具有丰富的语言,使整个地区的无缝沟通成为持续的挑战。但是,Sarvam的Bulbul-V2正在帮助弥合其高级文本到语音(TTS)T


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

Dreamweaver Mac版
视觉化网页开发工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。

SublimeText3汉化版
中文版,非常好用

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中