关于举办“深度强化学习核心技术开发与应用研修班”的通知 -

各企、事业单位：

随着科技的快速发展,人工智能俨然成了当今社会的关注焦点。而在人工智能的发展上,深度学习、强化学习、迁移学习等成为了科学界、工业界研究和应用的热点。在实际研究和应用过程当中，研究人员逐渐发现了深度学习单独应用的缺点，如没有决策能力，不可推理等。而深度强化学习，作为一种崭新的机器学习方法,同时具有感知能力和决策能力，它是深度学习与强化学习的结合，二者的结合涵盖众多算法、规则、框架,并广泛应用于机器人、无人机、无人车、无人艇、兵棋推演、自动驾驶、能源分配、编队控制、航迹规划、路由规划等众多领域，具有极高的研究与应用价值。

为积极响应科研及工作人员需求，根据gwy《国家中长期人才发展规划纲要 (2010-2020 年)》和人社部《专业技术人才知识更新工程实施方案 (2010-2020 年)》文件精神，中国管理科学研究院现代教育研究所 (http://www.zgyxdjy.com) 联合北京longteng亚太教育咨询公司特举办“深度强化学习核心技术开发与应用研修班”。本次培训采用全实战培训模式。

主办单位：中国管理科学研究院现代教育研究所

承办单位：北京longteng亚太教育咨询公司、北京新鼎聚成文化传媒公司

注：fapiao由具体承办单位开具。

一、培训专家:

中国科学院计算技术研究所、清华大学、北京理工大学等科研机构和大学的高级专家，拥有丰富的科研及工程技术经验，长期从事人工智能、机器学习、深度学习、大数据分析等领域的教学与研究工作。

二、时间安排: 2022 年 7 月 29 日-8 月 1 日线上直播

(29 日下发上课所需材料）

三、参会对象：

各省市、自治区从事人工智能、机器学习、计算机视觉、自然语言处理、无人机、无人艇、无人车、机器人、智能体、多智能体、兵棋推演、自动驾驶、能源分配、编队控制、航迹规划、路由规划等领域相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生等相关人员，以及强化学习、人工智能广大爱好者。

四、培训目标：

1、了解强化学习发展。

2、掌握单智能体深度强化学习。

3、掌握多智能体深度强化学习。

4、掌握多任务深度强化学习。

5、掌握强化学习应用领域Gym Retro 游戏平台、机器人控制、计算机视觉、自然语言处理。

6、实现 Gym、Ray 仿真环境。

7、实际体验 Q Learning 实验、DQN 实验、DDPG 实验。

五、费用标准：

1、4580 元/人 (含报名费、培训费、资料费、证书费)。

2、培训费由组织培训的施教机构负责收取并提供培训fapiao。

3、报名成功后于一周内办理汇款手续。

4、报名 5 人以上可享受 9 折优惠。

5、参加线上培训学员可享受视频录播回放权益，及本人再次免费参加线下学习权益。

六、颁发证书：

参加相关培训并通过考核的学员，由中国管理科学研究院现代教育研究所颁发《深度强化学习开发与应用工程师》(高级) 岗位认证证书，可通过官方网站查询 (http://www.zgyxdjy.com) ，该证书可作为有关单位专业技术人员能力评价、考核和任职的重要依据。

注：请学员将电子版彩照 (大于 20KB，红蓝底皆可)、shenfen证复印件和xueli证明复印件发送至 3497334602@qq.com

七、注意事项

1、指定报名邮箱：3497334602@qq.com

2、报名成功后，会务组在上课前两天发放上课所需所有材料。

3、学员需自备电脑一台，配置 win10、64 位系统、8G 内存、100G 硬盘。

附件 1：具体课程安排

时间安排

大纲

具体内容

实操案例

三天

关键点

1.强化学习的发展历程

2.马尔可夫决策过程

3.动态规划

4.无模型yuce学习

5.无模型控制学习

6.价值函数逼近

7.策略梯度方法

8.深度强化学习-DQN 算法系列

9.深度策略梯度-DDPG,PPO 等

第一天 9:00-12:00 14:00-17:00

一、强化学习概述

1.强化学习介绍 3.强化学习发展历史 5.强化学习基本元素

2.强化学习与其它机器学习的不同

4.强化学习典型应用

6.强化学习算法分类

二、马尔科夫决策过程

1.马尔可夫性

3.策略与价值

5.MDPs 扩展

2.马尔可夫决策过程

4.最优化原理

三、动态规划

1.动态规划 3.策略迭代 5.广义策略迭代

2.价值迭代

4.迭代策略评估

6.维数灾

1.python 环境下简单扫地机器人环境 2.价值迭代 python 实现

3.策略迭代 python 实现

4.迭代策略评估 python 实现

四、无模型预测学习

1.蒙特卡洛方法 3.n-步回报 5.资格迹

2.时间差分学习

4.TD(lambda)

1.蒙特卡洛方法 python 实现

2.时间差分方法 python 实现

第二天 9:00-12:00 14:00-17:00

五、无模型控制学习

1.蒙特卡洛控制 3.重要性采样 4.Double Q 学习

2.Sarsa

4.Q-学习

5.探索与利用

1. Sarsa 方法 python 实现

2. Q 学习方法 python 实现

3. Sarsa(lambda)方法 python 实现

六、价值函数逼近

1.函数逼近器 2.线性函数逼近 3.常见的特征表示方法 4.价值迭代+离散化方法

5.Fitted Q Iteration

6.策略迭代+最小二乘

7.yuce学习+随机梯度下降法

8.控制学习+随机梯度下降法

1. 离散化 Q 迭代方法 python 实现

2. LSPI 方法 python 实现

七、策略梯度方法

1.基于策略的强化学习

2.有限差分策略梯度

3.解析法策略梯度

4.REINFORCE 算法

5.Actor-Critic

6.策略梯度引入基准

7. 自然梯度

8.确定型 Actor-Critic

1. 策略迭代方法 python 实现

2. actor-critic 方法 python 实现

第三天 9:00-12:00 14:00-17:00

八、深度强化学习

1.Deep Q learning(DQN)

2.Double DQN

3.Dueling DQN

4.Prioritized Experience Replay

5.A3C/A2C

6.DDPG

7.PPO

8.SAC

1.深度强化学习训练场-OpenAI Gym 安装与使用

2.Pytorch 安装与使用

3. 自动驾驶塞车任务

4.月球飞船降落任务

实操解析与

训练一

实验：倒立摆和冰壶控制实践

1.环境编写 2.算法设计 3.实验结果

高频问题：

如何将一个控制问题设计成马尔可夫决策问题并使用强化学习算法进行训练

关键点：

1.基于模型的离线强化学习方法 2.基于数据的在线强化学习方法

实操解析与

训练二

实验：OpenAI Gym 实践

1.Gym 安装 2.Gym 使用 3.强化学习

高频问题：

1.如何基于 Gym 实现强化学习训练与测试

关键点：

1.掌握马尔可夫决策过程 2.低维输入的强化学习方法

实操解析与

训练三

实验：月球飞船降落任务

1.DQN/Double DQN/Dueling DQN 高频问题： 1.深度强化学习网络训练稳定性

关键点：

2.PER

2.探索与利用

1.经验回放技术的实现 2. 目标网络更新

实操解析与

训练四

实验：自动驾驶塞车任务

1.连续控制任务 2.策略梯度方法 DDPG/PPO

高频问题：

1.适用于高维输入的连续控制任务的深度强化学习方法

关键点：

1.掌握 DDPG 和 PPO 具体编程实现

2.根据实际需求，选用合理的深度强化学习方法

更多资讯请关注vh “人工智能技术与咨询”

联系人：王帅

电话：010-81311930

手机：13290607959 (微信同号)

报名邮箱：3497334602@qq.com