DeepMind|DeepMind联合UCL,推出2021强化学习最新课程( 二 )
文章图片
第 9 讲 策略梯度和 Actor-Critic 方法:Hado van Hasselt 讲述了可以直接学习策略的策略算法 , 并进一步讲解了结合价值预测以提高学习效率的 actor critic 算法 。
第 10 讲 近似动态规划:Diana Borsa 讲解了近似动态规划算法 , 探讨了如何从理论的角度分析近似算法的性能 。
第 11 讲 多步和 off-policy:Hado van Hasselt 讲解了多步和 off-policy 算法 , 包括多种减小方差的方法 。
第 12 讲 深度强化学习 #1:Matteo Hessel 讲解了深度强化学习的实际要求和具体算法 , 以及如何使用自动微分(Jax)来实现 。
第 13 讲 深度强化学习 #2:Matteo Hessel 讲解了通用价值函数(general value functions)、基于 GVF 的辅助任务 , 并进一步讲解了如何处理算法中的扩展问题 。
DeepMind 研究者亲自授课
该系列课程的讲师是 DeepMind 的研究科学家和工程师 Hado van Hasselt、Diana Borsa 和 Matteo Hessel 。
Hado van Hasselt
文章图片
Hado van Hasselt 是 DeepMind 的一名研究科学家 , 也是伦敦大学学院(UCL)的荣誉教授 。 Hado van Hasselt 博士毕业于世界顶尖公立研究型大学和百强名校乌得勒支大学 , 他的研究兴趣包括人工智能、机器学习、深度学习 , 并重点研究强化学习 。
Diana Borsa
文章图片
Diana Borsa 是 DeepMind 的研究科学家 , 也是 UCL 的荣誉讲师 。 她的研究兴趣主要是强化学习、机器学习、统计学习和通用人工智能(AGI) , 涵盖智能体学习、交互系统、多智能体系统、概率建模、表征学习等 。
【DeepMind|DeepMind联合UCL,推出2021强化学习最新课程】Matteo Hessel
文章图片
Matteo Hessel 是 DeepMind 的一位研究工程师 , 也是 UCL 的荣誉讲师 。 他的研究重点是强化学习及其与深度学习的结合 。 Hessel 曾在 NeurIPS、ICML、ICLR、AAAI 和 RLDM 上发表过十余篇论文 , 这些论文的引用次数超过 4000 次 , 并获得了 2 项注册专利 。
推荐阅读
- 产品|泰晶科技与紫光展锐联合实验室揭牌
- 网络化|工信部等联合发文 助力智能制造发展
- 傅跃红|会长寄语
- 行李|驭势科技联合乌鲁木齐国际机场落地全球首批机坪无人驾驶行李牵引车
- 安全|Apache联合创始人呼吁合作防止Log4Shell问题再次发生
- 数字化|工信部等八部门联合印发《“十四五”智能制造发展规划》
- 国际|工信部等十五部门联合印发《“十四五”机器人产业发展规划》
- 水平|工信部等十五部门联合印发《“十四五”机器人产业发展规划》
- 基础科学|DARPA建立公私伙伴关系以支持“联合大学微电子2.0”计划
- 大理|大理爱尔眼科医院邀您共同见证黑科技——飞秒激光联合焕晶白内障技术