动手学强化学习
动手学
课件
视频课程
京东链接
GitHub
动手学强化学习
动手学
课件
视频课程
京东链接
GitHub
前言
强化学习基础篇
初探强化学习
多臂老虎机
马尔可夫决策过程
动态规划算法
时序差分算法
Dyna-Q算法
强化学习进阶篇
DQN 算法
DQN 改进算法
策略梯度算法
Actor-Critic 算法
TRPO 算法
PPO 算法
DDPG 算法
SAC 算法
强化学习前沿篇
模仿学习
模型预测控制
基于模型的策略优化
离线强化学习
目标导向的强化学习
多智能体强化学习入门
多智能体强化学习进阶
总结与展望