经典论文 - RL学习平台

作者：Mnih et al. (2013)

简介：深度强化学习的开山之作。首次成功将深度神经网络与Q-learning结合，在Atari游戏上展现了超越人类的水平，开启了DRL的新时代。

作者：Schulman et al. (2017)

简介：OpenAI提出的策略梯度算法。通过裁剪目标函数限制策略更新幅度，既保证了训练稳定性，又实现了高效采样，是目前最流行的DRL算法之一。

作者：Lillicrap et al. (2015)

简介：将DQN的思想扩展到连续动作空间。结合了Actor-Critic架构和DQN的经验回放、目标网络，解决了连续控制难题。

作者：Mnih et al. (2016)

简介：提出了异步更新的框架，利用多线程并行收集经验，大幅提升了训练速度并打破了数据相关性，是并行强化学习的经典之作。

作者：Haarnoja et al. (2018)

简介：引入最大熵原理，鼓励智能体在最大化奖励的同时保持策略的随机性。具有极高的样本效率和鲁棒性，是连续控制任务的首选算法之一。

作者：Schulman et al. (2015)

简介：从数学上保证了策略改进的单调性。通过限制策略更新的KL散度在一定范围内（置信域），解决了步长选择困难的问题，是PPO的前身。