Playing Atari with Deep Reinforcement Learning (DQN)

作者:Mnih et al. (2013)

简介:深度强化学习的开山之作。首次成功将深度神经网络与Q-learning结合,在Atari游戏上展现了超越人类的水平,开启了DRL的新时代。

Proximal Policy Optimization Algorithms (PPO)

作者:Schulman et al. (2017)

简介:OpenAI提出的策略梯度算法。通过裁剪目标函数限制策略更新幅度,既保证了训练稳定性,又实现了高效采样,是目前最流行的DRL算法之一。

Continuous Control with Deep Reinforcement Learning (DDPG)

作者:Lillicrap et al. (2015)

简介:将DQN的思想扩展到连续动作空间。结合了Actor-Critic架构和DQN的经验回放、目标网络,解决了连续控制难题。

Asynchronous Methods for Deep Reinforcement Learning (A3C)

作者:Mnih et al. (2016)

简介:提出了异步更新的框架,利用多线程并行收集经验,大幅提升了训练速度并打破了数据相关性,是并行强化学习的经典之作。

Soft Actor-Critic: Off-Policy Maximum Entropy Deep RL (SAC)

作者:Haarnoja et al. (2018)

简介:引入最大熵原理,鼓励智能体在最大化奖励的同时保持策略的随机性。具有极高的样本效率和鲁棒性,是连续控制任务的首选算法之一。

Trust Region Policy Optimization (TRPO)

作者:Schulman et al. (2015)

简介:从数学上保证了策略改进的单调性。通过限制策略更新的KL散度在一定范围内(置信域),解决了步长选择困难的问题,是PPO的前身。