Playing Atari with Deep Reinforcement Learning (DQN)
作者:Mnih et al. (2013)
简介:深度强化学习的开山之作。首次成功将深度神经网络与Q-learning结合,在Atari游戏上展现了超越人类的水平,开启了DRL的新时代。
Proximal Policy Optimization Algorithms (PPO)
作者:Schulman et al. (2017)
简介:OpenAI提出的策略梯度算法。通过裁剪目标函数限制策略更新幅度,既保证了训练稳定性,又实现了高效采样,是目前最流行的DRL算法之一。
Continuous Control with Deep Reinforcement Learning (DDPG)
作者:Lillicrap et al. (2015)
简介:将DQN的思想扩展到连续动作空间。结合了Actor-Critic架构和DQN的经验回放、目标网络,解决了连续控制难题。
Asynchronous Methods for Deep Reinforcement Learning (A3C)
作者:Mnih et al. (2016)
简介:提出了异步更新的框架,利用多线程并行收集经验,大幅提升了训练速度并打破了数据相关性,是并行强化学习的经典之作。
Soft Actor-Critic: Off-Policy Maximum Entropy Deep RL (SAC)
作者:Haarnoja et al. (2018)
简介:引入最大熵原理,鼓励智能体在最大化奖励的同时保持策略的随机性。具有极高的样本效率和鲁棒性,是连续控制任务的首选算法之一。
Trust Region Policy Optimization (TRPO)
作者:Schulman et al. (2015)
简介:从数学上保证了策略改进的单调性。通过限制策略更新的KL散度在一定范围内(置信域),解决了步长选择困难的问题,是PPO的前身。