强化学习教程 - 从理论到实践

什么是强化学习？

强化学习（Reinforcement Learning, RL）是机器学习的一个分支，通过智能体（Agent）与环境（Environment）的交互来学习最优策略。

核心要素：

智能体（Agent）：执行动作的决策者
环境（Environment）：智能体交互的外部世界
状态（State）：环境的当前情况
动作（Action）：智能体可以执行的操作
奖励（Reward）：环境对动作的反馈
策略（Policy）：从状态到动作的映射

State（状态）

状态（State）是环境在某个时刻的完整描述，包含了智能体做出决策所需的所有信息。状态是强化学习中的核心概念之一。

状态的定义

完整信息：状态应该包含做出最优决策所需的所有信息
马尔可夫性质：当前状态包含了预测未来所需的所有信息，历史信息不必要
可观测性：状态可能是完全可观测的（Fully Observable）或部分可观测的（Partially Observable）

状态的类型

离散状态：状态空间是有限的或可数的，如Grid World中的网格位置
连续状态：状态空间是连续的，如CartPole中的位置、速度、角度等
高维状态：状态可能是高维的，如图像（像素值）

状态空间示例

FrozenLake：16个离散状态（4x4网格）
CartPole：4维连续状态（位置、速度、角度、角速度）
Atari游戏：210x160x3的RGB图像

Action（动作）

动作（Action）是智能体在某个状态下可以执行的操作。智能体通过选择动作来影响环境，从而改变状态并获得奖励。

动作的定义

决策输出：动作是智能体根据当前状态做出的决策
环境交互：执行动作后，环境会转移到新状态并给出奖励
动作空间：所有可能动作的集合称为动作空间

动作的类型

离散动作：动作空间是有限的，如Grid World中的上、下、左、右
连续动作：动作空间是连续的，如机器人控制中的力或扭矩
混合动作：同时包含离散和连续动作

动作空间示例

FrozenLake：4个离散动作（左、下、右、上）
CartPole：2个离散动作（向左推、向右推）
连续控制：连续动作，如[-1, 1]范围内的力

状态-动作对

状态-动作对(s, a)表示在状态s下执行动作a。这是强化学习中的基本单位，很多算法（如Q-Learning）都是基于状态-动作对进行学习的。

状态转移的定义

状态转移（State Transition）是指智能体执行动作后，环境从当前状态转换到下一个状态的过程。这是强化学习中的核心机制。

转移过程

状态转移可以用以下公式表示：

s_t+1 ~ P(·|s_t, a_t)

这表示在状态s_t下执行动作a_t后，下一个状态s_t+1遵循概率分布P(·|s_t, a_t)。

状态转移概率

状态转移概率P(s'|s, a)表示在状态s下执行动作a后，转移到状态s'的概率：

P(s'|s, a) = P(S_t+1 = s' | S_t = s, A_t = a)

确定性 vs 随机性

确定性转移：P(s'|s, a) = 1（对于某个s'），执行相同动作总是得到相同结果
随机性转移：P(s'|s, a) < 1，执行相同动作可能得到不同结果

马尔可夫性质

状态转移满足马尔可夫性质，即下一个状态只依赖于当前状态和动作，而不依赖于历史状态：

P(s_t+1|s_t, a_t, s_t-1, a_t-1, ...) = P(s_t+1|s_t, a_t)

转移函数

在代码中，状态转移通过环境的step函数实现：

状态转移示例

import gymnasium as gym

env = gym.make('FrozenLake-v1')

# 初始状态
state, info = env.reset()
print(f"初始状态: {state}")

# 执行动作，状态转移
action = 1  # 向下
next_state, reward, terminated, truncated, info = env.step(action)

print(f"执行动作: {action}")
print(f"新状态: {next_state}")
print(f"奖励: {reward}")
print(f"是否结束: {terminated or truncated}")

状态转移图

状态转移可以用有向图表示，节点是状态，边是动作和转移概率。这对于理解环境的结构很有帮助。

策略的定义

策略（Policy）是智能体的决策规则，定义了在给定状态下应该选择什么动作。策略是强化学习的核心，智能体的目标就是学习最优策略。

策略的数学表示

策略通常用π表示，可以是确定性的或随机性的：

确定性策略：π(s) = a，在状态s下总是选择动作a
随机性策略：π(a|s) = P(A_t = a | S_t = s)，在状态s下选择动作a的概率

策略的类型

确定性策略：每个状态对应一个确定的动作
随机性策略：每个状态对应一个动作的概率分布
ε-贪婪策略：以概率ε随机选择，以概率1-ε选择最优动作
软策略：根据动作的Q值或优势进行softmax选择

最优策略

最优策略π*是能够最大化期望累积奖励的策略：

π* = argmax_π E_π[∑_t=0^∞ γ_tR_t+1]

策略的表示

表格形式：对于离散状态空间，可以用表格存储每个状态的动作
函数形式：对于连续或大状态空间，用函数（如神经网络）近似策略

策略学习

强化学习算法可以分为两类：

价值函数方法：先学习价值函数，然后推导出策略（如Q-Learning）
策略梯度方法：直接学习策略（如REINFORCE、PPO）
Actor-Critic方法：同时学习策略和价值函数（如A2C、A3C）

策略示例

import numpy as np

# 确定性策略示例
def deterministic_policy(state, Q_table):
    """根据Q表选择最优动作"""
    return np.argmax(Q_table[state, :])

# ε-贪婪策略示例
def epsilon_greedy_policy(state, Q_table, epsilon, action_space):
    """ε-贪婪策略"""
    if np.random.random() < epsilon:
        return action_space.sample()  # 探索
    else:
        return np.argmax(Q_table[state, :])  # 利用

# 随机性策略示例（softmax）
def softmax_policy(state, Q_table, temperature=1.0):
    """基于softmax的随机性策略"""
    q_values = Q_table[state, :]
    exp_q = np.exp(q_values / temperature)
    probabilities = exp_q / np.sum(exp_q)
    return np.random.choice(len(q_values), p=probabilities)

奖励的定义

奖励（Reward）是环境在智能体执行动作后给出的标量反馈信号，表示该动作的好坏。奖励是强化学习中的学习信号，智能体的目标就是最大化累积奖励。

奖励的作用

学习信号：告诉智能体哪些动作是好的，哪些是坏的
目标导向：定义智能体应该追求的目标
行为塑造：通过奖励设计来引导智能体学习期望的行为

奖励函数

奖励函数R(s, a, s')定义了在状态s下执行动作a转移到状态s'时获得的奖励：

R(s, a, s') = E[R_t+1 | S_t = s, A_t = a, S_t+1 = s']

奖励的类型

即时奖励：执行动作后立即获得的奖励
稀疏奖励：只在特定情况下给予奖励（如到达目标）
密集奖励：每个时间步都给予奖励
延迟奖励：奖励可能在动作执行后很久才出现

奖励设计原则

明确目标：奖励应该明确反映任务目标
稀疏性：过于密集的奖励可能导致智能体过度优化局部行为
尺度：奖励的尺度应该合理，避免过大或过小
稀疏奖励问题：稀疏奖励可能导致探索困难，需要设计辅助奖励

奖励示例

CartPole：每步+1，鼓励保持平衡
FrozenLake：到达目标+1，掉入洞中0，其他0
MountainCar：每步-1，到达目标0，鼓励快速到达
Atari游戏：游戏得分作为奖励

奖励塑形（Reward Shaping）

奖励塑形是通过添加辅助奖励来帮助智能体学习的技术：

目的：提供更密集的学习信号，加速学习
风险：可能改变原始任务的目标
原则：辅助奖励应该与原始目标一致

累积奖励（Return）

智能体关心的是累积奖励（回报），而不是单步奖励：

G_t = R_t+1 + γR_t+2 + γ²R_t+3 + ... = ∑_k=0^∞ γ^kR_t+k+1

其中γ是折扣因子，用于平衡即时奖励和未来奖励。

Episode（回合）

回合（Episode）是智能体与环境的一次完整交互过程，从初始状态开始，到终止状态结束。一个回合包含多个时间步的交互。

回合的特点

有始有终：从初始状态开始，到终止状态结束
有限长度：每个回合有有限的时间步（虽然可能很长）
独立重复：每个回合是独立的，可以重复进行

终止条件

任务完成：达到目标状态（如到达终点）
任务失败：进入失败状态（如掉入陷阱）
时间限制：达到最大时间步数

Trajectory（轨迹）

轨迹（Trajectory）是一个回合中状态、动作、奖励的序列，记录了智能体与环境交互的完整过程。

轨迹的表示

一个轨迹可以表示为：

τ = (s₀, a₀, r₁, s₁, a₁, r₂, s₂, ..., s_T-1, a_T-1, r_T, s_T)

其中T是回合的长度，s_T是终止状态。

轨迹的概率

在策略π下，轨迹τ的概率为：

P(τ|π) = P(s₀) ∏_t=0^T-1 π(a_t|s_t) P(s_t+1|s_t, a_t)

轨迹示例

轨迹收集示例

import gymnasium as gym

env = gym.make('FrozenLake-v1')
trajectory = []

state, info = env.reset()
trajectory.append(('state', state))

while True:
    action = env.action_space.sample()
    next_state, reward, terminated, truncated, info = env.step(action)
    
    trajectory.append(('action', action))
    trajectory.append(('reward', reward))
    trajectory.append(('state', next_state))
    
    if terminated or truncated:
        break

print("轨迹:", trajectory)
print("轨迹长度:", len(trajectory))

Return（回报）

回报（Return）是一个回合中从某个时间步开始的累积奖励，是智能体真正关心的目标。

总回报（Total Return）

从时间步t开始的总回报为：

G_t = R_t+1 + R_t+2 + R_t+3 + ... + R_T

这是未折扣的回报，适用于有限回合的情况。

折扣回报（Discounted Return）

对于无限回合或需要平衡即时和未来奖励的情况，使用折扣回报：

G_t = R_t+1 + γR_t+2 + γ²R_t+3 + ... = ∑_k=0^∞ γ^kR_t+k+1

其中γ ∈ [0, 1]是折扣因子：

γ = 0：只关心即时奖励
γ = 1：所有未来奖励同等重要
0 < γ < 1：未来奖励的重要性随时间衰减

回报的计算

回报可以通过前向计算或后向计算：

前向计算：G_t = R_t+1 + γG_t+1
后向计算：从回合结束向前计算累积奖励

回报示例

回报计算示例

import numpy as np

# 假设一个回合的奖励序列
rewards = [0, 0, 0, 0, 1]  # 最后一步到达目标获得奖励1
gamma = 0.9

# 计算折扣回报（从后向前）
returns = []
G = 0
for reward in reversed(rewards):
    G = reward + gamma * G
    returns.insert(0, G)

print("奖励序列:", rewards)
print("回报序列:", returns)
# 输出: [0.6561, 0.729, 0.81, 0.9, 1.0]

期望回报

智能体的目标是最大化期望回报：

J(π) = E_τ~π[G₀] = E_τ~π[∑_t=0^T γ^tR_t+1]

这是策略π的价值，强化学习的目标就是找到最大化J(π)的策略π*。

马尔可夫决策过程（MDP）

MDP是强化学习的数学框架，用于描述在不确定环境中进行决策的问题。

MDP的组成：

S：状态空间
A：动作空间
P：状态转移概率
R：奖励函数
γ：折扣因子（0 ≤ γ ≤ 1）

V(s) = E[∑_t=0^∞ γ^tR_t+1 | S₀ = s]

价值函数与策略

价值函数用于评估状态或动作的好坏，策略定义了智能体的行为方式。

关键概念：

状态价值函数 V(s)：从状态s开始遵循策略π的期望回报
动作价值函数 Q(s,a)：在状态s执行动作a后遵循策略π的期望回报
最优策略 π*：使价值函数最大的策略

Q*(s,a) = max_π Q_π(s,a)

Q-Learning算法介绍

Q-Learning是一种无模型的强化学习算法，由Watkins在1989年提出，属于时序差分学习（Temporal Difference Learning）方法。它是强化学习领域最经典和广泛应用的算法之一。

核心思想

Q-Learning通过学习动作价值函数Q(s,a)来找到最优策略。Q(s,a)表示在状态s下执行动作a后，遵循最优策略所能获得的期望累积奖励。算法的核心思想是：通过不断更新Q值，逐步逼近最优Q函数Q*(s,a)。

算法原理

Q-Learning使用贝尔曼最优方程来更新Q值：

Q(s,a) ← Q(s,a) + α[r + γ max_a' Q(s',a') - Q(s,a)]

其中：

α (learning_rate)：学习率，控制更新幅度
r：即时奖励
γ (discount_factor)：折扣因子，平衡即时奖励和未来奖励
s'：下一个状态

算法特点：

无模型（Model-free）：不需要知道环境的转移概率P(s'|s,a)和奖励函数R(s,a)，只需要与环境交互即可学习
离线策略（Off-policy）：可以学习最优策略，即使遵循的是探索性策略（如ε-贪婪策略）。这使得算法可以更充分地探索环境
收敛性保证：在满足条件下（所有状态-动作对被无限次访问，学习率满足特定条件），可以保证收敛到最优Q函数
表格方法：传统Q-Learning使用Q表存储所有状态-动作对的Q值，适合离散状态和动作空间

探索与利用

Q-Learning使用ε-贪婪策略来平衡探索和利用：

以概率ε随机选择动作（探索）
以概率1-ε选择当前Q值最大的动作（利用）
通常ε从1.0逐渐衰减到接近0，实现从探索到利用的过渡

适用场景

离散状态和动作空间的问题
需要找到最优策略的场景
环境模型未知的情况
经典应用：Grid World、FrozenLake等

局限性

状态空间和动作空间不能太大（Q表会过大）
无法直接处理连续状态和动作空间
需要大量样本才能收敛

qlearning.py

import gymnasium as gym
import numpy as np

# 创建环境
env = gym.make('FrozenLake-v1', is_slippery=True)

# Q-Learning参数
learning_rate = 0.1
discount_factor = 0.95
epsilon = 1.0
epsilon_decay = 0.995
epsilon_min = 0.01
episodes = 2000

# 初始化Q表
Q = np.zeros([env.observation_space.n, env.action_space.n])

# 训练
for episode in range(episodes):
    state, info = env.reset()
    done = False
    
    while not done:
        # ε-贪婪策略
        if np.random.random() < epsilon:
            action = env.action_space.sample()
        else:
            action = np.argmax(Q[state, :])
        
        # 执行动作
        next_state, reward, terminated, truncated, info = env.step(action)
        done = terminated or truncated
        
        # Q-Learning更新
        Q[state, action] = Q[state, action] + learning_rate * (
            reward + discount_factor * np.max(Q[next_state, :]) - Q[state, action]
        )
        
        state = next_state
    
    epsilon = max(epsilon_min, epsilon * epsilon_decay)

# 测试训练好的策略
state, info = env.reset()
for step in range(100):
    action = np.argmax(Q[state, :])
    state, reward, terminated, truncated, info = env.step(action)
    if terminated or truncated:
        break

env.close()

SARSA算法介绍

SARSA（State-Action-Reward-State-Action）是一种在线策略（On-policy）的时序差分学习算法，由Rummery和Niranjan在1994年提出。它的名字来源于更新过程中使用的五元组：(s, a, r, s', a')。

核心思想

SARSA与Q-Learning的主要区别在于：Q-Learning使用下一个状态的最大Q值来更新，而SARSA使用下一个状态实际执行的动作的Q值来更新。这使得SARSA学习的是当前遵循的策略，而不是最优策略。

算法原理

SARSA的更新公式为：

Q(s,a) ← Q(s,a) + α[r + γ Q(s',a') - Q(s,a)]

其中a'是在状态s'下实际执行的动作（根据当前策略选择），而不是最优动作。

与Q-Learning的区别

特性	Q-Learning	SARSA
策略类型	离线策略（Off-policy）	在线策略（On-policy）
更新方式	使用max Q(s',a')	使用Q(s',a')
学习目标	最优策略	当前策略
探索性	更激进	更保守

算法特点：

在线策略（On-policy）：学习当前遵循的策略，更新时考虑实际执行的动作。这意味着智能体学习的是它实际在做的，而不是可能做的最优选择
保守性：由于考虑实际执行的动作，SARSA在探索时更加谨慎，避免选择可能导致危险的动作。这使得它在需要安全探索的场景中表现更好
策略一致性：学习策略和执行策略是同一个，这使得算法行为更加可预测
收敛性：在满足条件下，SARSA会收敛到当前策略的最优Q函数

适用场景

需要安全探索的场景（如悬崖行走问题）
在线学习场景，需要边学边用
当探索性动作可能导致严重后果时
经典应用：FrozenLake（有滑冰的情况）、Cliff Walking等

示例：Cliff Walking问题

在Cliff Walking问题中，如果智能体掉下悬崖会得到很大的负奖励。Q-Learning可能会学习到沿着悬崖边缘走的最优路径（因为它在更新时假设会选择最优动作），但在实际执行时可能因为探索而掉下悬崖。而SARSA会学习到更安全的路径，因为它考虑实际执行的动作，会避开危险的边缘。

sarsa.py

import gymnasium as gym
import numpy as np

env = gym.make('FrozenLake-v1', is_slippery=True)
learning_rate = 0.1
discount_factor = 0.95
epsilon = 1.0
epsilon_decay = 0.995
epsilon_min = 0.01
episodes = 2000

Q = np.zeros([env.observation_space.n, env.action_space.n])

for episode in range(episodes):
    state, info = env.reset()
    if np.random.random() < epsilon:
        action = env.action_space.sample()
    else:
        action = np.argmax(Q[state, :])
    
    done = False
    while not done:
        next_state, reward, terminated, truncated, info = env.step(action)
        done = terminated or truncated
        
        if np.random.random() < epsilon:
            next_action = env.action_space.sample()
        else:
            next_action = np.argmax(Q[next_state, :])
        
        if not done:
            Q[state, action] = Q[state, action] + learning_rate * (
                reward + discount_factor * Q[next_state, next_action] - Q[state, action]
            )
        else:
            Q[state, action] = Q[state, action] + learning_rate * (reward - Q[state, action])
        
        state = next_state
        action = next_action
    
    epsilon = max(epsilon_min, epsilon * epsilon_decay)

env.close()

DQN算法介绍

DQN（Deep Q-Network）由DeepMind在2013年提出，将深度神经网络与Q-Learning结合，能够处理高维状态空间（如图像），是深度强化学习的里程碑算法。它在2015年的Nature论文中展示了在Atari游戏中达到人类水平的性能。

核心创新

传统Q-Learning使用Q表存储所有状态-动作对的Q值，这在状态空间很大时（如Atari游戏的图像状态）是不可行的。DQN使用深度神经网络来近似Q函数，从而能够处理高维连续状态空间。

关键技术

经验回放（Experience Replay）：将智能体的经验(s, a, r, s', done)存储在回放缓冲区中，训练时随机采样批次数据进行学习。这打破了数据之间的相关性，提高了样本效率，并使训练更加稳定
目标网络（Target Network）：使用一个独立的、更新较慢的目标网络来计算TD目标，而不是使用当前网络。这解决了"移动目标"问题，使训练更加稳定。目标网络的参数定期从主网络复制
深度网络：使用卷积神经网络（CNN）处理图像状态，能够自动提取特征，无需手工设计特征

算法流程

使用ε-贪婪策略选择动作并执行
将经验(s, a, r, s', done)存储到回放缓冲区
从回放缓冲区随机采样批次数据
计算TD目标：y = r + γ max_a' Q(s', a'; θ_target)
使用均方误差损失更新主网络：L = (y - Q(s, a; θ))²
定期将主网络参数复制到目标网络

损失函数

L(θ) = E_(s,a,r,s')~D[(r + γ max_a' Q(s', a'; θ_target) - Q(s, a; θ))²]

其中D是经验回放缓冲区，θ是主网络参数，θ_target是目标网络参数。

优势

能够处理高维状态空间（如图像）
端到端学习，无需手工特征工程
经验回放提高了样本效率
目标网络提高了训练稳定性

局限性

只能处理离散动作空间
可能存在过估计问题（Q值被高估）
训练不稳定，需要仔细调参
需要大量样本和计算资源

改进版本

Double DQN：解决过估计问题
Dueling DQN：分离状态价值和优势函数
Prioritized Experience Replay：优先回放重要的经验
Rainbow DQN：结合多种改进技术

dqn.py

from stable_baselines3 import DQN
from stable_baselines3.common.env_util import make_vec_env
import gymnasium as gym

env = make_vec_env('CartPole-v1', n_envs=1)

model = DQN(
    'MlpPolicy',
    env,
    learning_rate=1e-3,
    buffer_size=10000,
    learning_starts=1000,
    batch_size=32,
    gamma=0.99,
    target_update_interval=100,
    verbose=1
)

print("开始训练DQN模型...")
model.learn(total_timesteps=10000)
model.save("dqn_cartpole")
print("训练完成！")

env = gym.make('CartPole-v1', render_mode='human')
obs, info = env.reset()
for i in range(1000):
    action, _states = model.predict(obs, deterministic=True)
    obs, reward, terminated, truncated, info = env.step(action)
    if terminated or truncated:
        obs, info = env.reset()

env.close()

PPO算法介绍

PPO（Proximal Policy Optimization）由OpenAI在2017年提出，是一种策略梯度算法，通过限制策略更新的幅度来避免训练不稳定。它已经成为深度强化学习领域最流行和广泛应用的算法之一，在游戏、机器人控制、自然语言处理等多个领域取得了成功。

背景：策略梯度方法的问题

传统的策略梯度方法（如REINFORCE、Actor-Critic）存在以下问题：

策略更新步长难以选择，太小收敛慢，太大可能导致策略崩溃
样本效率低，需要大量样本才能稳定训练
训练不稳定，性能可能突然下降

核心思想

PPO的核心思想是：在更新策略时，限制新策略与旧策略的差异，确保策略更新不会太大。这通过裁剪（Clipping）机制实现，防止策略更新过度偏离旧策略。

算法原理

PPO使用重要性采样和裁剪机制。目标函数为：

L^CLIP(θ) = E_t[min(r_t(θ)Â_t, clip(r_t(θ), 1-ε, 1+ε)Â_t)]

其中：

r_t(θ) = π_θ(a_t|s_t) / π_{θ_old}(a_t|s_t)：重要性采样比率
Â_t：优势函数估计（使用GAE计算）
ε：裁剪参数（通常为0.1或0.2）

裁剪机制

裁剪机制的工作原理：

当优势函数为正时（动作好），如果r_t(θ) > 1+ε，则裁剪到1+ε，防止策略更新过大
当优势函数为负时（动作差），如果r_t(θ) < 1-ε，则裁剪到1-ε，防止策略更新过大
这确保了新策略不会过度偏离旧策略，保持训练稳定

算法流程

使用当前策略收集一批经验数据
使用GAE（Generalized Advantage Estimation）计算优势函数
对同一批数据进行多次更新（通常3-10次）
每次更新时，计算裁剪后的目标函数并优化
更新策略网络和价值网络

关键参数

clip_range：裁剪范围ε，通常为0.1-0.3
n_steps：每次收集的步数，通常为2048或4096
n_epochs：对同一批数据的更新次数，通常为3-10
batch_size：批次大小，通常为64或128
gae_lambda：GAE的λ参数，通常为0.95
ent_coef：熵系数，鼓励探索，通常为0.01

算法优势：

稳定性：通过裁剪机制限制策略更新，避免策略崩溃，训练非常稳定
高效性：样本效率高，可以对同一批数据进行多次更新，训练速度快
通用性：适用于连续和离散动作空间，适用于各种环境
简单性：实现相对简单，超参数调优容易
鲁棒性：对超参数不敏感，默认参数在很多任务上表现良好

适用场景

连续控制任务（机器人控制、自动驾驶等）
离散动作任务（游戏、对话系统等）
需要稳定训练的场景
样本效率要求高的场景

变体

PPO2：使用自适应KL散度惩罚的版本
PPO-Continuous：专门针对连续动作空间的优化版本

ppo.py

from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env
import gymnasium as gym

env = make_vec_env('CartPole-v1', n_envs=4)

model = PPO(
    'MlpPolicy',
    env,
    learning_rate=3e-4,
    n_steps=2048,
    batch_size=64,
    n_epochs=10,
    gamma=0.99,
    gae_lambda=0.95,
    clip_range=0.2,
    verbose=1
)

print("开始训练PPO模型...")
model.learn(total_timesteps=50000)
model.save("ppo_cartpole")
print("训练完成！")

env = gym.make('CartPole-v1', render_mode='human')
obs, info = env.reset()
for i in range(10):
    total_reward = 0
    while True:
        action, _states = model.predict(obs, deterministic=True)
        obs, reward, terminated, truncated, info = env.step(action)
        total_reward += reward
        if terminated or truncated:
            print(f"回合 {i + 1}: 总奖励 = {total_reward:.2f}")
            obs, info = env.reset()
            break

env.close()

A2C算法介绍

A2C（Advantage Actor-Critic）是A3C（Asynchronous Advantage Actor-Critic）的同步版本，由DeepMind在2016年提出。它结合了策略梯度方法和价值函数方法，使用优势函数来减少方差，提高训练稳定性。

核心思想

A2C结合了Actor（策略网络）和Critic（价值网络）：

Actor：学习策略π(a|s)，决定在状态s下应该执行什么动作
Critic：学习价值函数V(s)，评估状态s的好坏
优势函数：A(s,a) = Q(s,a) - V(s)，衡量动作a相对于平均水平的优势

算法原理

A2C使用优势函数来更新策略，策略梯度为：

∇_θJ(θ) = E_{π_θ}[∇_θlog π_θ(a|s) Â(s,a)]

其中优势函数Â(s,a)通过TD误差估计：

Â(s,a) = r + γV(s') - V(s)

与A3C的区别

A3C：异步更新，多个worker并行收集经验并异步更新全局网络
A2C：同步更新，多个worker并行收集经验，但同步更新网络
A2C通常比A3C更简单，在某些情况下性能更好

算法流程

使用当前策略在多个环境中并行收集n步经验
计算n步回报：R_t = r_t + γr_t+1 + ... + γ^n-1r_t+n-1 + γⁿV(s_t+n)
计算优势函数：Â_t = R_t - V(s_t)
更新Critic网络：最小化 (R_t - V(s_t))²
更新Actor网络：最大化 log π(a_t|s_t) Â_t

优势函数的作用

使用优势函数而不是Q值或回报的好处：

减少方差：优势函数是Q值减去基线V(s)，减少了估计的方差
提高稳定性：方差越小，梯度估计越准确，训练越稳定
加速收敛：更准确的梯度估计可以加快收敛速度

算法特点：

Actor-Critic架构：结合策略和价值函数，既有策略梯度方法的直接优化策略，又有价值函数方法的低方差优势
优势函数：使用优势函数而不是回报，减少方差，提高训练稳定性
同步更新：所有环境同步更新，实现简单，易于调试
并行采样：可以在多个环境中并行采样，提高样本效率
n步回报：使用n步回报而不是单步回报，平衡偏差和方差

关键参数

n_steps：n步回报的步数，通常为5或20
gamma：折扣因子，通常为0.99
gae_lambda：GAE的λ参数（如果使用GAE），通常为1.0
ent_coef：熵系数，鼓励探索，通常为0.01
vf_coef：价值函数损失系数，通常为0.25或0.5

适用场景

需要稳定训练的场景
可以并行运行多个环境的场景
连续和离散动作空间都适用
经典应用：Atari游戏、连续控制任务等

优势与局限

优势：

训练稳定，方差小
实现简单，易于理解
可以并行采样，提高效率

局限：

需要价值网络，增加了模型复杂度
样本效率可能不如PPO等算法
对超参数比较敏感

a2c.py

from stable_baselines3 import A2C
from stable_baselines3.common.env_util import make_vec_env
import gymnasium as gym

env = make_vec_env('CartPole-v1', n_envs=4)

model = A2C(
    'MlpPolicy',
    env,
    learning_rate=7e-4,
    n_steps=5,
    gamma=0.99,
    verbose=1
)

print("开始训练A2C模型...")
model.learn(total_timesteps=50000)
model.save("a2c_cartpole")
print("训练完成！")

env = gym.make('CartPole-v1', render_mode='human')
obs, info = env.reset()
for i in range(10):
    total_reward = 0
    while True:
        action, _states = model.predict(obs, deterministic=True)
        obs, reward, terminated, truncated, info = env.step(action)
        total_reward += reward
        if terminated or truncated:
            print(f"回合 {i + 1}: 总奖励 = {total_reward:.2f}")
            obs, info = env.reset()
            break

env.close()

Playing Atari with Deep Reinforcement Learning

作者：Mnih et al. (2013)

首次将深度学习应用于强化学习，提出了DQN算法，在Atari游戏中取得了突破性成果。

查看论文

Human-level control through deep reinforcement learning

作者：Mnih et al. (2015)

DQN的改进版本，引入了目标网络和经验回放，在多个Atari游戏中达到人类水平。

查看论文

Proximal Policy Optimization Algorithms

作者：Schulman et al. (2017)

提出了PPO算法，通过裁剪机制实现稳定高效的策略优化，成为深度强化学习的标准算法。

查看论文

Large Language Models as Zero-Shot Planners

作者：Huang et al. (2022)

探索大语言模型在强化学习规划中的应用，展示了LLM作为零样本规划器的潜力。

查看论文

Decision Transformer: Reinforcement Learning via Sequence Modeling

作者：Chen et al. (2021)

将强化学习问题转化为序列建模问题，使用Transformer架构进行决策。

查看论文

Gymnasium简介

Gymnasium（原OpenAI Gym）是强化学习环境的标准库，提供了大量标准化的环境用于测试和开发强化学习算法。

主要特点：

标准化接口：统一的API设计
丰富环境：包含经典控制、Atari游戏等
易于扩展：可以轻松创建自定义环境

安装方法：

安装命令

pip install gymnasium

官方文档：

https://gymnasium.farama.org/

Stable-Baselines3简介

Stable-Baselines3提供了多种强化学习算法的PyTorch实现，包括PPO、DQN、A2C等，是研究和应用的首选库。

支持的算法：

PPO, A2C, DQN, DDPG, TD3, SAC等
所有算法都经过充分测试和优化
统一的接口设计，易于使用

安装方法：

安装命令

pip install stable-baselines3

官方文档：

https://stable-baselines3.readthedocs.io/

Ray RLlib简介

Ray RLlib是一个可扩展的强化学习库，支持分布式训练，适合大规模强化学习应用。

主要特点：

分布式训练：支持多机多卡训练
丰富的算法：包含50+种算法实现
生产就绪：适合实际应用部署

安装方法：

安装命令

pip install "ray[rllib]"

官方文档：

https://docs.ray.io/en/latest/rllib/index.html

1

安装Python

推荐使用Python 3.8或更高版本

检查Python版本

python --version

2

创建虚拟环境

使用虚拟环境可以避免包冲突

创建虚拟环境

python -m venv rl_env
rl_env\Scripts\activate  # Windows
source rl_env/bin/activate  # macOS/Linux

3

安装核心库

安装强化学习开发所需的主要库

安装依赖

pip install numpy matplotlib
pip install gymnasium
pip install stable-baselines3
pip install torch

第一个强化学习程序

这是一个最简单的强化学习示例，使用随机策略在CartPole环境中进行交互。

simple_rl.py

import gymnasium as gym
import numpy as np

env = gym.make('CartPole-v1', render_mode='human')

for episode in range(5):
    obs, info = env.reset()
    total_reward = 0
    steps = 0
    
    while True:
        action = env.action_space.sample()
        obs, reward, terminated, truncated, info = env.step(action)
        total_reward += reward
        steps += 1
        
        if terminated or truncated:
            print(f"回合 {episode + 1}: 步数 = {steps}, 总奖励 = {total_reward:.2f}")
            break

env.close()

Grid World简介

Grid World是强化学习中最经典的环境之一，智能体在一个网格世界中移动，目标是到达终点。这个环境简单直观，非常适合理解强化学习的基本概念。

环境特点

离散状态空间：每个网格单元是一个状态
离散动作空间：通常包括上、下、左、右四个动作
简单直观：容易可视化和理解
适合教学：是学习Q-Learning、SARSA等算法的理想环境

Gymnasium中的Grid World环境

Gymnasium提供了多个Grid World变体：

FrozenLake-v1：智能体需要在冰面上移动到目标，有些地方会滑倒
FrozenLake8x8-v1：8x8版本的FrozenLake
Taxi-v3：出租车问题，智能体需要接乘客并送到目的地

FrozenLake环境示例

FrozenLake是一个经典的Grid World环境：

状态：16个网格位置（4x4）或64个（8x8）
动作：0=左，1=下，2=右，3=上
奖励：到达目标+1，掉入洞中0，其他0
滑冰：is_slippery=True时，动作可能不会按预期执行

gridworld_example.py

import gymnasium as gym
import numpy as np

# 创建FrozenLake环境
env = gym.make('FrozenLake-v1', is_slippery=True, render_mode='human')

# 查看环境信息
print(f"状态空间: {env.observation_space}")
print(f"动作空间: {env.action_space}")
print(f"状态数量: {env.observation_space.n}")
print(f"动作数量: {env.action_space.n}")

# 运行一个回合
obs, info = env.reset()
total_reward = 0
steps = 0

while True:
    # 随机选择动作
    action = env.action_space.sample()
    
    # 执行动作
    obs, reward, terminated, truncated, info = env.step(action)
    total_reward += reward
    steps += 1
    
    print(f"步数: {steps}, 状态: {obs}, 动作: {action}, 奖励: {reward}")
    
    if terminated or truncated:
        print(f"回合结束！总奖励: {total_reward}, 总步数: {steps}")
        break

env.close()

Atari环境简介

Atari 2600游戏环境是深度强化学习领域最重要的测试平台之一。DeepMind在2013年首次使用DQN在Atari游戏中达到人类水平，开启了深度强化学习的新时代。

环境特点

高维状态空间：状态是210x160x3的RGB图像
离散动作空间：每个游戏有不同数量的动作（通常4-18个）
部分可观测：单帧图像可能无法完全表示游戏状态
挑战性：需要处理视觉输入、长期依赖、稀疏奖励等问题

经典Atari游戏

Pong：乒乓球游戏，动作空间小，适合入门
Breakout：打砖块游戏，DQN的经典测试环境
Space Invaders：太空侵略者，需要处理多个敌人
MsPacman：吃豆人，状态空间复杂
Qbert：立方体跳跃游戏

环境安装

Atari环境需要额外安装：

安装命令

pip install gymnasium[atari]
pip install gymnasium[accept-rom-license]

使用示例

atari_example.py

import gymnasium as gym
import numpy as np

# 创建Atari环境（Pong游戏）
env = gym.make('ALE/Pong-v5', render_mode='human')

# 查看环境信息
print(f"状态空间: {env.observation_space}")
print(f"动作空间: {env.action_space}")
print(f"状态形状: {env.observation_space.shape}")

# 运行一个回合
obs, info = env.reset()
total_reward = 0
steps = 0

for step in range(1000):
    # 随机选择动作
    action = env.action_space.sample()
    
    # 执行动作
    obs, reward, terminated, truncated, info = env.step(action)
    total_reward += reward
    steps += 1
    
    if terminated or truncated:
        print(f"回合结束！总奖励: {total_reward}, 总步数: {steps}")
        obs, info = env.reset()
        total_reward = 0
        steps = 0

env.close()

注意事项

Atari环境需要安装ROM文件，可能需要接受许可协议
图像预处理很重要，通常需要灰度化、裁剪、缩放等
使用帧堆叠（frame stacking）来处理部分可观测问题
训练Atari游戏需要大量计算资源和时间

CartPole简介

CartPole（倒立摆）是强化学习中最经典的连续控制环境之一。智能体需要控制一个小车，使杆子保持平衡不倒。这个环境简单但具有挑战性，是学习强化学习算法的理想起点。

环境特点

连续状态空间：4维连续状态（小车位置、速度、杆角度、角速度）
离散动作空间：2个动作（向左推、向右推）
简单直观：容易理解和可视化
快速训练：可以在几分钟内训练出好的策略

状态空间

位置：小车在轨道上的位置（-2.4到2.4）
速度：小车的速度
角度：杆子与垂直方向的夹角（约-0.2到0.2弧度）
角速度：杆子的角速度

动作空间

0：向左推小车（施加-1的力）
1：向右推小车（施加+1的力）

奖励机制

每步奖励+1
当杆子倒下（角度>12度）或小车超出轨道时，回合结束
目标：保持杆子平衡尽可能长的时间（通常目标为500步）

使用示例

cartpole_example.py

import gymnasium as gym
import numpy as np

# 创建CartPole环境
env = gym.make('CartPole-v1', render_mode='human')

# 查看环境信息
print(f"状态空间: {env.observation_space}")
print(f"动作空间: {env.action_space}")
print(f"状态范围: {env.observation_space.low} 到 {env.observation_space.high}")

# 运行多个回合
for episode in range(5):
    obs, info = env.reset()
    total_reward = 0
    steps = 0
    
    while True:
        # 随机选择动作
        action = env.action_space.sample()
        
        # 执行动作
        obs, reward, terminated, truncated, info = env.step(action)
        total_reward += reward
        steps += 1
        
        if terminated or truncated:
            print(f"回合 {episode + 1}: 总奖励 = {total_reward}, 步数 = {steps}")
            break

env.close()

学习建议

CartPole是学习DQN、PPO、A2C等算法的理想环境
可以使用简单的神经网络（MLP）快速训练
通常几千到几万步就能达到500步的目标
适合作为强化学习项目的第一个实战环境

MountainCar简介

MountainCar是一个经典的稀疏奖励环境。智能体需要控制一辆小车，通过左右摆动来爬上一座山。这个环境的挑战在于：只有到达山顶才能获得奖励，这需要智能体学会"后退蓄力"的策略。

环境特点

稀疏奖励：只有到达目标才获得奖励，其他时候都是-1
反直觉策略：需要先后退蓄力，然后才能前进到目标
探索挑战：需要大量探索才能发现有效策略
连续状态空间：2维连续状态（位置、速度）

状态空间

位置：小车在轨道上的位置（-1.2到0.6）
速度：小车的速度（-0.07到0.07）

动作空间

0：向左推（施加-1的力）
1：不推（施加0的力）
2：向右推（施加+1的力）

奖励机制

每步奖励-1（鼓励快速到达目标）
到达目标位置（0.5）时回合结束
目标：在200步内到达山顶

挑战

MountainCar的主要挑战是稀疏奖励和反直觉策略：

小车初始位置在山谷底部，无法直接到达山顶
需要先向左（或右）摆动，积累速度
然后利用惯性冲上山顶
这需要智能体进行大量探索才能发现

使用示例

mountaincar_example.py

import gymnasium as gym
import numpy as np

# 创建MountainCar环境
env = gym.make('MountainCar-v0', render_mode='human')

# 查看环境信息
print(f"状态空间: {env.observation_space}")
print(f"动作空间: {env.action_space}")
print(f"状态范围: {env.observation_space.low} 到 {env.observation_space.high}")

# 运行多个回合
for episode in range(5):
    obs, info = env.reset()
    total_reward = 0
    steps = 0
    
    while True:
        # 随机选择动作
        action = env.action_space.sample()
        
        # 执行动作
        obs, reward, terminated, truncated, info = env.step(action)
        total_reward += reward
        steps += 1
        
        if terminated or truncated:
            print(f"回合 {episode + 1}: 总奖励 = {total_reward}, 步数 = {steps}")
            break

env.close()

学习建议

MountainCar是测试算法探索能力的好环境
需要足够的探索才能发现有效策略
适合测试Q-Learning、DQN等算法
可能需要调整探索策略（如更大的ε）

GRPO 算法介绍

GRPO (Group Relative Policy Optimization) 是一种专为大语言模型 (LLM) 推理任务设计的高效强化学习算法。它在 DeepSeek-R1 等模型的训练中发挥了关键作用，显著降低了 RLHF (Reinforcement Learning from Human Feedback) 的计算成本。

核心创新：移除 Critic 网络

传统的 PPO 算法需要训练一个 Critic (价值) 网络来估计优势函数 (Advantage)，这在 LLM 规模下会带来巨大的显存开销。GRPO 巧妙地通过群组归一化 (Group Normalization) 替代了 Critic 网络。

算法原理

群组采样：对于同一个输入提示 (Prompt)，模型采样生成一组 (Group) 输出结果 (例如 64 个)。
奖励计算：根据规则 (如数学题答案正确性) 或奖励模型，计算这组输出的奖励分数。
相对优势：计算该组内每个输出的相对优势 (Advantage)。即：(单个奖励 - 组平均奖励) / 组标准差。
策略更新：利用相对优势进行策略梯度更新，鼓励模型生成优于平均水平的输出。

KL 散度约束

为了防止模型偏离原始分布太远，GRPO 同样在损失函数中加入了 KL 散度惩罚项。

GRPO vs PPO

特性	PPO	GRPO
模型结构	Actor + Critic	仅 Actor (无需 Critic)
显存占用	高 (需加载 Critic)	低 (节省约 50%)
优势估计	GAE (依赖 Value Function)	组内相对归一化

GSPO 算法简介

GSPO (Group Sequence Policy Optimization) 是对传统策略优化方法的进一步扩展。虽然在主流文献中不如 PPO/GRPO 普及，但在处理长序列生成和复杂决策任务中展现出潜力。

核心思想

GSPO 关注于在长序列生成过程中，如何更好地利用群组信息来优化整个序列的策略，而不仅仅是单步 token 的预测。

关键特性

序列级评价：不仅评估单个动作，而是评估整个生成序列的质量。
多样性探索：通过群组采样机制，鼓励模型在探索不同解法的同时保持高质量输出。
稳健性：在具有多模态分布的任务中表现更佳。

注意： 该算法目前多见于特定领域的研究或变体中，具体实现细节可能随最新论文而演进。

强化学习概述

什么是强化学习？

核心要素：

State & Action

State（状态）

状态的定义

状态的类型

状态空间示例

Action（动作）

动作的定义

动作的类型

动作空间示例

状态-动作对

State Transition（状态转移）

状态转移的定义

转移过程

状态转移概率

确定性 vs 随机性

马尔可夫性质

转移函数

状态转移图

Policy（策略）

策略的定义

策略的数学表示

策略的类型

最优策略

策略的表示

策略学习

策略示例

Reward（奖励）

奖励的定义

奖励的作用

奖励函数

奖励的类型

奖励设计原则

奖励示例

奖励塑形（Reward Shaping）

累积奖励（Return）

Trajectory, Return & Episode

Episode（回合）

回合的特点

终止条件

Trajectory（轨迹）

轨迹的表示

轨迹的概率

轨迹示例

Return（回报）

总回报（Total Return）

折扣回报（Discounted Return）

回报的计算

回报示例

期望回报

马尔可夫决策过程（MDP）

马尔可夫决策过程（MDP）

MDP的组成：

价值函数与策略

价值函数与策略

关键概念：

Q-Learning算法

Q-Learning算法介绍

核心思想

算法原理

算法特点：

探索与利用

适用场景

局限性

SARSA算法

SARSA算法介绍

核心思想

算法原理

与Q-Learning的区别

算法特点：

适用场景

示例：Cliff Walking问题

深度Q网络（DQN）

DQN算法介绍

核心创新

关键技术

算法流程

损失函数