数学推导 - RL学习平台

1. 价值函数与贝尔曼方程

1.1 状态价值函数

状态价值函数$V^{\pi}(s)$表示从状态$s$开始，遵循策略$\pi$的期望回报：

$$V^{\pi}(s) = \mathbb{E}_{\pi}[G_t | S_t = s]$$

其中$G_t$是折扣回报：$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \ldots$

1.2 贝尔曼方程的推导

将期望回报展开：

$$V^{\pi}(s) = \mathbb{E}_{\pi}[R_{t+1} + \gamma G_{t+1} | S_t = s]$$

根据期望的线性性质：

$$V^{\pi}(s) = \mathbb{E}_{\pi}[R_{t+1} | S_t = s] + \gamma \mathbb{E}_{\pi}[G_{t+1} | S_t = s]$$

第一项是即时奖励的期望，第二项是未来回报的期望。对动作和下一状态求期望：

$$V^{\pi}(s) = \sum_{a} \pi(a|s) \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma V^{\pi}(s')]$$

这就是贝尔曼方程，它建立了当前状态价值与下一状态价值之间的关系。

1.3 动作价值函数

动作价值函数$Q^{\pi}(s,a)$表示在状态$s$执行动作$a$后，遵循策略$\pi$的期望回报：

$$Q^{\pi}(s,a) = \mathbb{E}_{\pi}[G_t | S_t = s, A_t = a]$$

类似地，可以推导出Q函数的贝尔曼方程：

$$Q^{\pi}(s,a) = \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma \sum_{a'} \pi(a'|s') Q^{\pi}(s',a')]$$

1.4 价值函数的关系

状态价值函数和动作价值函数的关系：

$$V^{\pi}(s) = \sum_{a} \pi(a|s) Q^{\pi}(s,a)$$

$$Q^{\pi}(s,a) = \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma V^{\pi}(s')]$$

2. 最优价值函数与最优策略

2.1 最优状态价值函数

最优状态价值函数$V^*(s)$是所有策略中能获得的最大价值：

$$V^*(s) = \max_{\pi} V^{\pi}(s)$$

最优贝尔曼方程：

$$V^*(s) = \max_{a} \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma V^*(s')]$$

2.2 最优动作价值函数

最优动作价值函数$Q^*(s,a)$是所有策略中能获得的最大动作价值：

$$Q^*(s,a) = \max_{\pi} Q^{\pi}(s,a)$$

最优Q函数的贝尔曼方程：

$$Q^*(s,a) = \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma \max_{a'} Q^*(s',a')]$$

2.3 最优策略

一旦得到$Q^*$，最优策略是贪心策略：

$$\pi^*(a|s) = \begin{cases} 1 & \text{if } a = \arg\max_{a'} Q^*(s,a') \\ 0 & \text{otherwise} \end{cases}$$

3. Q-Learning更新规则推导

3.1 时序差分学习

Q-Learning使用时序差分（TD）方法更新Q值。TD误差定义为：

$$\delta_t = R_{t+1} + \gamma \max_{a'} Q(S_{t+1}, a') - Q(S_t, A_t)$$

这个误差表示当前Q值与目标值（即时奖励+折扣后的最优未来价值）的差异。

3.2 Q-Learning更新公式

使用梯度下降的思想，Q值更新为：

$$Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha[R_{t+1} + \gamma \max_{a'} Q(S_{t+1}, a') - Q(S_t, A_t)]$$

其中$\alpha$是学习率。这个更新规则会逐步将Q值收敛到$Q^*$。

3.3 收敛性

在满足以下条件时，Q-Learning保证收敛到$Q^*$：

所有状态-动作对被无限次访问
学习率满足：$\sum_t \alpha_t = \infty$ 且 $\sum_t \alpha_t^2 < \infty$

4. 策略梯度定理

4.1 策略目标函数

策略梯度方法的目标是最大化期望回报：

$$J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}}[R(\tau)] = \int P(\tau|\theta) R(\tau) d\tau$$

其中$\tau$是轨迹，$R(\tau)$是轨迹的回报，$\theta$是策略参数。

4.2 策略梯度推导

对目标函数求梯度：

$$\nabla_{\theta} J(\theta) = \nabla_{\theta} \int P(\tau|\theta) R(\tau) d\tau$$

使用对数技巧：

$$\nabla_{\theta} J(\theta) = \int P(\tau|\theta) \nabla_{\theta} \log P(\tau|\theta) R(\tau) d\tau$$

这可以写成期望形式：

$$\nabla_{\theta} J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}}[\nabla_{\theta} \log P(\tau|\theta) R(\tau)]$$

4.3 轨迹概率的对数

轨迹概率：$P(\tau|\theta) = P(s_0) \prod_{t=0}^{T-1} \pi_{\theta}(a_t|s_t) P(s_{t+1}|s_t, a_t)$

取对数：

$$\log P(\tau|\theta) = \log P(s_0) + \sum_{t=0}^{T-1} [\log \pi_{\theta}(a_t|s_t) + \log P(s_{t+1}|s_t, a_t)]$$

对$\theta$求梯度，只有策略项有贡献：

$$\nabla_{\theta} \log P(\tau|\theta) = \sum_{t=0}^{T-1} \nabla_{\theta} \log \pi_{\theta}(a_t|s_t)$$

4.4 策略梯度公式

代入得到策略梯度：

$$\nabla_{\theta} J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}}\left[\sum_{t=0}^{T-1} \nabla_{\theta} \log \pi_{\theta}(a_t|s_t) R(\tau)\right]$$

使用回报到时间步$t$的累积奖励$G_t$，可以写成：

$$\nabla_{\theta} J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}}\left[\sum_{t=0}^{T-1} \nabla_{\theta} \log \pi_{\theta}(a_t|s_t) G_t\right]$$

5. 优势函数与Actor-Critic

5.1 优势函数

优势函数$A^{\pi}(s,a)$衡量动作$a$相对于平均动作的好坏：

$$A^{\pi}(s,a) = Q^{\pi}(s,a) - V^{\pi}(s)$$

使用优势函数可以减少策略梯度的方差。

5.2 Actor-Critic策略梯度

使用价值函数$V^{\pi}(s)$作为基线，策略梯度变为：

$$\nabla_{\theta} J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}}\left[\sum_{t=0}^{T-1} \nabla_{\theta} \log \pi_{\theta}(a_t|s_t) A^{\pi}(s_t, a_t)\right]$$

其中优势函数可以用TD误差估计：

$$A^{\pi}(s_t, a_t) \approx R_{t+1} + \gamma V^{\pi}(s_{t+1}) - V^{\pi}(s_t)$$

6. 总结

这些数学推导构成了强化学习的理论基础：

贝尔曼方程：建立了价值函数的递归关系
最优性：定义了最优策略和最优价值函数
Q-Learning：通过TD学习直接学习最优Q函数
策略梯度：通过梯度上升优化策略参数
Actor-Critic：结合价值函数和策略梯度，减少方差