MDP 五元组

我们之前学习的所有概念:状态、动作、转移、奖励、折扣,合起来就构成了一个标准的马尔可夫决策过程 (Markov Decision Process, MDP)。它是描述强化学习问题的标准数学框架。

一个 MDP 通常由一个五元组 $(S, A, P, R, \gamma)$ 定义:

1. 状态空间 ($S$)

所有可能情况的集合。
例如:Robo 的网格 0-15。

2. 动作空间 ($A$)

智能体能做的事情。
例如:上下左右。

3. 转移概率 ($P$)

动作导致状态变化的规律。
例如:向右走 80% 到右边,20% 打滑。

4. 奖励函数 ($R$)

即时反馈。
例如:宝藏 +10,陷阱 -10,移动 -1。

5. 折扣因子 ($\gamma$)

对未来的重视程度。
范围 [0, 1]。

强化学习的目标

在 MDP 中,我们(或者说智能体)的终极目标是:

找到一个最优策略 $\pi^*$
使得从任意状态出发,累积的期望回报 (Expected Return) 最大化。

这个“期望回报”,在 RL 中通常用价值函数 (Value Function) 来量化。它就像给每个状态打个分,分数越高,说明从这里出发越容易赢。

核心公式:贝尔曼方程 (Bellman Equation)

价值函数之间存在着一种递归关系,这就是著名的贝尔曼方程。为了深入理解,我们需要先区分两种“价值”:

1. 状态价值函数 $V(s)$

"在这个状态有多好?"
假设我们遵循策略 $\pi$,从状态 $s$ 出发,直到游戏结束,平均能拿多少分。

2. 动作价值函数 $Q(s, a)$

"在这个状态选这个动作有多好?"
假设我们在状态 $s$ 强制执行动作 $a$,然后后续遵循策略 $\pi$,平均能拿多少分。

它们之间的关系是:$V(s) = \sum_{a} \pi(a|s) Q(s, a)$ (状态价值 = 所有可能动作价值的加权平均)。

贝尔曼期望方程 (Bellman Expectation Equation)

它描述了数据的“自洽性”。当前状态的价值,应该等于即时奖励加上下一个状态的价值(打折后):

$$ V_\pi(s) = \sum_{a} \pi(a|s) \sum_{s', r} P(s', r | s, a) \left[ r + \gamma V_\pi(s') \right] $$

贝尔曼最优方程 (Bellman Optimality Equation)

这是强化学习中最关键的方程!它告诉我们什么是“最优策略”。
如果我们想要表现最好,我们不需要关心“平均”能拿多少分,而是要关心最好能拿多少分。

最优状态价值 $V^*(s)$ 必须满足:

$$ V^*(s) = \max_{a} \sum_{s', r} P(s', r | s, a) \left[ r + \gamma V^*(s') \right] $$

通俗理解:
如果你身处状态 $s$,你应该环顾四周,看看做哪个动作 $a$ 能带给你最大的“即时奖励 + 未来潜能”,然后你就选那个最大的值作为当前状态的价值。

为什么这很重要?
一旦我们解出了这个方程(即知道了 $V^*$ 或 $Q^*$),最优策略就唾手可得了:贪婪地选 Q 值最大的动作即可。这就是 Q-Learning 和 DQN 的核心思想。

恭喜!
你已经掌握了强化学习最核心的基础概念。现在,你可以尝试学习具体的算法,看看智能体是如何一步步找到那个神奇的“最优策略”的。
进阶:学习 Q-Learning 算法